Use Amazon CloudWatch metrics#

Keywords: AWS, Amazon, CloudWatch, CW, Metric, Metrics

What is Metrics#

Metrics 本质上是对某个特定的指标的 measurement 的时间序列. 你可以理解为对 Logs 时间序列数据计算后的结果. 它本质上也是一个离散的时间序列. 通常一个 Metrics 是一个单一指标. 而 metrics 的 metadata 被称为 dimension (非常重要). 例如 EC2 的 CPU usage 是 metrics, 而 EC2 instance id 就是 dimension. 这是时间序列数据建模的关键技术之一.

Reference:

Use Amazon CloudWatch metrics

Dimension#

Metrics Insights Query#

Metrics Insights Query 是一个对 Metrics 时间序列用类 SQL 语言来查询的工具. 他跟 CloudWatch Logs Insights 是完全不同的两个东西, 请不要将其混淆.

它的主要功能是, SELECT namespace/metrics, 限定在一定的时间区间内, 用 dimension 对 metrics 进行过滤, 然后用数学函数对其进行计算或者按照 time interval 进行聚合.

下面我们来看一个例子. 我们的日志数据是记录两个服务器 server 1, 2 上的响应时间. 下面这个脚本可以生成日志数据.

s1_data_faker.py

# -*- coding: utf-8 -*-

import typing as T
import time
import random
import dataclasses

from recipe import (
    create_log_group,
    delete_log_group,
    create_log_stream,
    Event,
    BaseJsonMessage,
    put_log_events,
)
from config import bsm, logs_client, aws, group_name, stream_name_1, stream_name_2


def set_up():
    """
    Set up cloudwatch logs resource for this example.
    """
    create_log_group(logs_client, group_name)
    create_log_stream(logs_client, group_name, stream_name_1)
    create_log_stream(logs_client, group_name, stream_name_2)
    print(aws.cloudwatch.get_log_group(group_name))


@dataclasses.dataclass
class StatusMessage(BaseJsonMessage):
    server_id: str = dataclasses.field()
    status: str = dataclasses.field()


@dataclasses.dataclass
class ProcessingTimeMessage(BaseJsonMessage):
    server_id: str = dataclasses.field()
    processing_time: int = dataclasses.field()


server_id_list = [stream_name_1, stream_name_2]


def rand_event() -> T.List[T.Union[ProcessingTimeMessage, StatusMessage]]:
    """
    70% chance it succeeds, 30% chance it fails. When succeeded, it will generate
    two messages, one for status and one for processing time. When failed, it will
    generate one failed message for status.
    """
    server_id = random.choice(server_id_list)
    stream_name = server_id
    if random.randint(1, 100) <= 70:
        messages = [
            StatusMessage(
                server_id=server_id,
                status="succeeded",
            ),
            ProcessingTimeMessage(
                server_id=server_id,
                processing_time=random.randint(1000, 10000),
            ),
        ]
    else:
        messages = [
            StatusMessage(
                server_id=server_id,
                status="failed",
            )
        ]
    put_log_events(
        bsm.cloudwatchlogs_client,
        group_name,
        stream_name,
        events=[Event(message=message.to_json()) for message in messages],
    )
    return messages


def run_data_faker():
    """
    Run :func:`rand_event` every 1 second.

    Ref: https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/cloudwatch_limits_cwl.html

    The maximum batch size of a PutLogEvents request is 1MB.

    **800** transactions per second per account per Region, except for the following Regions where the quota is 1500 transactions per second per account per Region: US East (N. Virginia), US West (Oregon), and Europe (Ireland). You can request an increase to the per-second throttling quota by using the Service Quotas service.
    """
    ith = 0
    while True:
        ith += 1
        print(f"ith: {ith} sec")
        time.sleep(1)
        messages = rand_event()
        for message in messages:
            print(f"  {message}")


def clean_up():
    """
    Clearn up cloudwatch logs resource for this example.
    """
    delete_log_group(logs_client, group_name)


if __name__ == "__main__":
    set_up()
    run_data_faker()
    # clean_up()

下面这个脚本使用了 metrics filter 来对日志进行过滤, 并生成了一个 metrics. 这个 metrics 是带 dimension 的, dimension 数据是从 server_id 中提取出来的.

s2_create_metrics.py

# -*- coding: utf-8 -*-

"""
This script creates a custom metrics based on the log event data.
"""

from config import logs_client, group_name, metric_namespace, metric_name

# ref: https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/logs/client/put_metric_filter.html
logs_client.put_metric_filter(
    logGroupName=group_name,
    filterName="ProcessingTime",
    filterPattern='{ $.processing_time = "*" }',
    metricTransformations=[
        {
            "metricNamespace": metric_namespace,
            "metricName": metric_name,
            "metricValue": "$.processing_time",
            "dimensions": {
                "server_id": "$.server_id",
            },
        },
    ],
)

下面这个脚本使用了 metrics insights query 来进行分析. 它有两种 API 风格. 一种是用结构化的 JSON 来 build 这个 query. 还有一种是用 SQL 语法来描述这个 query. SQL 语法更简洁好学, 但不适合参数化 (小心 SQL 注入). 下面这个例子两种方法都展示了.

s3_metrics_insight.py

# -*- coding: utf-8 -*-

"""
Learn how to use get_metric_data API to query metrics

Ref:

- Metrics Insights query components and syntax: https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-metrics-insights-querylanguage.html
- cloudwatch_client.get_metric_data: https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/cloudwatch/client/get_metric_data.html
"""

from textwrap import dedent
from datetime import datetime, timezone, timedelta
from config import (
    cw_client,
    metric_namespace,
    metric_name,
    stream_name_1,
    stream_name_2,
)


now = datetime.utcnow().replace(tzinfo=timezone.utc)
five_minutes_ago = now - timedelta(minutes=5)


def print_get_metric_data_response(res: dict):
    dct = {
        "Timestamps": res["MetricDataResults"][0]["Timestamps"],
        "Values": res["MetricDataResults"][0]["Values"],
    }
    print(dct)


def _use_metric_stat(dimensions: list) -> dict:
    return cw_client.get_metric_data(
        MetricDataQueries=[
            dict(
                Id="id1",
                MetricStat=dict(
                    Metric=dict(
                        Namespace=metric_namespace,
                        MetricName=metric_name,
                        Dimensions=dimensions,
                    ),
                    Period=60,
                    Stat="Average",
                ),
                ReturnData=True,
            ),
        ],
        StartTime=five_minutes_ago,
        EndTime=now,
        ScanBy="TimestampAscending",
    )


def use_metric_stat():
    """
    Here's a tricky part, you cannot use multiple dimensions with same name,
    only the last one will be used.
    It is NOT logic OR, and metrics insight doesn't support logic OR.
    """
    dimensions = [
        dict(Name="server_id", Value=stream_name_1),
        dict(Name="server_id", Value=stream_name_2),
    ]
    res = _use_metric_stat(dimensions=dimensions)
    print(dimensions)
    print_get_metric_data_response(res)

    dimensions = [
        # dict(Name="server_id", Value=stream_name_1),
        dict(Name="server_id", Value=stream_name_2),
    ]
    res = _use_metric_stat(dimensions=dimensions)
    print(dimensions)
    print_get_metric_data_response(res)

    dimensions = [
        dict(Name="server_id", Value=stream_name_2),
        dict(Name="server_id", Value=stream_name_1),
    ]
    res = _use_metric_stat(dimensions=dimensions)
    print(dimensions)
    print_get_metric_data_response(res)

    dimensions = [
        dict(Name="server_id", Value=stream_name_1),
        # dict(Name="server_id", Value=stream_name_2),
    ]
    res = _use_metric_stat(dimensions=dimensions)
    print(dimensions)
    print_get_metric_data_response(res)

    res = _use_metric_stat(
        dimensions=[
            # dict(Name="server_id", Value=stream_name_1),
            # dict(Name="server_id", Value=stream_name_2),
        ]
    )
    print_get_metric_data_response(res)


def _use_expression(sql: str) -> dict:
    return cw_client.get_metric_data(
        MetricDataQueries=[
            dict(
                Id="id1",
                Expression=dedent(sql.strip()),
                Period=60,
                ReturnData=True,
            ),
        ],
        StartTime=five_minutes_ago,
        EndTime=now,
        ScanBy="TimestampAscending",
    )


def use_expression():
    """
    Metric insights doesn't support logic or, so we should use != instead.

    List of queries:

    SELECT AVG({metric_name}) FROM SCHEMA({metric_namespace}, server_id) WHERE server_id = '{stream_name_1}'
    SELECT AVG({metric_name}) FROM SCHEMA({metric_namespace}, server_id) WHERE server_id = '{stream_name_2}'
    SELECT AVG({metric_name}) FROM SCHEMA({metric_namespace}, server_id) WHERE server_id != 'xyz'
    SELECT AVG({metric_name}) FROM SCHEMA({metric_namespace})
    """
    sql = f"SELECT AVG({metric_name}) FROM SCHEMA({metric_namespace}, server_id) WHERE server_id = '{stream_name_1}'"
    res = _use_expression(sql)
    print(sql)
    print_get_metric_data_response(res)

    sql = f"SELECT AVG({metric_name}) FROM SCHEMA({metric_namespace}, server_id) WHERE server_id = '{stream_name_2}'"
    res = _use_expression(sql)
    print(sql)
    print_get_metric_data_response(res)

    sql = f"SELECT AVG({metric_name}) FROM SCHEMA({metric_namespace}, server_id) WHERE server_id != 'xyz'"
    res = _use_expression(sql)
    print(sql)
    print_get_metric_data_response(res)

    sql = f"SELECT AVG({metric_name}) FROM SCHEMA({metric_namespace})"
    res = _use_expression(sql)
    print(sql)
    print_get_metric_data_response(res)


if __name__ == "__main__":
    use_metric_stat()
    use_expression()

Reference: