阈值警报

您可以在警报编辑器中使用表单或 PromQL 定义 IBM Cloud Monitoring 阈值警报（以前称为“度量警报”）。

有关配置警报的更多信息，请参阅使用警报编辑器配置警报。

指定触发阈值警报的条件

在警报编辑器中，在 度量和条件 部分中指定以下内容。

作用域: 缺省情况下，该警报设置为应用于团队作用域的 整个基础结构。但是，您可以通过按特定标签 (例如 container_name 或 kube_namespace_name) 进行过滤来限制警报作用域。
指标: 选择要监视的度量值，并配置要聚集数据的方式。然后，您可以选择最适合您需求的聚集方法。例如，如果要了解整个集群中的平均等待时间，那么可以使用平均聚集。或者，如果要识别等待时间最长的节点，可以使用最大聚集。
按细分市场分组: 通过按标签 (例如 container_name) 对度量进行分组，将为每个容器生成唯一的分段。这允许您快速检测特定容器是否负责性能去重。
时间聚集: 警报规则的“时间聚合”也称为“范围”，它决定所选指标聚合的时间窗口。例如，如果为 cassandra_read_latency 指标选择 avg 聚合，并指定一个范围，它就会计算该时间窗口内 cassandra_read_latency 指标的平均值。该范围定义了时间聚合时要考虑的度量值的时间跨度。
Duration: 持续时间定义警报条件在触发警报前必须持续满足的时间。例如，持续时间为 10m意味着必须满足连续 10 分钟的条件。如果在这段时间内任何时候都未满足警报条件，10 分钟计时器将重置，并且必须再次满足完整、不间断的 10 分钟条件。设置较长的持续时间可防止因短暂的阈值违规而触发警报，从而减少误报。

时间聚合和持续时间

警报查询的时间聚合定义了评估相关度量数据的时间段。它不应与警报规则的“持续时间”相混淆，后者指的是在触发警报之前必须满足警报条件的时间长度。

阈值

定义用于评估警报条件的阈值和时间范围。

聚集方法
聚集	描述
average	整个时间段内检索到的度量值的平均值。
sum	评估时间段内度量的总和。
maximum	时间段内检索到的度量值的最大值。
minimum	时间段内检索到的度量值的最小值。

阈值警报通知中的图像

转发到 Slack 或电子邮件的阈值警报通知包括触发时间序列数据的快照。对于 Slack 通知通道，可以在通知通道设置中启用或禁用快照。当通道配置为 解决时通知时，通知中还会提供用于解析警报的时间序列数据的快照。

配置多个阈值

除了警报阈值外，还可以配置警告阈值。警告阈值和警报阈值可以与不同的通知通道相关联。在以下示例中，用户可能希望向 Slack 发送警告和警报通知，但如果满足警报阈值，那么还需要在Pager职责上对待命团队进行页面调阅。

如果警告和警报阈值都与同一通知通道相关联，那么立即超过警报阈值的度量将忽略警告阈值，并且仅触发警报阈值。

在没有度量数据时发出警报

当度量值停止报告数据时，无法评估使用这些度量值的警报。要确保您了解发生这种情况的时间，可以通过在设置部分中配置 无数据 选项以忽略或通知，将警报配置为在 无数据 时通知。

将警报配置转换为 PromQL

您可以从表单自动转换为 PromQL，以利用 PromQL的灵活性和强大功能。通过使用 转换为 PromQL 选项，您可以配置复杂查询。

例如，以下查询将查看主机上可用内存的百分比。

sysdig_host_memory_available_bytes / sysdig_host_memory_total_bytes * 100

阈值与查询分开配置，允许用户同时指定警报阈值和警告阈值。