IBM Cloud Docs
阈值警报

阈值警报

您可以在警报编辑器中使用表单或 PromQL 定义 IBM Cloud Monitoring 阈值警报(以前称为“度量警报”)。

有关配置警报的更多信息,请参阅 使用警报编辑器配置警报

指定触发阈值警报的条件

在警报编辑器中,在 度量和条件 部分中指定以下内容。

作用域
缺省情况下,该警报设置为应用于团队作用域的 整个基础结构。 但是,您可以通过按特定标签 (例如 container_namekube_namespace_name) 进行过滤来限制警报作用域。
指标
选择要监视的度量值,并配置要聚集数据的方式。 然后,您可以选择最适合您需求的聚集方法。 例如,如果要了解整个集群中的平均等待时间,那么可以使用平均聚集。 或者,如果要识别等待时间最长的节点,可以使用最大聚集。
按细分市场分组
通过按标签 (例如 container_name) 对度量进行分组,将为每个容器生成唯一的分段。 这允许您快速检测特定容器是否负责性能去重。
时间聚集
警报规则的“时间聚合”也称为“范围”,它决定所选指标聚合的时间窗口。 例如,如果为 cassandra_read_latency 指标选择 avg 聚合,并指定一个范围,它就会计算该时间窗口内 cassandra_read_latency 指标的平均值。 该范围定义了时间聚合时要考虑的度量值的时间跨度。
Duration
持续时间定义警报条件在触发警报前必须持续满足的时间。 例如,持续时间为 10m意味着必须满足连续 10 分钟的条件。 如果在这段时间内任何时候都未满足警报条件,10 分钟计时器将重置,并且必须再次满足完整、不间断的 10 分钟条件。 设置较长的持续时间可防止因短暂的阈值违规而触发警报,从而减少误报。

时间聚合和持续时间

警报查询的时间聚合定义了评估相关度量数据的时间段。 它不应与警报规则的“持续时间”相混淆,后者指的是在触发警报之前必须满足警报条件的时间长度。

阈值

定义用于评估警报条件的阈值和时间范围。

聚集方法
聚集 描述
average 整个时间段内检索到的度量值的平均值。
sum 评估时间段内度量的总和。
maximum 时间段内检索到的度量值的最大值。
minimum 时间段内检索到的度量值的最小值。

阈值警报通知中的图像

转发到 Slack 或电子邮件的阈值警报通知包括触发时间序列数据的快照。 对于 Slack 通知通道,可以在通知通道设置中启用或禁用快照。 当通道配置为 解决时通知时,通知中还会提供用于解析警报的时间序列数据的快照。

配置多个阈值

除了警报阈值外,还可以配置警告阈值。 警告阈值和警报阈值可以与不同的通知通道相关联。 在以下示例中,用户可能希望向 Slack 发送警告和警报通知,但如果满足警报阈值,那么还需要在Pager职责上对待命团队进行页面调阅。

如果警告和警报阈值都与同一通知通道相关联,那么立即超过警报阈值的度量将忽略警告阈值,并且仅触发警报阈值。

在没有度量数据时发出警报

当度量值停止报告数据时,无法评估使用这些度量值的警报。 要确保您了解发生这种情况的时间,可以通过在 设置 部分中配置 无数据 选项以忽略或通知,将警报配置为在 无数据 时通知。

将警报配置转换为 PromQL

您可以从表单自动转换为 PromQL,以利用 PromQL的灵活性和强大功能。 通过使用 转换为 PromQL 选项,您可以配置复杂查询。

例如,以下查询将查看主机上可用内存的百分比。

sysdig_host_memory_available_bytes / sysdig_host_memory_total_bytes * 100

阈值与查询分开配置,允许用户同时指定警报阈值和警告阈值。