阈值警报
您可以在警报编辑器中使用表单或 PromQL 定义 IBM Cloud Monitoring 阈值警报(以前称为“度量警报”)。
有关配置警报的更多信息,请参阅 使用警报编辑器配置警报。
指定触发阈值警报的条件
在警报编辑器中,在 度量和条件 部分中指定以下内容。
- 作用域
- 缺省情况下,该警报设置为应用于团队作用域的 整个基础结构。 但是,您可以通过按特定标签 (例如
container_name
或kube_namespace_name
) 进行过滤来限制警报作用域。 - 指标
- 选择要监视的度量值,并配置要聚集数据的方式。 然后,您可以选择最适合您需求的聚集方法。 例如,如果要了解整个集群中的平均等待时间,那么可以使用平均聚集。 或者,如果要识别等待时间最长的节点,可以使用最大聚集。
- 按细分市场分组
- 通过按标签 (例如
container_name
) 对度量进行分组,将为每个容器生成唯一的分段。 这允许您快速检测特定容器是否负责性能去重。 - 时间聚集
- 警报规则的“时间聚合”也称为“范围”,它决定所选指标聚合的时间窗口。 例如,如果为
cassandra_read_latency
指标选择avg
聚合,并指定一个范围,它就会计算该时间窗口内cassandra_read_latency
指标的平均值。 该范围定义了时间聚合时要考虑的度量值的时间跨度。 - Duration
- 持续时间定义警报条件在触发警报前必须持续满足的时间。 例如,持续时间为 10m意味着必须满足连续 10 分钟的条件。 如果在这段时间内任何时候都未满足警报条件,10 分钟计时器将重置,并且必须再次满足完整、不间断的 10 分钟条件。 设置较长的持续时间可防止因短暂的阈值违规而触发警报,从而减少误报。
时间聚合和持续时间
警报查询的时间聚合定义了评估相关度量数据的时间段。 它不应与警报规则的“持续时间”相混淆,后者指的是在触发警报之前必须满足警报条件的时间长度。
阈值
定义用于评估警报条件的阈值和时间范围。
聚集 | 描述 |
---|---|
average | 整个时间段内检索到的度量值的平均值。 |
sum | 评估时间段内度量的总和。 |
maximum | 时间段内检索到的度量值的最大值。 |
minimum | 时间段内检索到的度量值的最小值。 |
阈值警报通知中的图像
转发到 Slack 或电子邮件的阈值警报通知包括触发时间序列数据的快照。 对于 Slack 通知通道,可以在通知通道设置中启用或禁用快照。 当通道配置为 解决时通知时,通知中还会提供用于解析警报的时间序列数据的快照。
配置多个阈值
除了警报阈值外,还可以配置警告阈值。 警告阈值和警报阈值可以与不同的通知通道相关联。 在以下示例中,用户可能希望向 Slack 发送警告和警报通知,但如果满足警报阈值,那么还需要在Pager职责上对待命团队进行页面调阅。
如果警告和警报阈值都与同一通知通道相关联,那么立即超过警报阈值的度量将忽略警告阈值,并且仅触发警报阈值。
在没有度量数据时发出警报
当度量值停止报告数据时,无法评估使用这些度量值的警报。 要确保您了解发生这种情况的时间,可以通过在 设置 部分中配置 无数据 选项以忽略或通知,将警报配置为在 无数据 时通知。
将警报配置转换为 PromQL
您可以从表单自动转换为 PromQL,以利用 PromQL的灵活性和强大功能。 通过使用 转换为 PromQL 选项,您可以配置复杂查询。
例如,以下查询将查看主机上可用内存的百分比。
sysdig_host_memory_available_bytes / sysdig_host_memory_total_bytes * 100
阈值与查询分开配置,允许用户同时指定警报阈值和警告阈值。