处理警报和事件
在里面IBM Cloud Monitoring服务,您可以配置单一警报和多条件警报来通知可能需要注意的问题。 当触发警报时,您可以通过 1 个或多个通知渠道收到通知。 警报定义可以生成多渠道通知。
警报是一种通知事件,可用于发出有关需要注意的情境的警告。 每个警报都具有严重性状态。 此状态会通知您所报告信息的重要程度。
定义警报时,您必须定义触发通知的条件、要借以获得通知的一个或多个通知通道。 您还必须定义警报的严重性以及警报的类型。 有关如何配置警报的详细信息,请参阅 配置警报。
缺省情况下,严重性设置为警告。 可以将警报的严重性设置为以下任一值:紧急、警报、严重、错误、警告、通知、参考和调试。
您可以针对单个指标或一组指标定义警报,以通知您想要监控的事件或问题。
- 您可以定义单一条件警报。
- 您可以定义多条件警报。 警报阈值是使用复杂条件配置的。
- 您可以定义数据的聚合方式。
- 您可以使用布尔逻辑来定义报告多个指标的警报。
- 当满足警报条件时,您会收到通知。
- 您可以为每个警报配置多个通知通道。
- 警报在收到后 1 分钟或更短时间内执行,可以选择按小时或天配置触发等待时间。
- 为了PromQL仅警报,您可以选择配置 0 分钟的等待时间。
您可以在 Web UI 中启用预定义警报、修改警报和创建自定义警报,也可以使用IBM Cloud MonitoringAPI。API。
可在 Web UI 的警报视图中管理警报。 可以配置警报视图中显示的表列。 有效列选项为“名称”、“范围”、“警报时间”、“分段”、“通知”、“已启用”、“改装”、“捕获”、“渠道”、“创建”、“说明”、“电子邮件收件人”、“至少”、"OpsGenie"、“呼叫器值班”、“严重性”、“松弛”、“网络钩子”、“类型”和 "VictorOps"。
警报类型
这IBM Cloud Monitoring服务包括您可以启用的预定义警报。 此外,您还可以使用 REST API 在仪表板的面板中配置自定义警报,或者在警报Web UI 部分。
在里面IBM Cloud Monitoring服务,您可以定义以下任意类型的警报:
-
停机时间:使用此类警报来监控源并在其停机时发出警报,例如裸机。
-
指标:使用此类警报来监控时间序列指标,并在其达到定义的阈值时发出警报。
-
PromQL:使用此指标类型可通过PromQL查询监控指标。
-
事件:使用此类警报来监视特定事件的发生,并在其达到定义的阈值时发出警报。 例如,您可以使用此警报来监视报告大量未经授权的访问请求的情况。
-
异常检测:使用此类警报根据历史行为监控主机,并在其偏离预期模式时发出警报。
此类警报已被弃用。 您只能管理此类型的现有警报。
-
组异常值:使用此类警报来监视主机,当某个主机的行为与其他主机不同时收到通知。
此类警报已被弃用。 您只能管理此类型的现有警报。
通知通道
通知渠道定义了当触发警报时您希望在哪里接收信息。
配置警报时,您可以指定 1 个或多个通知渠道。
默认情况下,当触发警报时,您会在活动部分。
您可以配置以下任一通知渠道:
- 电子邮件
- IBM Event Notifications
- Microsoft Teams
- OpsGenie
- PagerDuty
- Slack
- 团队电子邮件
- VictorOps
- WebHook
事件
事件是一种通知,用于通知在将数据转发到 Monitoring 实例的任何节点中发生的活动。 使用事件可复查、跟踪和解决问题。
以下列表概述了不同类型的事件:
- 警报事件是由用户配置的警报触发的事件。
- 基于基础架构的事件是从 Docker 和 Kubernetes 节点收集的事件。 默认情况下,监控代理会自动发现并收集一组选定事件的数据。 可以编辑代理程序配置文件来启用更多事件。
- 定制事件是通过以下任一集成配置的事件:Slackbot、预构建的 Python 脚本、用户创建的定制 Python 脚本或 cURL 请求。
缺省情况下,事件具有状态:
- 活动:此状态指示触发事件的情况仍然存在,例如节点一直停止运行。
- 正常:此状态指示情境已恢复正常,例如节点已启动并在运行。
可在 Web UI 的事件部分中管理事件。
- 可以通过警报事件选项卡来查看警报事件。
- 可以通过定制事件选项卡来查看基于基础架构的事件。
- 可以通过定制事件选项卡来查看定制事件。
- 可以使用任一团队的 API 令牌向该团队发送定制事件。 有关详细信息,请参阅For more information, see 自定义事件)。
- 您可以将事件设置为已解决,以通知其他用户问题已解决,而不需要等待状态设置为正常。