IBM Cloud Docs
处理警报和事件

处理警报和事件

在里面IBM Cloud Monitoring服务,您可以配置单一警报和多条件警报来通知可能需要注意的问题。 当触发警报时,您可以通过 1 个或多个通知渠道收到通知。 警报定义可以生成多渠道通知。

警报是一种通知事件,可用于发出有关需要注意的情境的警告。 每个警报都具有严重性状态。 此状态会通知您所报告信息的重要程度。

定义警报时,您必须定义触发通知的条件、要借以获得通知的一个或多个通知通道。 您还必须定义警报的严重性以及警报的类型。 有关如何配置警报的详细信息,请参阅 配置警报

缺省情况下,严重性设置为警告。 可以将警报的严重性设置为以下任一值:紧急警报严重错误警告通知参考调试

您可以针对单个指标或一组指标定义警报,以通知您想要监控的事件或问题。

  • 您可以定义单一条件警报。
  • 您可以定义多条件警报。 警报阈值是使用复杂条件配置的。
  • 您可以定义数据的聚合方式。
  • 您可以使用布尔逻辑来定义报告多个指标的警报。
  • 当满足警报条件时,您会收到通知。
  • 您可以为每个警报配置多个通知通道。
  • 警报在收到后 1 分钟或更短时间内执行,可以选择按小时或天配置触发等待时间。
  • 为了PromQL仅警报,您可以选择配置 0 分钟的等待时间。

您可以在 Web UI 中启用预定义警报、修改警报和创建自定义警报,也可以使用IBM Cloud MonitoringAPI。API。

可在 Web UI 的警报视图中管理警报。 可以配置警报视图中显示的表列。 有效列选项为“名称”、“范围”、“警报时间”、“分段”、“通知”、“已启用”、“改装”、“捕获”、“渠道”、“创建”、“说明”、“电子邮件收件人”、“至少”、"OpsGenie"、“呼叫器值班”、“严重性”、“松弛”、“网络钩子”、“类型”和 "VictorOps"。

警报类型

这IBM Cloud Monitoring服务包括您可以启用的预定义警报。 此外,您还可以使用 REST API 在仪表板的面板中配置自定义警报,或者在警报Web UI 部分。

在里面IBM Cloud Monitoring服务,您可以定义以下任意类型的警报:

  • 停机时间:使用此类警报来监控源并在其停机时发出警报,例如裸机。

  • 指标:使用此类警报来监控时间序列指标,并在其达到定义的阈值时发出警报。

  • PromQL:使用此指标类型可通过PromQL查询监控指标。

  • 事件:使用此类警报来监视特定事件的发生,并在其达到定义的阈值时发出警报。 例如,您可以使用此警报来监视报告大量未经授权的访问请求的情况。

  • 异常检测:使用此类警报根据历史行为监控主机,并在其偏离预期模式时发出警报。

    此类警报已被弃用。 您只能管理此类型的现有警报。

  • 组异常值:使用此类警报来监视主机,当某个主机的行为与其他主机不同时收到通知。

    此类警报已被弃用。 您只能管理此类型的现有警报。

通知通道

通知渠道定义了当触发警报时您希望在哪里接收信息。

配置警报时,您可以指定 1 个或多个通知渠道。

默认情况下,当触发警报时,您会在活动部分。

您可以配置以下任一通知渠道:

  • 电子邮件
  • IBM Event Notifications
  • Microsoft Teams
  • OpsGenie
  • PagerDuty
  • Slack
  • 团队电子邮件
  • VictorOps
  • WebHook

事件

事件是一种通知,用于通知在将数据转发到 Monitoring 实例的任何节点中发生的活动。 使用事件可复查、跟踪和解决问题。

以下列表概述了不同类型的事件:

  • 警报事件是由用户配置的警报触发的事件。
  • 基于基础架构的事件是从 Docker 和 Kubernetes 节点收集的事件。 默认情况下,监控代理会自动发现并收集一组选定事件的数据。 可以编辑代理程序配置文件来启用更多事件。
  • 定制事件是通过以下任一集成配置的事件:Slackbot、预构建的 Python 脚本、用户创建的定制 Python 脚本或 cURL 请求。

缺省情况下,事件具有状态:

  • 活动:此状态指示触发事件的情况仍然存在,例如节点一直停止运行。
  • 正常:此状态指示情境已恢复正常,例如节点已启动并在运行。

可在 Web UI 的事件部分中管理事件。

  • 可以通过警报事件选项卡来查看警报事件。
  • 可以通过定制事件选项卡来查看基于基础架构的事件。
  • 可以通过定制事件选项卡来查看定制事件。
  • 可以使用任一团队的 API 令牌向该团队发送定制事件。 有关详细信息,请参阅For more information, see 自定义事件)
  • 您可以将事件设置为已解决,以通知其他用户问题已解决,而不需要等待状态设置为正常