IBM Cloud Docs
默认警报参考

默认警报参考

Cloud Databases 与 IBM Cloud® Monitoring 集成,提供数据库实例健康状况和性能的可视性。 监控和警报可帮助管理员及早发现问题、应对资源限制并保持服务可靠性。 从 2025 年 12 月开始,当 启用平台指标 时,IBM Cloud Monitoring 将为每个新的和现有的 Cloud Databases 实例自动启用一组最多五个关键警报的默认设置。 这些警报将监控内存使用、磁盘 I/O 和 CPU 负载等关键资源指标,并预先配置为向账户所有者的电子邮件发送通知。

本指南介绍为受管数据库安装的关键警报。 对于每个警报,我们都会概述该指标的监控内容、其对性能和可用性的重要性,以及触发警报时建议采取的措施。 使用此参考资料可主动管理容量,防止容量或设置相关的中断,并保持弹性。

设置监控

只有与 IBM Cloud Monitoring 集成,才能安装默认警报,以获得对其应用程序、服务和平台的性能和健康状况的操作可见性。

要开始收集数据库实例的指标:

  1. 供应 IBM Cloud Monitoring 的实例。
  2. 在与您的数据库实例相同的区域启用平台指标
  3. 从云控制台中的 IBM Cloud Monitoring 部分访问您的监控仪表板。

多区域 (MZR) 中实例的指标可在区域内获得。 对于单区域(SZR),指标会被转发至指定的多区域(MZR),例如 che01

更多信息,请参阅 Cloud DatabasesIBM Cloud Monitoring 整合

重要警报:益处和应对指南

Cloud Databases 提供了一套通用和特定于服务的指标,帮助你监控性能和资源使用情况。 每个数据库支持的每个指标都列在文档的可观察性部分。 对于一些关键指标,至少设置了一个警报,以便在超过阈值时通知您。 这些警报的说明如下。 要查看每个数据库的完整指标列表,请参阅 ICD 监控集成

PostgreSQL 警报

PostgreSQL 警报
警报 条件 说明
PostgreSQL CPU使用率超过90%
avg by (ibm_service_instance_name, ibm_service_instance, ibm_scope, ibm_resource) (avg_over_time (ibm_databases_for_postgresql_cpu_used_percent[10m])) > 0.9

0.95

该指标跟踪 Databases for PostgreSQL 的 CPU 占用率。 当使用率持续高于90%时,数据库可能会变慢、导致事务阻塞或引发应用程序超时。 持续的 CPU 压力通常是由于查询效率低、工作负载大或资源不足造成的。 审查并优化昂贵的查询或扩展计算资源,以恢复余量。
PostgreSQL 磁盘使用率超过80%
max by (ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time (ibm_databases_for_postgresql_disk_used_percent[10m])) > 0.8

0.80

跟踪 Databases for PostgreSQL 实例的最大磁盘使用量。 超过80%时,至少有一个实例已临近空间耗尽的临界点,可能导致交易被阻塞及性能下降。 立即扩展存储、归档或清除未使用的数据。

MongoDB 警报

MongoDB 警报
警报 条件 说明
MongoDB CPU使用率超过90%
avg by (ibm_service_instance_name, ibm_service_instance, ibm_scope, ibm_resource) (avg_over_time (ibm_databases_for_mongodb_cpu_used_percent[10m])) > 0.9

0.90

CPU使用率超过90%表明 Databases for MongoDB 存在高负载查询或容量不足。 持续的压力会影响复制延迟、写入吞吐量和查询延迟。 使用剖析工具查看速度较慢的查询,根据需要对数据进行分片或索引,或扩展实例的 CPU 资源。
MongoDB 磁盘使用率超过90%
max by (ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time (ibm_databases_for_mongodb_disk_used_percent[10m])) > 0.9

0.90

该指标跟踪整个实例的最大 Databases for MongoDB 磁盘使用量。 当空间使用率超过90%时,日志记录、复制和存储引擎操作可能失败。Databases for MongoDB 系统需要足够的可用空间来执行内部写入和恢复操作。 扩展存储、归档或清除未使用的收藏集,以防止写入失败。
MongoDB 连接数大于1000
sum by (ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time (ibm_databases_for_mongodb_connections[10m])) > 1000

1000

该指标显示的是 Databases for MongoDB 的活动客户端连接。 超过 1000 个连接可能会使可用资源不堪重负,从而导致错误或性能下降。 连接浪涌通常来自未共享的应用程序或行为不端的客户端。 实施连接池,并在必要时扩展实例以处理需求。

MySQL 警报

MySQL 警报
警报 条件 说明
MySQL CPU使用率超过95%
avg by (ibm_service_instance_name, ibm_service_instance, ibm_scope, ibm_resource) (avg_over_time (ibm_databases_for_mysql_cpu_used_percent[10m])) > 0.95

0.95

Databases for MySQL CPU 超过 95% 表示系统查询或后台进程过多。 这会延误事务处理,降低应用程序性能。 调整低效查询(例如,通过 EXPLAIN 计划)或扩展计算能力以满足需求。
MySQL 磁盘使用率超过90%
max by(ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time (ibm_databases_for_mysql_disk_used_percent[10m])) > 0.9

0.90

最大磁盘使用率超过 90%,表明至少有一个 Databases for MySQL 实例的空间即将耗尽。 这会导致交易停止并降低稳定性。 立即添加存储,清除或归档未使用的表格,以减少压力。
MySQL 连接数超过可用总数的
95% avg by (ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time (ibm_databases_for_mysql_connection_used_percent[10m])) > 0.95

0.95

该指标跟踪已使用 Databases for MySQL 连接的百分比。 当达到 100% 时,新客户端将被阻止,从而导致连接错误。 当连接使用率超过 95% 时,应谨慎增加 max_connections,或采用连接池来避免过载。

Elasticsearch 警报

Elasticsearch 警报
警报 条件 说明
Elasticsearch CPU使用率超过95%
avg by (ibm_service_instance_name, ibm_service_instance, ibm_scope, ibm_resource) (avg_over_time (ibm_databases_for_elasticsearch_cpu_used_percent[10m])) > 0.95

0.95

Databases for Elasticsearch CPU 使用率超过 95% 会影响索引、查询和集群响应速度。 持续超负荷会导致节点不稳定。 优化查询、减少分片数量或扩展计算资源。
Elasticsearch 集群状态为红色
avg by (ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time ibm_databases_for_elasticsearch_cluster_status[10m])) == 0
= 0 集群状态 = 0 表示 Databases for Elasticsearch 为红色,即主分片丢失或未指定。 这会带来数据丢失的风险。 检查节点健康状况,确保有足够的磁盘空间,并重新分配分片。
Elasticsearch 磁盘使用率超过80%
max by (ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time (ibm_databases_for_elasticsearch_disk_used_percent[10m])) > 0.8

0.80

Databases for Elasticsearch 磁盘使用率超过80%将阻止新建索引或副本,并可能导致集群不稳定。 自由空间对分区平衡和合并至关重要。 扩展存储空间,删除或归档旧索引。
Elasticsearch JVM堆内存使用率超过95%
avg by (ibm_service_instance_name, ibm_service_instance, ibm_scope, ibm_resource) (avg_over_time (ibm_databases_for_elasticsearch_jvm_heap_percent[10m])) > 95

95

Databases for Elasticsearch 中的 JVM 堆超过 95%,表明垃圾收集压力大,节点有崩溃的风险。 谨慎增加堆大小、优化查询或扩展集群以分散负载。

Redis 警报

Redis 警报
警报 条件 说明
Redis 内存使用率超过85%
max by (ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time (ibm_databases_for_redis_memory_used_percent[10m])) > 0.85

0.85

Databases for Redis 是由内存驱动的,使用率超过 85% 时,就有可能出现强制唤出键或 OOM 错误。 如果触发驱逐策略,高内存压力会导致不可预测的数据丢失。 根据应用需求调整内存分配或执行 TTL/禁止策略。
Redis 磁盘使用率超过80%
max by (ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time (ibm_databases_for_redis_disk_used_percent[10m])) > 0.80

0.80

Databases for Redis 持久性依赖于快照和 AOF 日志的磁盘空间。 当使用率超过80%时,数据持久化可能失败,从而危及数据的持久性。 扩展存储容量或清理不必要的密钥和备份。
Redis 连接数大于9500
avg by (ibm_service_instance_name, ibm_service_instance, ibm_scope, ibm_resource) (avg_over_time (ibm_databases_for_redis_connected_clients[10m])) > 9500

9500

该指标衡量连接的 Databases for Redis 客户端数量。 超过 9 500 次会导致网络资源不堪重负、响应速度变慢或连接中断。 确保高效的客户端池,并在工作负载需要更多连接时扩展 Databases for Redis 实例。

RabbitMQ 警报

RabbitMQ 警报
警报 条件 说明
RabbitMQ CPU使用率超过95%
avg by (ibm_service_instance_name, ibm_service_instance, ibm_scope, ibm_resource) (avg_over_time(ibm_messages_for_rabbitmq_cpu_used_percent[10m])) > 0.95

0.95

Messages for RabbitMQ CPU 超过 95%,表明代理因报文吞吐量或路由而超负荷。 CPU 持续饱和有可能导致速度变慢或信息丢失。 扩展计算或优化路由/队列。
avg(avg (ibm_messages_for_rabbitmq_disk_used_percent))

0.85

Messages for RabbitMQ 依靠磁盘来保证信息的持久性。 使用率超过 85%,队列可能会阻塞发布者或丢失信息。 扩展磁盘容量或清除未使用的队列。
RabbitMQ 磁盘使用率超过85%
max by (ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time (ibm_messages_for_rabbitmq_disk_used_percent[10m])) > 0.85

0.85

磁盘使用率超过 Messages for RabbitMQ 85%的上限,表明部分节点已接近满载状态,可能导致消息持久化失败。 立即增加磁盘容量或清除旧的/未消耗的队列。

配置警报

您可以修改、测试、静音或删除单个警报。 此外,您可在 IBM Cloud Monitoring 仪表板左侧导航栏的 “警报Cloud Databases”选项下,按数据库或整体禁用默认警报。 您可以为工作负载自定义警报阈值,并探索完整的 警报库,通过预配置的警报和最佳实践获得更深入的洞察与主动监控。

后续步骤

默认警报仅涵盖关键 Cloud Databases 警报,这些警报是根据在企业级部署中观察到的成熟模式选定的。 对于大多数有效使用数据库的客户,不会再有额外的通知发送到他们的收件箱。 为确保您能收到这些关键通知,请通过添加和管理多个通知渠道来验证您的通知渠道是否配置正确。 有关如何操作的说明,请参阅《 通知通道操作指南》。