默认警报参考

Cloud Databases 与 IBM Cloud® Monitoring 集成，提供数据库实例健康状况和性能的可视性。监控和警报可帮助管理员及早发现问题、应对资源限制并保持服务可靠性。从 2025 年 12 月开始，当启用平台指标时，IBM Cloud Monitoring 将为每个新的和现有的 Cloud Databases 实例自动启用一组最多五个关键警报的默认设置。这些警报将监控内存使用、磁盘 I/O 和 CPU 负载等关键资源指标，并预先配置为向账户所有者的电子邮件发送通知。

本指南介绍为受管数据库安装的关键警报。对于每个警报，我们都会概述该指标的监控内容、其对性能和可用性的重要性，以及触发警报时建议采取的措施。使用此参考资料可主动管理容量，防止容量或设置相关的中断，并保持弹性。

设置监控

只有与 IBM Cloud Monitoring 集成，才能安装默认警报，以获得对其应用程序、服务和平台的性能和健康状况的操作可见性。

要开始收集数据库实例的指标：

供应 IBM Cloud Monitoring 的实例。
在与您的数据库实例相同的区域启用平台指标。
从云控制台中的 IBM Cloud Monitoring 部分访问您的监控仪表板。

多区域 (MZR) 中实例的指标可在区域内获得。对于单区域（SZR），指标会被转发至指定的多区域（MZR），例如 che01。

更多信息，请参阅 Cloud DatabasesIBM Cloud Monitoring 整合。

重要警报：益处和应对指南

Cloud Databases 提供了一套通用和特定于服务的指标，帮助你监控性能和资源使用情况。每个数据库支持的每个指标都列在文档的可观察性部分。对于一些关键指标，至少设置了一个警报，以便在超过阈值时通知您。这些警报的说明如下。要查看每个数据库的完整指标列表，请参阅 ICD 监控集成。

PostgreSQL 警报

PostgreSQL 警报
警报	条件	说明
PostgreSQL CPU使用率超过90% `avg by (ibm_service_instance_name, ibm_service_instance, ibm_scope, ibm_resource) (avg_over_time (ibm_databases_for_postgresql_cpu_used_percent[10m])) > 0.9`	0.95	该指标跟踪 Databases for PostgreSQL 的 CPU 占用率。当使用率持续高于90%时，数据库可能会变慢、导致事务阻塞或引发应用程序超时。持续的 CPU 压力通常是由于查询效率低、工作负载大或资源不足造成的。审查并优化昂贵的查询或扩展计算资源，以恢复余量。
PostgreSQL 磁盘使用率超过80% `max by (ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time (ibm_databases_for_postgresql_disk_used_percent[10m])) > 0.8`	0.80	跟踪 Databases for PostgreSQL 实例的最大磁盘使用量。超过80%时，至少有一个实例已临近空间耗尽的临界点，可能导致交易被阻塞及性能下降。立即扩展存储、归档或清除未使用的数据。

MongoDB 警报

MongoDB 警报
警报	条件	说明
MongoDB CPU使用率超过90% `avg by (ibm_service_instance_name, ibm_service_instance, ibm_scope, ibm_resource) (avg_over_time (ibm_databases_for_mongodb_cpu_used_percent[10m])) > 0.9`	0.90	CPU使用率超过90%表明 Databases for MongoDB 存在高负载查询或容量不足。持续的压力会影响复制延迟、写入吞吐量和查询延迟。使用剖析工具查看速度较慢的查询，根据需要对数据进行分片或索引，或扩展实例的 CPU 资源。
MongoDB 磁盘使用率超过90% `max by (ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time (ibm_databases_for_mongodb_disk_used_percent[10m])) > 0.9`	0.90	该指标跟踪整个实例的最大 Databases for MongoDB 磁盘使用量。当空间使用率超过90%时，日志记录、复制和存储引擎操作可能失败。Databases for MongoDB 系统需要足够的可用空间来执行内部写入和恢复操作。扩展存储、归档或清除未使用的收藏集，以防止写入失败。
MongoDB 连接数大于1000 `sum by (ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time (ibm_databases_for_mongodb_connections[10m])) > 1000`	1000	该指标显示的是 Databases for MongoDB 的活动客户端连接。超过 1000 个连接可能会使可用资源不堪重负，从而导致错误或性能下降。连接浪涌通常来自未共享的应用程序或行为不端的客户端。实施连接池，并在必要时扩展实例以处理需求。

MySQL 警报

MySQL 警报
警报	条件	说明
MySQL CPU使用率超过95% `avg by (ibm_service_instance_name, ibm_service_instance, ibm_scope, ibm_resource) (avg_over_time (ibm_databases_for_mysql_cpu_used_percent[10m])) > 0.95`	0.95	Databases for MySQL CPU 超过 95% 表示系统查询或后台进程过多。这会延误事务处理，降低应用程序性能。调整低效查询（例如，通过 EXPLAIN 计划）或扩展计算能力以满足需求。
MySQL 磁盘使用率超过90% `max by(ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time (ibm_databases_for_mysql_disk_used_percent[10m])) > 0.9`	0.90	最大磁盘使用率超过 90%，表明至少有一个 Databases for MySQL 实例的空间即将耗尽。这会导致交易停止并降低稳定性。立即添加存储，清除或归档未使用的表格，以减少压力。
MySQL 连接数超过可用总数的 95% `avg by (ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time (ibm_databases_for_mysql_connection_used_percent[10m])) > 0.95`	0.95	该指标跟踪已使用 Databases for MySQL 连接的百分比。当达到 100% 时，新客户端将被阻止，从而导致连接错误。当连接使用率超过 95% 时，应谨慎增加 max_connections，或采用连接池来避免过载。

Elasticsearch 警报

Elasticsearch 警报
警报	条件	说明
Elasticsearch CPU使用率超过95% `avg by (ibm_service_instance_name, ibm_service_instance, ibm_scope, ibm_resource) (avg_over_time (ibm_databases_for_elasticsearch_cpu_used_percent[10m])) > 0.95`	0.95	Databases for Elasticsearch CPU 使用率超过 95% 会影响索引、查询和集群响应速度。持续超负荷会导致节点不稳定。优化查询、减少分片数量或扩展计算资源。
Elasticsearch 集群状态为红色 `avg by (ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time ibm_databases_for_elasticsearch_cluster_status[10m])) == 0`	= 0	集群状态 = 0 表示 Databases for Elasticsearch 为红色，即主分片丢失或未指定。这会带来数据丢失的风险。检查节点健康状况，确保有足够的磁盘空间，并重新分配分片。
Elasticsearch 磁盘使用率超过80% `max by (ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time (ibm_databases_for_elasticsearch_disk_used_percent[10m])) > 0.8`	0.80	Databases for Elasticsearch 磁盘使用率超过80%将阻止新建索引或副本，并可能导致集群不稳定。自由空间对分区平衡和合并至关重要。扩展存储空间，删除或归档旧索引。
Elasticsearch JVM堆内存使用率超过95% `avg by (ibm_service_instance_name, ibm_service_instance, ibm_scope, ibm_resource) (avg_over_time (ibm_databases_for_elasticsearch_jvm_heap_percent[10m])) > 95`	95	Databases for Elasticsearch 中的 JVM 堆超过 95%，表明垃圾收集压力大，节点有崩溃的风险。谨慎增加堆大小、优化查询或扩展集群以分散负载。

Redis 警报

Redis 警报
警报	条件	说明
Redis 内存使用率超过85% `max by (ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time (ibm_databases_for_redis_memory_used_percent[10m])) > 0.85`	0.85	Databases for Redis 是由内存驱动的，使用率超过 85% 时，就有可能出现强制唤出键或 OOM 错误。如果触发驱逐策略，高内存压力会导致不可预测的数据丢失。根据应用需求调整内存分配或执行 TTL/禁止策略。
Redis 磁盘使用率超过80% `max by (ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time (ibm_databases_for_redis_disk_used_percent[10m])) > 0.80`	0.80	Databases for Redis 持久性依赖于快照和 AOF 日志的磁盘空间。当使用率超过80%时，数据持久化可能失败，从而危及数据的持久性。扩展存储容量或清理不必要的密钥和备份。
Redis 连接数大于9500 `avg by (ibm_service_instance_name, ibm_service_instance, ibm_scope, ibm_resource) (avg_over_time (ibm_databases_for_redis_connected_clients[10m])) > 9500`	9500	该指标衡量连接的 Databases for Redis 客户端数量。超过 9 500 次会导致网络资源不堪重负、响应速度变慢或连接中断。确保高效的客户端池，并在工作负载需要更多连接时扩展 Databases for Redis 实例。

RabbitMQ 警报

RabbitMQ 警报
警报	条件	说明
RabbitMQ CPU使用率超过95% `avg by (ibm_service_instance_name, ibm_service_instance, ibm_scope, ibm_resource) (avg_over_time(ibm_messages_for_rabbitmq_cpu_used_percent[10m])) > 0.95`	0.95	Messages for RabbitMQ CPU 超过 95%，表明代理因报文吞吐量或路由而超负荷。 CPU 持续饱和有可能导致速度变慢或信息丢失。扩展计算或优化路由/队列。
`avg(avg (ibm_messages_for_rabbitmq_disk_used_percent))`	0.85	Messages for RabbitMQ 依靠磁盘来保证信息的持久性。使用率超过 85%，队列可能会阻塞发布者或丢失信息。扩展磁盘容量或清除未使用的队列。
RabbitMQ 磁盘使用率超过85% `max by (ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time (ibm_messages_for_rabbitmq_disk_used_percent[10m])) > 0.85`	0.85	磁盘使用率超过 Messages for RabbitMQ 85%的上限，表明部分节点已接近满载状态，可能导致消息持久化失败。立即增加磁盘容量或清除旧的/未消耗的队列。

配置警报

您可以修改、测试、静音或删除单个警报。此外，您可在 IBM Cloud Monitoring 仪表板左侧导航栏的 “警报Cloud Databases”选项下，按数据库或整体禁用默认警报。您可以为工作负载自定义警报阈值，并探索完整的警报库，通过预配置的警报和最佳实践获得更深入的洞察与主动监控。

后续步骤

默认警报仅涵盖关键 Cloud Databases 警报，这些警报是根据在企业级部署中观察到的成熟模式选定的。对于大多数有效使用数据库的客户，不会再有额外的通知发送到他们的收件箱。为确保您能收到这些关键通知，请通过添加和管理多个通知渠道来验证您的通知渠道是否配置正确。有关如何操作的说明，请参阅《通知通道操作指南》。