默认警报参考
Cloud Databases 与 IBM Cloud® Monitoring 集成,提供数据库实例健康状况和性能的可视性。 监控和警报可帮助管理员及早发现问题、应对资源限制并保持服务可靠性。 从 2025 年 12 月开始,当 启用平台指标 时,IBM Cloud Monitoring 将为每个新的和现有的 Cloud Databases 实例自动启用一组最多五个关键警报的默认设置。 这些警报将监控内存使用、磁盘 I/O 和 CPU 负载等关键资源指标,并预先配置为向账户所有者的电子邮件发送通知。
本指南介绍为受管数据库安装的关键警报。 对于每个警报,我们都会概述该指标的监控内容、其对性能和可用性的重要性,以及触发警报时建议采取的措施。 使用此参考资料可主动管理容量,防止容量或设置相关的中断,并保持弹性。
设置监控
只有与 IBM Cloud Monitoring 集成,才能安装默认警报,以获得对其应用程序、服务和平台的性能和健康状况的操作可见性。
要开始收集数据库实例的指标:
- 供应 IBM Cloud Monitoring 的实例。
- 在与您的数据库实例相同的区域启用平台指标。
- 从云控制台中的 IBM Cloud Monitoring 部分访问您的监控仪表板。
多区域 (MZR) 中实例的指标可在区域内获得。 对于单区域(SZR),指标会被转发至指定的多区域(MZR),例如 che01。
更多信息,请参阅 Cloud DatabasesIBM Cloud Monitoring 整合。
重要警报:益处和应对指南
Cloud Databases 提供了一套通用和特定于服务的指标,帮助你监控性能和资源使用情况。 每个数据库支持的每个指标都列在文档的可观察性部分。 对于一些关键指标,至少设置了一个警报,以便在超过阈值时通知您。 这些警报的说明如下。 要查看每个数据库的完整指标列表,请参阅 ICD 监控集成。
PostgreSQL 警报
| 警报 | 条件 | 说明 |
|---|---|---|
PostgreSQL CPU使用率超过90%avg by (ibm_service_instance_name, ibm_service_instance, ibm_scope, ibm_resource) (avg_over_time (ibm_databases_for_postgresql_cpu_used_percent[10m])) > 0.9 |
|
该指标跟踪 Databases for PostgreSQL 的 CPU 占用率。 当使用率持续高于90%时,数据库可能会变慢、导致事务阻塞或引发应用程序超时。 持续的 CPU 压力通常是由于查询效率低、工作负载大或资源不足造成的。 审查并优化昂贵的查询或扩展计算资源,以恢复余量。 |
PostgreSQL 磁盘使用率超过80%max by (ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time (ibm_databases_for_postgresql_disk_used_percent[10m])) > 0.8 |
|
跟踪 Databases for PostgreSQL 实例的最大磁盘使用量。 超过80%时,至少有一个实例已临近空间耗尽的临界点,可能导致交易被阻塞及性能下降。 立即扩展存储、归档或清除未使用的数据。 |
MongoDB 警报
| 警报 | 条件 | 说明 |
|---|---|---|
MongoDB CPU使用率超过90%avg by (ibm_service_instance_name, ibm_service_instance, ibm_scope, ibm_resource) (avg_over_time (ibm_databases_for_mongodb_cpu_used_percent[10m])) > 0.9 |
|
CPU使用率超过90%表明 Databases for MongoDB 存在高负载查询或容量不足。 持续的压力会影响复制延迟、写入吞吐量和查询延迟。 使用剖析工具查看速度较慢的查询,根据需要对数据进行分片或索引,或扩展实例的 CPU 资源。 |
MongoDB 磁盘使用率超过90%max by (ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time (ibm_databases_for_mongodb_disk_used_percent[10m])) > 0.9 |
|
该指标跟踪整个实例的最大 Databases for MongoDB 磁盘使用量。 当空间使用率超过90%时,日志记录、复制和存储引擎操作可能失败。Databases for MongoDB 系统需要足够的可用空间来执行内部写入和恢复操作。 扩展存储、归档或清除未使用的收藏集,以防止写入失败。 |
MongoDB 连接数大于1000sum by (ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time (ibm_databases_for_mongodb_connections[10m])) > 1000 |
|
该指标显示的是 Databases for MongoDB 的活动客户端连接。 超过 1000 个连接可能会使可用资源不堪重负,从而导致错误或性能下降。 连接浪涌通常来自未共享的应用程序或行为不端的客户端。 实施连接池,并在必要时扩展实例以处理需求。 |
MySQL 警报
| 警报 | 条件 | 说明 |
|---|---|---|
MySQL CPU使用率超过95%avg by (ibm_service_instance_name, ibm_service_instance, ibm_scope, ibm_resource) (avg_over_time (ibm_databases_for_mysql_cpu_used_percent[10m])) > 0.95 |
|
Databases for MySQL CPU 超过 95% 表示系统查询或后台进程过多。 这会延误事务处理,降低应用程序性能。 调整低效查询(例如,通过 EXPLAIN 计划)或扩展计算能力以满足需求。 |
MySQL 磁盘使用率超过90%max by(ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time (ibm_databases_for_mysql_disk_used_percent[10m])) > 0.9 |
|
最大磁盘使用率超过 90%,表明至少有一个 Databases for MySQL 实例的空间即将耗尽。 这会导致交易停止并降低稳定性。 立即添加存储,清除或归档未使用的表格,以减少压力。 |
| MySQL 连接数超过可用总数的 95% avg by (ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time (ibm_databases_for_mysql_connection_used_percent[10m])) > 0.95 |
|
该指标跟踪已使用 Databases for MySQL 连接的百分比。 当达到 100% 时,新客户端将被阻止,从而导致连接错误。 当连接使用率超过 95% 时,应谨慎增加 max_connections,或采用连接池来避免过载。 |
Elasticsearch 警报
| 警报 | 条件 | 说明 |
|---|---|---|
Elasticsearch CPU使用率超过95%avg by (ibm_service_instance_name, ibm_service_instance, ibm_scope, ibm_resource) (avg_over_time (ibm_databases_for_elasticsearch_cpu_used_percent[10m])) > 0.95 |
|
Databases for Elasticsearch CPU 使用率超过 95% 会影响索引、查询和集群响应速度。 持续超负荷会导致节点不稳定。 优化查询、减少分片数量或扩展计算资源。 |
Elasticsearch 集群状态为红色avg by (ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time ibm_databases_for_elasticsearch_cluster_status[10m])) == 0 |
= 0 | 集群状态 = 0 表示 Databases for Elasticsearch 为红色,即主分片丢失或未指定。 这会带来数据丢失的风险。 检查节点健康状况,确保有足够的磁盘空间,并重新分配分片。 |
Elasticsearch 磁盘使用率超过80%max by (ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time (ibm_databases_for_elasticsearch_disk_used_percent[10m])) > 0.8 |
|
Databases for Elasticsearch 磁盘使用率超过80%将阻止新建索引或副本,并可能导致集群不稳定。 自由空间对分区平衡和合并至关重要。 扩展存储空间,删除或归档旧索引。 |
Elasticsearch JVM堆内存使用率超过95%avg by (ibm_service_instance_name, ibm_service_instance, ibm_scope, ibm_resource) (avg_over_time (ibm_databases_for_elasticsearch_jvm_heap_percent[10m])) > 95 |
|
Databases for Elasticsearch 中的 JVM 堆超过 95%,表明垃圾收集压力大,节点有崩溃的风险。 谨慎增加堆大小、优化查询或扩展集群以分散负载。 |
Redis 警报
| 警报 | 条件 | 说明 |
|---|---|---|
Redis 内存使用率超过85%max by (ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time (ibm_databases_for_redis_memory_used_percent[10m])) > 0.85 |
|
Databases for Redis 是由内存驱动的,使用率超过 85% 时,就有可能出现强制唤出键或 OOM 错误。 如果触发驱逐策略,高内存压力会导致不可预测的数据丢失。 根据应用需求调整内存分配或执行 TTL/禁止策略。 |
Redis 磁盘使用率超过80%max by (ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time (ibm_databases_for_redis_disk_used_percent[10m])) > 0.80 |
|
Databases for Redis 持久性依赖于快照和 AOF 日志的磁盘空间。 当使用率超过80%时,数据持久化可能失败,从而危及数据的持久性。 扩展存储容量或清理不必要的密钥和备份。 |
Redis 连接数大于9500avg by (ibm_service_instance_name, ibm_service_instance, ibm_scope, ibm_resource) (avg_over_time (ibm_databases_for_redis_connected_clients[10m])) > 9500 |
|
该指标衡量连接的 Databases for Redis 客户端数量。 超过 9 500 次会导致网络资源不堪重负、响应速度变慢或连接中断。 确保高效的客户端池,并在工作负载需要更多连接时扩展 Databases for Redis 实例。 |
RabbitMQ 警报
| 警报 | 条件 | 说明 |
|---|---|---|
RabbitMQ CPU使用率超过95%avg by (ibm_service_instance_name, ibm_service_instance, ibm_scope, ibm_resource) (avg_over_time(ibm_messages_for_rabbitmq_cpu_used_percent[10m])) > 0.95 |
|
Messages for RabbitMQ CPU 超过 95%,表明代理因报文吞吐量或路由而超负荷。 CPU 持续饱和有可能导致速度变慢或信息丢失。 扩展计算或优化路由/队列。 |
avg(avg (ibm_messages_for_rabbitmq_disk_used_percent)) |
|
Messages for RabbitMQ 依靠磁盘来保证信息的持久性。 使用率超过 85%,队列可能会阻塞发布者或丢失信息。 扩展磁盘容量或清除未使用的队列。 |
RabbitMQ 磁盘使用率超过85%max by (ibm_service_instance_name, ibm_service_instance, ibm_scope) (avg_over_time (ibm_messages_for_rabbitmq_disk_used_percent[10m])) > 0.85 |
|
磁盘使用率超过 Messages for RabbitMQ 85%的上限,表明部分节点已接近满载状态,可能导致消息持久化失败。 立即增加磁盘容量或清除旧的/未消耗的队列。 |
配置警报
您可以修改、测试、静音或删除单个警报。 此外,您可在 IBM Cloud Monitoring 仪表板左侧导航栏的 “警报Cloud Databases”选项下,按数据库或整体禁用默认警报。 您可以为工作负载自定义警报阈值,并探索完整的 警报库,通过预配置的警报和最佳实践获得更深入的洞察与主动监控。
后续步骤
默认警报仅涵盖关键 Cloud Databases 警报,这些警报是根据在企业级部署中观察到的成熟模式选定的。 对于大多数有效使用数据库的客户,不会再有额外的通知发送到他们的收件箱。 为确保您能收到这些关键通知,请通过添加和管理多个通知渠道来验证您的通知渠道是否配置正确。 有关如何操作的说明,请参阅《 通知通道操作指南》。