默认警报参考
Cloud Databases 与 IBM Cloud® Monitoring 集成,提供数据库实例健康状况和性能的可视性。 监控和警报可帮助管理员及早发现问题、应对资源限制并保持服务可靠性。 从 2025 年 12 月开始,当 启用平台指标 时,IBM Cloud Monitoring 将为每个新的和现有的 Cloud Databases 实例自动启用一组最多五个关键警报的默认设置。 这些警报将监控内存使用、磁盘 I/O 和 CPU 负载等关键资源指标,并预先配置为向账户所有者的电子邮件发送通知。
本指南介绍为受管数据库安装的关键警报。 对于每个警报,我们都会概述该指标的监控内容、其对性能和可用性的重要性,以及触发警报时建议采取的措施。 使用此参考资料可主动管理容量,防止容量或设置相关的中断,并保持弹性。
设置监控
只有与 IBM Cloud Monitoring 集成,才能安装默认警报,以获得对其应用程序、服务和平台的性能和健康状况的操作可见性。
要开始收集数据库实例的指标:
- 供应 IBM Cloud Monitoring 的实例。
- 在与数据库实例相同的区域启用 Platform Metrics。
- 从云控制台中的 IBM Cloud Monitoring 部分访问您的监控仪表板。
多区域 (MZR) 中实例的指标可在区域内获得。 对于单区区域 (SZR),指标会被转发到指定的 MZR,例如 che01.
更多信息,请参阅 Cloud DatabasesIBM Cloud Monitoring 整合。
重要警报:益处和应对指南
Cloud Databases 提供了一套通用和特定于服务的指标,帮助你监控性能和资源使用情况。 每个数据库支持的每个指标都列在文档的可观察性部分。 对于一些关键指标,至少设置了一个警报,以便在超过阈值时通知您。 这些警报的说明如下。 要查看每个数据库的完整指标列表,请参阅 ICD 监控集成。
PostgreSQL 警报
| 警报 | 条件 | 说明 |
|---|---|---|
| avg by(ibm_service_instance_name, ibm_service_instance,ibm_scope) (ibm_databases_for_postgresql_cpu_used_percent) |
|
该指标跟踪 Databases for PostgreSQL 的 CPU 占用率。 当使用率保持在 95% 以上时,数据库的运行速度可能会减慢、事务停滞或导致应用程序超时。 持续的 CPU 压力通常是由于查询效率低、工作负载大或资源不足造成的。 审查并优化昂贵的查询或扩展计算资源,以恢复余量。 |
| max(min (ibm_databases_for_postgresql_disk_used_percent)) |
|
跟踪 Databases for PostgreSQL 实例的最大磁盘使用量。 超过 90%,至少有一个实例的空间即将耗尽,有可能导致事务阻塞和性能下降。 立即扩展存储、归档或清除未使用的数据。 |
| avg(avg (ibm_databases_for_postgresql_disk_used_percent)) |
|
该指标衡量磁盘的平均利用率,单位为 Databases for PostgreSQL。 在 >85% 的使用情况下,系统有可能触及临界极限,从而阻塞写入、影响事务日志或导致中断。 可用磁盘空间对索引、临时表和 WAL 文件至关重要。 在容量耗尽之前,扩大存储分配、归档或清除旧数据。 |
MongoDB 警报
| 警报 | 条件 | 说明 |
|---|---|---|
| avg by(ibm_service_instance_name, ibm_service_instance,ibm_scope) (ibm_databases_for_mongodb_cpu_used_percent) |
|
在 Databases for MongoDB 中,CPU 使用率超过 95% 表示查询负荷过重或容量不足。 持续的压力会影响复制延迟、写入吞吐量和查询延迟。 使用剖析工具查看速度较慢的查询,根据需要对数据进行分片或索引,或扩展实例的 CPU 资源。 |
| max(max (ibm_databases_for_mongodb_disk_used_percent)) |
|
该指标跟踪整个实例的最大 Databases for MongoDB 磁盘使用量。 >90% 时,日志、复制和存储引擎操作可能会失败。Databases for MongoDB 需要空闲空间用于内部写入和恢复操作。 扩展存储、归档或清除未使用的收藏集,以防止写入失败。 |
| ibm_databases_for_mongodb_connections |
|
该指标显示的是 Databases for MongoDB 的活动客户端连接。 超过 1000 个连接可能会使可用资源不堪重负,从而导致错误或性能下降。 连接浪涌通常来自未共享的应用程序或行为不端的客户端。 实施连接池,并在必要时扩展实例以处理需求。 |
MySQL 警报
| 警报 | 条件 | 说明 |
|---|---|---|
| avg by(ibm_service_instance_name, ibm_service_instance,ibm_scope) (ibm_databases_for_mysql_cpu_used_percent) |
|
Databases for MySQL CPU 超过 95% 表示系统查询或后台进程过多。 这会延误事务处理,降低应用程序性能。 调整低效查询(例如,通过 EXPLAIN 计划)或扩展计算能力以满足需求。 |
| avg(avg (ibm_databases_for_mysql_disk_used_percent)) |
|
Databases for MySQL 中的磁盘平均使用率超过 85%,就有可能阻塞写入并填满日志或临时表。 可用空间对事务日志和索引操作至关重要。 在容量问题出现之前,扩展存储或归档历史数据。 |
| max(min (ibm_databases_for_mysql_disk_used_percent)) |
|
最大磁盘使用率超过 90%,表明至少有一个 Databases for MySQL 实例的空间即将耗尽。 这会导致交易停止并降低稳定性。 立即添加存储,清除或归档未使用的表格,以减少压力。 |
| avg by(ibm_service_instance_name) (avg_over_time(ibm_databases_for_mysql_connection_ [used_percent$__interval] )) |
|
该指标跟踪已使用 Databases for MySQL 连接的百分比。 当达到 100% 时,新客户端将被阻止,从而导致连接错误。 当连接使用率超过 95% 时,应谨慎增加 max_connections,或采用连接池来避免过载。 |
Elasticsearch 警报
| 警报 | 条件 | 说明 |
|---|---|---|
| avg by (ibm_service_instance_name, ibm_service_instance,ibm_scope) (ibm_databases_for_elasticsearch_cpu_used_percent) |
|
Databases for Elasticsearch CPU 使用率超过 95% 会影响索引、查询和集群响应速度。 持续超负荷会导致节点不稳定。 优化查询、减少分片数量或扩展计算资源。 |
| avg by(ibm_service_instance_name, ibm_service_instance,ibm_scope) (ibm_databases_for_elasticsearch_cluster_status) |
= 0 | 集群状态 = 0 表示 Databases for Elasticsearch 为红色,即主分片丢失或未指定。 这会带来数据丢失的风险。 检查节点健康状况,确保有足够的磁盘空间,并重新分配分片。 |
| avg(avg (ibm_databases_for_elasticsearch_disk_used_percent)) |
|
Databases for Elasticsearch 磁盘超过 85% 会阻止新的索引或副本,并带来集群不稳定的风险。 自由空间对分区平衡和合并至关重要。 扩展存储空间,删除或归档旧索引。 |
| avg by(ibm_service_instance_name, ibm_service_instance,ibm_scope) (ibm_databases_for_elasticsearch_jvm_heap_percent) |
|
Databases for Elasticsearch 中的 JVM 堆超过 95%,表明垃圾收集压力大,节点有崩溃的风险。 谨慎增加堆大小、优化查询或扩展集群以分散负载。 |
Redis 警报
| 警报 | 条件 | 说明 |
|---|---|---|
| avg(avg_over_time (ibm_databases_for_redis_memory_used_percent)) |
|
Databases for Redis 是由内存驱动的,使用率超过 85% 时,就有可能出现强制唤出键或 OOM 错误。 如果触发驱逐策略,高内存压力会导致不可预测的数据丢失。 根据应用需求调整内存分配或执行 TTL/禁止策略。 |
| avg(avg_over_time (ibm_databases_for_redis_disk_used_percent)) |
|
Databases for Redis 持久性依赖于快照和 AOF 日志的磁盘空间。 >85% 使用时,数据持久性可能会失效,从而危及持久性。 扩展存储容量或清理不必要的密钥和备份。 |
| topk( 50,avg(max_over_time (ibm_databases_for_redis_connected_clients {$__scope} [$__interval] )) by (ibm_resource)) |
|
该指标衡量连接的 Databases for Redis 客户端数量。 超过 9 500 次会导致网络资源不堪重负、响应速度变慢或连接中断。 确保高效的客户端池,并在工作负载需要更多连接时扩展 Databases for Redis 实例。 |
RabbitMQ 警报
| 警报 | 条件 | 说明 |
|---|---|---|
| avg by(ibm_service_instance_name, ibm_service_instance,ibm_scope) (ibm_messages_for_rabbitmq_cpu_used_percent) |
|
Messages for RabbitMQ CPU 超过 95%,表明代理因报文吞吐量或路由而超负荷。 CPU 持续饱和有可能导致速度变慢或信息丢失。 扩展计算或优化路由/队列。 |
| avg(avg (ibm_messages_for_rabbitmq_disk_used_percent)) |
|
Messages for RabbitMQ 依靠磁盘来保证信息的持久性。 使用率超过 85%,队列可能会阻塞发布者或丢失信息。 扩展磁盘容量或清除未使用的队列。 |
| max(min (ibm_messages_for_rabbitmq_disk_used_percent)) |
|
Messages for RabbitMQ 磁盘最大使用率超过 90%,表明一些节点已接近满负荷,有可能出现报文持久性故障。 立即增加磁盘容量或清除旧的/未消耗的队列。 |
| avg by(ibm_service_instance_name, ibm_service_instance,ibm_scope) (ibm_messages_for_rabbitmq_cpu_used_percent) |
|
Messages for RabbitMQ CPU 超过 95%,表明代理因报文吞吐量或路由而超负荷。 CPU 持续饱和有可能导致速度变慢或信息丢失。 扩展计算或优化路由/队列。 |
配置警报
您可以修改、测试、静音或删除警报。 请参阅 IBM Cloud Monitoring 文档,了解如何使用 通知通道。 此外,您还可以针对工作负载自定义警报阈值,并利用预配置的警报和最佳实践探索完整的警报 库,以获得更深入的见解和主动监控。
后续步骤
通过添加和配置多个通知渠道,确保您在指定目的地收到警报。 有关如何操作的说明,请参阅 IBM Cloud Monitoring 有关 使用通知通道 的文档。