了解 IBM Cloud Monitoring 的高可用性和灾难恢复

高可用性服务或工作负载根据预先定义的服务级别承受故障并继续提供处理能力的能力。对于服务，可用性在服务水平协议中进行了定义。可用性包括计划内和计划外事件，例如维护、故障和灾难。（HA）是指服务在出现意外故障时仍能保持运行和访问的能力。灾难恢复服务或工作负载从罕见重大事故和大规模故障（如服务中断）中恢复的能力。这包括影响整个地区的自然灾害、数据库损坏或导致工作负荷增加的服务中断。这种影响超出了高可用性设计所能承受的范围。是将服务实例恢复到工作状态的过程。

IBM Cloud® Monitoring是一种高度可用的多租户区域性服务，用于监控应用程序、平台资源和基础设施。

您可以在 IBM Cloud Monitoring 区域文档中找到可用的区域和数据中心位置。作为一项区域性服务，IBM Cloud Monitoring 通过渐进式分层计划实现了规定的服务水平目标(SLO)。 SLO 并非保证书，IBM 不会因未达到目标而发放学分。

高可用性架构

可用性专区

可用性区域是 IBM Cloud 区域中处理和托管数据的逻辑和物理隔离位置。

可用性区域具有与其他区域隔离的独立电源，冷却和网络基础结构，以通过避免区域之间的单点故障来加强容错。
可用性区域在区域内提供高带宽和低区域间等待时间。

区域 (位置) 是由一个或多个可用性区域组成的地理上和物理上独立的组，具有与其他区域隔离的独立电气和网络基础结构。

区域旨在移除与其他区域的共享单点故障，并保证区域内的区域间延迟较低。
每个区域都有 3 个不同的数据中心 (DC) 以实现冗余。

下表列出了 IBM Cloud Monitoring 服务可用的区域 (位置) 的高可用性 (HA) 状态:

提供服务的地点列表
地域	区域	HA 状态
`Asia Pacific`	`Sydney (au-syd)`	`MZR`
`Asia Pacific`	`Tokyo (jp-tok)`	`MZR`
`Asia Pacific`	`Osaka (jp-osa)`	`MZR`
`Europe`	`Frankfurt (eu-de)`	`MZR`
`Europe`	`London (eu-gb)`	`MZR`
`Europe`	`Madrid (eu-es)`	`MZR`
`North America`	`Dallas (us-south)`	`MZR`
`North America`	`Washington (us-east)`	`MZR`
`North America`	`Toronto (ca-tor)`	`MZR`
`South America`	`São-Paulo (br-sao)`	`MZR`

位置

地理位置是一个地理区域或更大的政治体，其中包含一个或多个区域。
区域是一种定义的地理地域。

区域可以是特定的邮政编码区域、城镇、城市、一个或一组省/自治区/直辖市，甚至一组国家或地区。

一个区域包含多个可用性区域，以满足该区域的本地访问、低延迟和安全要求。
N/A表示功能不适用于该地理位置。
MZR 表示多专区区域。了解更多信息。

Monitoring 实例的可用性

配置 Monitoring 实例时，需要选择创建实例的 MZR（位置）。区域确定处理监视数据和托管数据的位置。

多专区区域 (MZR) 由相互独立的 3 或更多可用性专区组成，以确保单个故障事件仅影响单个专区。

缺省情况下，每个监视实例由 3 区域，一个主区域和两个辅助区域组成:

每个区域都位于区域中的不同数据中心内。
主区域中的数据将以低延迟自动复制到辅助区域。启用复制无需您执行任何操作。
当主区域发生故障时，将选择辅助区域作为主区域，以防止服务实例受到影响。
如果两个区段同时出现故障，则服务不可用。

MZR 架构提供两个区域间的自动故障切换，以及区域内 Monitoring 实例的高可用性。

高可用性功能

IBM Cloud Monitoring 支持以下高可用性功能

HA 功能用于 IBM Cloud Monitoring
功能	描述
多区域部署	IBM Cloud Monitoring 部署到多区区域（MZR），在多区区域内，数据平面跨越所有三个区，确保一个区的损失不会影响服务可用性。
跨区平台度量复制	IBM Cloud Monitoring 中摄取的指标在 MZRs 中的三个区域间复制。
有效性/准备状态监测	所有微服务都通过 Kubernetes 实时性和就绪性探针进行监控。

灾后恢复架构

单区故障：IBM Cloud Monitoring 具有 HA 功能，可在单区或机器发生故障时继续运行。

地区故障：IBM Cloud Monitoring 是一项平台服务。没有自动跨区域故障切换或跨区域灾难恢复功能。如果一个区域的所有可用区都发生故障，IBM Cloud Monitoring 在该区域将不可用。

数据库备份和恢复：IBM Cloud Monitoring 数据库定期备份，在灾难恢复情况下，可创建时间点恢复以恢复数据。

灾难恢复功能

IBM Cloud Monitoring 支持以下灾难恢复功能：

DR 功能用于 IBM Cloud Monitoring
功能	描述	对价
多个可配置的目的地	可为客户提供连接到可用区域的详细信息	配置必须由客户实施。

灾难恢复规划

必须定期练习灾难恢复步骤。在制定计划时，请考虑以下失败情况和解决办法。

灾难恢复方案 IBM Cloud Monitoring
失败	解决方法
硬件故障（单点）	IBM 提供的数据库可抵御区域内单点硬件故障，无需配置。
区域故障	无需配置
数据损坏	IBM 经常对数据库进行备份，一旦数据损坏，服务将尝试使用区域数据库的时间点备份进行恢复。IBM Cloud Monitoring
地区性失败	按照“您对 HA 和 DR 的责任”下的步骤操作。

您对 HA 和 DR 的责任

灾难恢复是指如何在一个位置发生灾难性故障或不可用时进行恢复。

IBM Cloud Monitoring 遵循关于 IBM Cloud 灾难事件规划和恢复的要求。

如果发生区域灾难，请考虑以下信息:

重建区域站点和在其他位置恢复服务的估计恢复时间为 24 小时。
您必须更新应用程序和监视代理程序的端点以指向新位置中的摄入端点。
您必须从备份复原服务实例的元数据，即仪表板和警报定义。

在灾难期间可能会丢失历史数据。如果需要用于审计目的的历史度量值，请通过从服务中查询度量值并将其存储在远程备份站点来定期备份这些度量值。有关更多信息，请参阅使用 API 从 Monitoring 实例抽取度量。

手动恢复服务

如果发生区域灾难，那么服务的恢复时间取决于区域的恢复时间。为了最大程度地减少服务的停机时间以及对业务的影响，您可以实施手动故障转移以在复原区域时切换到另一个区域。要缩短在新位置启动和运行的时间，请考虑使用访问组来管理使用服务的许可权，并备份每个实例的监视元数据。您应该定期备份警报，通知，仪表板和团队定义。

如何在重建 DR 站点时继续工作?

如果要通过监视实例监视的应用程序和服务都位于同一区域中，那么必须等待该区域再次可用于业务。

如果您已在系统上部署监视代理程序，并且这些系统不受区域故障影响，那么您可以选择将度量值重定向到其他区域中的其他监视实例。要重定向度量数据，请完成以下步骤：

供应监视实例
重新配置每个系统的监视代理程序: 更改代理程序配置中的访问密钥和采集端点。
定义 IAM 许可权以使用新的监视实例。

通过使用访问组来管理使用监视实例的许可权，可以减少为设置正确的策略和用户以使用新实例而可能需要执行的工作量。有关访问组的信息是全局的，而不是基于区域的。
启动监视实例并导入警报，通知，团队和仪表板以监视应用程序和系统。

要了解有关您和 IBM Cloud 之间使用 IBM Cloud Monitoring 的责任所有权的更多信息，请参阅了解使用 IBM Cloud Monitoring 时的责任。

恢复时间目标（RTO）和恢复点目标（RPO）

下表指示发生 DR 情况时的估计恢复时间:

DR 的恢复目标
DR 的恢复目标	估算时间
最大可容许停机时间 (MTD)/恢复时间目标 (RTO)	最多 24 小时
恢复点目标 (RPO)	最多 24 小时

变更管理

变更管理包括升级、配置变更和删除等任务。

建议为用户和流程授予其工作所需的最少权限的 IAM 角色和操作。请参阅如何防止意外删除服务？

您应该定期备份警报，通知，仪表板和团队定义。在升级到新版本 IBM Cloud Monitoring 之前，请考虑创建手动备份。

IBM® 如何支持灾难恢复规划

IBM® 在发生灾难时采取具体的恢复行动。

IBM® 每年对各种灾难情况进行测试，并根据测试结果不断完善我们的恢复文件。
IBM® 主题专家可为客户提供 24 × 7 全球支持，在发生灾难时随时提供帮助。
所有 IBM 主题专家每年都要接受业务连续性和灾难恢复政策与程序方面的培训，以确保在发生灾难时做好准备。
多区区域 (MZR) 由 3 个或更多可用区组成，这些可用区相互独立，以确保单个故障指标只影响单个区。

默认情况下，IBM Cloud Monitoring 部署在 3 个区域。每个区段都设置为活动/活动/活动：

每个区域都位于区域中的不同数据中心内。
每个区域的平台指标都会自动复制到其他区域，延迟时间很短。启用复制无需您执行任何操作。
该服务可承受单区故障而不中断。
MZR 架构提供区域内各区之间的自动故障切换，以及区域内实例的高可用性。
IBM Cloud Monitoring 数据定期备份，发生灾难时可使用时间点恢复功能进行恢复。

IBM 如何从区域故障中恢复

如果区域出现故障，IBM Cloud 将解决区域中断问题。由于该服务横跨一个地区的所有三个区，因此不会影响分区内的服务可用性。区域恢复后，事件和 API 请求将恢复发送到已恢复的区域。目前无需客户采取行动。

IBM 如何从地区失败中恢复过来

当发生故障后恢复区域时，IBM 会尝试从区域状态恢复服务实例，从而不会丢失数据并使用相同的连接字符串。

如果区域状态已损坏，服务将恢复到上次内部备份时的状态。与服务相关的所有数据均由服务每天备份一次。有可能丢失价值 24 小时的数据。从具有相同连接字符串的备份中恢复服务时。对于客户数据，包括仪表盘、警报和通知，客户负责恢复数据。

如果 IBM 无法恢复服务实例，客户必须按照手动恢复服务中的说明进行恢复或重定向。

IBM 如何维护服务

所有升级均遵循 IBM 服务最佳实践，并制定了恢复计划和回滚流程。新功能的定期升级和维护是正常运行的一部分。这种维护偶尔会造成短暂的中断，客户端可用性重试逻辑会处理这些中断。更改按顺序逐个地区和地区内逐个地区推出。一旦出现缺陷，更新就会被退回。

通过功能标志启用和禁用复杂的更改，以控制曝光率。
影响客户工作负载的变更将在通知中详细说明。有关详细信息，请参阅计划维护的监控通知和状态、公告以及影响此服务的发布说明。