了解 IBM Cloud Activity Tracker Event Routing 的高可用性和灾难恢复

高可用性服务或工作负载根据预先定义的服务级别承受故障并继续提供处理能力的能力。对于服务，可用性在服务水平协议中进行了定义。可用性包括计划内和计划外事件，例如维护、故障和灾难。（HA）是指服务在出现意外故障时仍能保持运行和可用。灾难恢复服务或工作负载从罕见重大事故和大规模故障（如服务中断）中恢复的能力。这包括影响整个地区的自然灾害、数据库损坏或导致工作负荷增加的服务中断。这种影响超出了高可用性设计所能承受的范围。是指将服务实例恢复到工作状态的过程。

IBM Cloud Activity Tracker Event Routing 是一种高度可用、多租户的区域性服务。您可以在“地点”文档中找到可用区域和数据中心的位置。作为地区性服务，IBM Cloud Activity Tracker Event Routing 满足既定的服务水平目标（SLO ）。 SLO并非保证，IBM 不会因未达到目标而发放积分。

高可用性架构

显示 Activity Tracker Event Routing — 高可用性架构的图表

IBM Cloud® Databases for PostgreSQL 控制postgres成员之间的请求分配，这在High availability for PostgreSQL

可用区是指 IBM Cloud 区域内逻辑上和物理上隔离的位置，您的数据将在此进行处理和托管。

可用区拥有独立电源、冷却和网络基础设施，与其他区域隔离，通过避免区域间的单点故障来增强容错能力。
可用区在区域内提供高带宽和低区间延迟。

一个区域（地点）是指一个或多个可用区在地理上和物理上独立，拥有独立于其他区域的电力和网络基础设施。

区域设计旨在消除与其他区域共享的单一故障点，并确保区域内低延迟。
每个地区都有3个不同的数据中心（DC）用于冗余。

可用性专区

Activity Tracker Event Routing 是一项高度可用的区域性服务。

Activity Tracker Event Routing 在多个地区可用。如需了解 Activity Tracker Event Routing 可用地区的更多信息，请参阅地区。
每个多区域区域都有三个不同的数据中心，以冗余配置在 active/active 模式下。
如果一个地点的所有数据中心都出现故障，则该地点的 Activity Tracker Event Routing 将无法使用。
在每个受支持的地区，流量在多个可用区的基础设施上实现负载平衡，没有单点故障。

如需了解有关服务可用性的更多信息，请参阅服务水平协议（SLA ）。

下表列出了提供 IBM Cloud Activity Tracker Event Routing 服务的地区（位置）的高可用性（HA）状态：

提供服务的地点列表
地域	区域	欧盟支持	HA 状态
亚太地区	金奈 `(in-che)`	`N/A`	`SZR`
亚太地区	大板 `(jp-osa)`	`N/A`	`MZR`
亚太地区	悉尼 `(au-syd)`	`N/A`	`MZR`
亚太地区	东京 `(jp-tok)`	`N/A`	`MZR`
欧洲	法兰克福 `(eu-de)`		`MZR`
欧洲	伦敦 `(eu-gb)`	`N/A`	`MZR`
欧洲	马德里自治区 `(eu-es)`		`MZR`
北美洲	达拉斯 `(us-south)`	`N/A`	`MZR`
北美洲	多伦多 `(ca-tor)`	`N/A`	`MZR`
北美洲	华盛顿州 `(us-east)`	`N/A`	`MZR`
南美洲	圣保罗州 `(br-sao)`	`N/A`	`MZR`

位置

地理位置是一个地理区域或更大的政治体，其中包含一个或多个区域。
区域是一种定义的地理地域。

区域可以是特定的邮政编码区域、城镇、城市、一个或一组省/自治区/直辖市，甚至一组国家或地区。

一个区域包含多个可用性区域，以满足该区域的本地访问、低延迟和安全要求。
N/A表示功能不适用于该地理位置。
MZR 指多区域地区。了解更多信息。

高可用性功能

IBM Cloud Activity Tracker Event Routing 支持以下高可用性功能：

HA功能 IBM Cloud Activity Tracker Event Routing
功能	描述
多区域部署	IBM Cloud Activity Tracker Event Routing 部署到多区域（MZR）中，在MZR内，数据平面覆盖所有三个区域，确保一个区域的损失不会影响服务的可用性。
跨区域复制审核事件	发送至 IBM Cloud Activity Tracker Event Routing 的每条信息都会在MZR的三个区域中复制。这确保了在区域丢失的情况下，事件仍能保留。
实时性/准备状态监控	所有微服务均通过 Kubernetes 的实时性和就绪性探测进行监控。

跨区域审核事件复制，以便 IBM Cloud Activity Tracker Event Routing

一旦被 IBM Cloud Activity Tracker Event Routing 接收，每个事件都会至少被推送到两个区域，否则 IBM Cloud Activity Tracker Event Routing 将拒绝接收请求。对于有效的客户配置，在出口层成功将事件发送到客户配置的目的地之前，摄入的事件不会被删除。

灾难恢复架构

IBM Cloud® Databases for PostgreSQL 控制postgres成员之间的请求分配，这在High availability for PostgreSQL

IBM Cloud Object Storage 管理用于存储的postgres备份的地理桶。IBM Cloud Activity Tracker Event Routing 地理位置存储桶管理在 IBM Cloud Object Storage 的高可用性中概述

单一区域故障

IBM Cloud Activity Tracker Event Routing 是HA，即使出现单个区域或机器故障，仍可继续运行。

区域故障

Activity Tracker Event Routing 是一项平台服务。没有自动跨区域故障切换或跨区域灾难恢复。如果一个区域的所有可用区域都出现故障，则该区域将无法访问 Activity Tracker Event Routing。

灾难恢复功能

IBM Cloud Activity Tracker Event Routing 支持以下灾难恢复功能：

DR功能 IBM Cloud Activity Tracker Event Routing
功能	描述	对价
多个可配置的目的地	客户可通过 IBM Cloud Activity Tracker Event Routing 获取详细信息，创建具有灾难恢复能力的配置	这必须由客户来执行。
客户元数据的跨站点只读副本	IBM Cloud Activity Tracker Event Routing 内的客户目标和路线配置保存在区域数据库实例中，以及恢复区域中的只读副本中。在地区性灾难发生时，该功能可用于恢复该地区的元数据	有关更多信息，请参阅 PostgreSQL 的高可用性
客户元数据的跨站点数据库备份	IBM Cloud Activity Tracker Event Routing 内的客户目标和路线配置保存在恢复地理区域内的跨区域 IBM Cloud Object Storage 存储桶中。在地区性灾难发生时，该功能可用于恢复该地区的元数据	如需了解更多信息，请发送电子邮件至 IBM Cloud Object Storage 跨区域终端

为灾难恢复做计划

DR步法必须定期练习。在制定计划时，请考虑以下失败情形和解决方案。

DR场景 IBM Cloud Activity Tracker Event Routing
失败	解决方法
硬件故障（单点）	无需配置。
区域故障	无需配置。
元数据损坏	如果元数据损坏，IBM Cloud Activity Tracker Event Routing 服务将首先尝试使用区域数据库中的时间点备份进行还原。如果该区域不再有数据库可用，跨区域副本将被提升为主副本。如果跨区域副本不可用，则将从跨区域 IBM Cloud Object Storage 备份还原数据库。
区域故障	请按照 “您的HA和DR责任”中的步骤操作。

您在HA和DR方面的职责

灾难恢复是指如何在一个位置发生灾难性故障或不可用时进行恢复。

Activity Tracker Event Routing 是一项平台服务。没有自动跨区域故障切换或跨区域灾难恢复。如果一个地区内的所有可用区域都出现故障，则该地区的 Activity Tracker Event Routing 将无法使用。

您可以创建一个配置，将数据路由到不同区域的备份目标。

如果发生区域性灾难，您必须完成以下步骤，以建立跨区域的高可用性：

决定哪个地区将成为您的恢复区域。从以下选项中选择一个：
- 检查建议的DR恢复区域，并使用该区域作为恢复区域。
- 如果您已为 Activity Tracker Event Routing 账户设置了主位置和备用位置，请检查这两个位置是否仍然可用，并选择其中一个作为恢复区域。
- 如果您仅将 Activity Tracker Event Routing 账户设置为主位置，而该位置无法访问，请查看 Activity Tracker Event Routing 支持的区域，并选择一个活跃区域作为恢复区域。
您只能在 Activity Tracker Event Routing 支持的区域定义目标。然而，实际目标可能位于不同的区域，并继续运行。首先，你必须检查目标是否可用。接下来，请选择以下选项之一：
- 如果目标位置与故障位置不在同一区域，且您选择的恢复区域是在 Activity Tracker Event Routing 账户设置中配置的，则主位置和备用位置将包含目标的详细信息。您可以继续检查账户中定义的路线，以确保活动能够到达目的地。
- 如果目标区域与故障区域不同，且您选择的恢复区域不是 Activity Tracker Event Routing 账户设置中配置的区域，则必须在任何可用且受 Activity Tracker Event Routing 支持的区域配置目标，最好与您选择的恢复区域相同。接下来，您必须检查账户中定义的路线，以便将活动路由到您配置的新目标。
- 如果目标不可用，您必须对该类型的目标执行 DR 恢复流程，并在您选择的恢复区域中提供一个新目标。您必须在任何支持 Activity Tracker Event Routing 且可用的地区配置目标，最好选择您选择的恢复地区。接下来，您必须检查账户中定义的路线，以便将活动路由到您配置的新目标。
您可以定义路线，指示如何将事件路由到您账户中所配置的目标。这些路线是全球性的，不局限于特定地区。因此，在灾难恢复场景中，您必须检查所有配置的目标是否可用，以及规则是否适用于可用的目标和位置。

如果下行的区域也在您的帐户中收集全球事件，则必须更新恢复区域中的路线，以收集全球事件。

当 Activity Tracker Event Routing 在故障区域恢复时，您的配置也会随之恢复。请完成以下步骤，以便继续在故障区域操作：

您必须检查该区域中现有的所有目标是否都已恢复并可用。
如果您需要在恢复区域启用全球审计事件收集功能，则必须更新路线，以停止该区域的全局事件。
如果您配置了新的目标，您可以更新配置，重新使用失效的目标。您也可以决定继续使用在恢复区域中启用的目标。

要了解您和 IBM Cloud 之间使用 IBM Cloud Activity Tracker Event Routing 的责任归属，请参阅《使用 IBM Cloud Activity Tracker Event Routing 时了解您的责任》。

恢复时间目标（RTO）和恢复点目标（RPO）

下表列出了在发生灾难恢复情况下的预计恢复时间：

灾难恢复的目标
灾难恢复目标	估算时间
最大可容忍停机时间（MTD）/恢复时间目标（RTO）	不到24小时
恢复点目标 (RPO)	不到24小时

变更管理

变更管理包括升级、配置变更和删除等任务。

建议您授予用户和进程最低权限的 IAM 角色和操作，以满足他们的工作需求。请参阅如何防止意外删除服务？

IBM® 如何支持灾难恢复规划

IBM® 每年都会对各种灾难场景进行测试，并根据测试结果不断完善我们的恢复文档。
客户可通过 IBM® 获得全天候全球支持。在发生灾难时，我们的主题专家随时待命，提供帮助。

所有 IBM® 主题专家每年都会接受业务连续性和灾难恢复政策与程序方面的培训，以确保在灾难发生时做好充分准备。

由 Activity Tracker Event Routing 管理的元数据保存在该区域附近的数据中心。

多区域（MZR）由3个或更多相互独立的可用区域组成，以确保单个故障事件仅影响单个区域。

默认情况下，Activity Tracker Event Routing 部署在 3 个区域。每个区域都设置了 active/active/active :

每个区域都位于该地区不同的数据中心。
发送到服务器的事件将以低延迟自动复制到其他区域。启用复制无需您执行任何操作。
该服务旨在承受单个区域故障，且不会造成服务中断。

MZR架构可在区域内不同区域之间实现自动故障切换，并确保区域内审计实例的高可用性。

Activity Tracker Event Routing 元数据包括有关在您的帐户中收集和存储区域服务和IAM等全球服务的审计事件的位置和方式的信息。

目标是可以收集审计事件的资源。
路由是一种资源，它定义了决定审计事件在您的账户中路由的规则。

Activity Tracker Event Routing 定期备份每个区域的元数据：

每天定期备份，并保留30天。
最近7天的增量备份将一直保留。

Activity Tracker Event Routing 元数据在多个区域之间复制。

定期备份存储在多个区域，并可恢复到其他区域。

下表显示了常规备份副本的复制和可用区域：

可提供备份副本的地点列表
地域	区域	其他地区保留备份副本
亚太地区	金奈 `(in-che)`	东京 `(jp-tok)`
亚太地区	悉尼 `(au-syd)`	伦敦 `(eu-gb)`
亚太地区	东京 `(jp-tok)`	大板 `(jp-osa)`
欧洲	法兰克福 `(eu-de)`	马德里自治区 `(eu-es)`
欧洲	伦敦 `(eu-gb)`	悉尼 `(au-syd)`
欧洲	马德里自治区 `(eu-es)`	法兰克福 `(eu-de)`
北美洲	达拉斯 `(us-south)`	华盛顿州 `(us-east)`
北美洲	多伦多 `(ca-tor)`	华盛顿州 `(us-east)`
北美洲	华盛顿州 `(us-east)`	达拉斯 `(us-south)`
南美洲	圣保罗州 `(br-sao)`	华盛顿州 `(us-east)`

有关各区域和数据中心的服务可用性信息，请参阅按地点划分的可用服务和基础设施。

下表显示了在发生灾难恢复情况下的恢复区域：

恢复区域的位置列表
地域	源区域	恢复区
亚太地区	金奈 `(in-che)`	东京 `(jp-tok)`
亚太地区	悉尼 `(au-syd)`	法兰克福 `(eu-de)`
亚太地区	东京 `(jp-tok)`	大板 `(jp-osa)`
欧洲	法兰克福 `(eu-de)`	马德里自治区 `(eu-es)`
欧洲	伦敦 `(eu-gb)`	法兰克福 `(eu-de)`
欧洲	马德里自治区 `(eu-es)`	法兰克福 `(eu-de)`
北美洲	达拉斯 `(us-south)`	华盛顿州 `(us-east)`
北美洲	多伦多 `(ca-tor)`	华盛顿州 `(us-east)`
北美洲	华盛顿州 `(us-east)`	达拉斯 `(us-south)`
南美洲	圣保罗州 `(br-sao)`	华盛顿州 `(us-east)`

IBM 如何从区域故障中恢复

如果区域出现故障，IBM Cloud 将解决区域中断问题。由于服务范围涵盖一个地区的所有三个区域，因此不会对MZR内的服务可用性产生影响。区域恢复后，事件和API请求将恢复发送到恢复的区域。目前无需客户采取任何行动。

IBM 如何从区域故障中恢复

当 Activity Tracker Event Routing 在故障区域恢复时，您的配置也会随之恢复。请完成以下步骤，以便继续在故障区域操作：

您必须确认事件是否被路由到配置的目标目的地，从而确保该区域中现有的所有目标都已恢复并可用。
如果您需要在恢复区域启用全球审计事件收集功能，则必须更新路线，以停止该区域的全局事件。
如果您配置了新的目标，您可以更新配置，重新使用失效的目标。您也可以决定继续使用在恢复区域中启用的目标。

如果您遵循上述步骤并遵循灾难恢复配置，一旦发送事件的恢复服务开始向恢复的 IBM Cloud Activity Tracker Event Routing 实例发送事件，事件将流向恢复区域中最初配置的目的地。

IBM 如何维护服务

所有升级均遵循 IBM 服务最佳实践，并具有恢复计划和回滚流程。作为日常运营的一部分，我们会定期升级新功能并进行维护。此类维护偶尔会导致短暂的中断，客户可用性重试逻辑将处理此类中断。变更将按顺序、逐个区域、逐个地区进行。一旦发现缺陷，就会立即撤回更新。

通过功能标志启用和禁用复杂更改，以控制曝光。

通知中详细说明了影响客户工作量的变更。如需了解更多信息，请查看计划内维护的监控通知和状态、公告以及影响该服务的发布说明。