高可用性和灾难恢复

IBM® watsonx.data on IBM Cloud 中的高可用性（HA）和灾难恢复（DR）旨在帮助确保恢复能力、最短停机时间和数据保护。

高可用性 (HA)

IBM® watsonx.data IBM Cloud 和上使用多区区域 (MZR)，以提供高可用性。AWS watsonx.data 的各个组件以主动-主动和仅主动设置方式部署，以帮助确保高可用性和弹性。

主动/主动

在主动-主动设置中，一个组件的多个实例在不同的可用区（AZ）上同时运行。这些实例具有负载平衡功能，可并行处理请求。

主要特点

冗余 - 如果一个实例或 AZ 出现故障，其他实例或 AZ 将继续不间断地提供流量服务。
负载分配 - 将流量分配给所有活动实例，从而提高性能并减少延迟。
自动故障切换 - 无需人工干预，系统会自动重新路由流量。

好处

高容错性
区域故障时的无缝用户体验。
更好地利用资源。

在 watsonx.data 中，大多数组件都采用主动-主动设置，并在多个区域部署副本，以帮助确保持续可用性。例如，企业计划中的元数据服务 (MDS)。

仅活动

在“仅活动”设置中，一个组件一次只能在一个可用区中运行。如果该区域出现故障，则必须在另一个区域重新启动或重新部署组件。

主要特点

每个组件只有一个活动实例。
故障时自动在新区域重新启动。
由于重新启动需要时间，故障切换过程中会出现轻微延迟。

好处

架构更简单。
减少资源消耗。
故障切换时短暂停机的恢复能力。

在 watsonx.data 中，单租户组件是在“仅主动”设置中部署的。这些单租户组件包括 Presto 引擎和元存储组件，战略性地分布在三个 AZ 上，以实现容量和故障转移。这些组件在故障期间在新区域中重新启动。例如，精简版计划中的元数据服务 (MDS)。

在多区区域 (MZR) 中，Presto 和 MDS 分布在不同的区域。

当单个可用性区域在 MZR 中发生故障，或者在任何区域中发生硬件故障时，工作负载会自动失败并在该区域中的其他区域中重新启动。每个 watsonx.data 实例都随附一个缺省跨区域元数据存储区和一个可选试用存储区 (10 GB)。这两个存储桶都启用了 IBM Cloud® Object Storage 版本控制。数据通过启用复制到单独的 IBM Cloud Object Storage 帐户进行备份。但是，对于客户带入 watsonx.data 实例的任何外部存储桶，客户都要对这些备份负责。

在区域灾难中，您会收到一封电子邮件，其中包含您需要遵循的所有步骤。请参阅 watsonx.data的职责。单租户组件在“仅活动”模型上运行，确保发生故障时在提供相同服务的新节点上立即重新启动。

单租户组件战略性地分布在 3 AZs 之间，以增强可靠性。当 AZ 发生故障时，将确保有足够的容量在可用 AZs 上启动所需的服务。这将最大程度地减少 AZ 中断所造成的任何影响。

职责

Backup

IBM 职责

每日自动备份：watsonx.data 自动对 IBM 提供和管理的所有资源进行每日备份。这包括：
- 系统元数据
- 配置设置
- 管理的内部数据 watsonx.data
备份存储和安全：这些备份安全地存储在 IBM 的基础设施中，确保数据的持久性并符合企业级标准。

客户责任

为还原提供一个新实例：
- 如果需要还原，客户端必须创建一个新的 watsonx.data 实例来接收已还原的数据。
- 这可确保原始环境不受影响，恢复的数据可以安全地进行验证。
验证 IBM 备份：还原后，客户必须验证还原数据的完整性和完备性。这包括检查元数据、配置和系统行为。
恢复外部组件：
- watsonx.data 中集成的任何外部数据源或组件（例如，自定义连接器、第三方工具、用户管理数据集）都不会得到 IBM 的备份。
- 客户负责分别备份和恢复这些组件。

复原

IBM 职责

恢复所提供的资源： IBM 处理备份资源的实际恢复过程。这包括将备份加载到新实例中，并确保系统级一致性。

客户责任

创建一个新实例用于还原：客户端必须启动一个新的 watsonx.data 实例来接收恢复的数据。
验证恢复的数据：客户必须执行恢复后验证，以确保恢复的数据准确可用。
恢复外部组件：客户必须手动恢复原始设置中的任何外部集成或数据源。

应用程序级别高可用性

通过网络和云服务进行通信的应用程序会发生瞬态连接故障。设计应用程序以在与部署或 IBM Cloud的连接暂时中断导致错误时重试连接。由于 watsonx.data 是受管服务，因此定期更新和维护是正常操作的一部分。此类维护有时会导致临时服务中断。

应用程序必须设计为处理服务的临时中断，对失败的命令实施错误处理，并实施重试逻辑以从临时中断中恢复。

以下是临时服务中断期间可能需要的一些错误代码:

如果 Presto 协调程序节点重新启动 (无论是出于维护目的还是由于系统故障)，那么需要应用程序重新建立与 Presto 引擎的连接。

不期望出现几分钟的不可用性或连接中断。如果您的时间段超过一分钟而没有连接，请提交支持凭单并提供详细信息，以便对中断进行调查。

灾难恢复策略

IBM® watsonx.data 提供了保护数据和复原服务功能的机制。已制定业务连续性计划，以实现服务的目标恢复点目标 (RPO) 和恢复时间目标 (RTO)。下表概述了 watsonx.data的目标。

灾难恢复战略
灾难恢复目标	目标值
RPO	<= 24 小时
RTO	< 24 小时

缩短了 SaaS 服务 Milvus 的备份间隔，将还原 RPO 从 24 小时缩短到 2 小时。

位置

AWS 区域

俄勒冈州 (us-west-2)
N. 弗吉尼亚 ( us-east-1 )
法兰克福 (eu-central-1)
东京 (jp-tok)

IBM 区域

达拉斯 (us-south)
华盛顿 (us-east)
法兰克福 (eu-de)
伦敦 (eu-gb)
东京 (jp-tok)
悉尼 (au-syd)