IBM Cloud Docs
高可用性和灾难恢复

高可用性和灾难恢复

IBM® watsonx.data on IBM Cloud 中的高可用性(HA)和灾难恢复(DR)旨在帮助确保恢复能力、最短停机时间和数据保护。

高可用性 (HA)

IBM® watsonx.data IBM Cloud 和 上使用多区区域 (MZR),以提供高可用性。AWS watsonx.data 的各个组件以主动-主动和仅主动设置方式部署,以帮助确保高可用性和弹性。

主动/主动

在主动-主动设置中,一个组件的多个实例在不同的可用区(AZ)上同时运行。 这些实例具有负载平衡功能,可并行处理请求。

主要特点

  • 冗余 - 如果一个实例或 AZ 出现故障,其他实例或 AZ 将继续不间断地提供流量服务。
  • 负载分配 - 将流量分配给所有活动实例,从而提高性能并减少延迟。
  • 自动故障切换 - 无需人工干预,系统会自动重新路由流量。

好处

  • 高容错性
  • 区域故障时的无缝用户体验。
  • 更好地利用资源。

在 watsonx.data 中,大多数组件都采用主动-主动设置,并在多个区域部署副本,以帮助确保持续可用性。 例如,企业计划中的元数据服务 (MDS)。

仅活动

在“仅活动”设置中,一个组件一次只能在一个可用区中运行。 如果该区域出现故障,则必须在另一个区域重新启动或重新部署组件。

主要特点

  • 每个组件只有一个活动实例。
  • 故障时自动在新区域重新启动。
  • 由于重新启动需要时间,故障切换过程中会出现轻微延迟。

好处

  • 架构更简单。
  • 减少资源消耗。
  • 故障切换时短暂停机的恢复能力。

在 watsonx.data 中,单租户组件是在“仅主动”设置中部署的。 这些单租户组件包括 Presto 引擎和元存储组件,战略性地分布在三个 AZ 上,以实现容量和故障转移。 这些组件在故障期间在新区域中重新启动。 例如,精简版计划中的元数据服务 (MDS)。

在多区区域 (MZR) 中,Presto 和 MDS 分布在不同的区域。

当单个可用性区域在 MZR 中发生故障,或者在任何区域中发生硬件故障时,工作负载会自动失败并在该区域中的其他区域中重新启动。 每个 watsonx.data 实例都随附一个缺省跨区域元数据存储区和一个可选试用存储区 (10 GB)。 这两个存储桶都启用了 IBM Cloud® Object Storage 版本控制。 数据通过启用复制到单独的 IBM Cloud Object Storage 帐户进行备份。 但是,对于客户带入 watsonx.data 实例的任何外部存储桶,客户都要对这些备份负责。

在区域灾难中,您会收到一封电子邮件,其中包含您需要遵循的所有步骤。 请参阅 watsonx.data的职责。 单租户组件在“仅活动”模型上运行,确保发生故障时在提供相同服务的新节点上立即重新启动。

单租户组件战略性地分布在 3 AZs 之间,以增强可靠性。 当 AZ 发生故障时,将确保有足够的容量在可用 AZs 上启动所需的服务。 这将最大程度地减少 AZ 中断所造成的任何影响。

职责

Backup

IBM 职责

  • 每日自动备份:watsonx.data 自动对 IBM 提供和管理的所有资源进行每日备份。 这包括:
    • 系统元数据
    • 配置设置
    • 管理的内部数据 watsonx.data
  • 备份存储和安全:这些备份安全地存储在 IBM 的基础设施中,确保数据的持久性并符合企业级标准。

客户责任

  1. 为还原提供一个新实例:
    • 如果需要还原,客户端必须创建一个新的 watsonx.data 实例来接收已还原的数据。
    • 这可确保原始环境不受影响,恢复的数据可以安全地进行验证。
  2. 验证 IBM 备份: 还原后,客户必须验证还原数据的完整性和完备性。 这包括检查元数据、配置和系统行为。
  3. 恢复外部组件:
    • watsonx.data 中集成的任何外部数据源或组件(例如,自定义连接器、第三方工具、用户管理数据集)都不会得到 IBM 的备份。
    • 客户负责分别备份和恢复这些组件。

复原

IBM 职责

恢复所提供的资源: IBM 处理备份资源的实际恢复过程。 这包括将备份加载到新实例中,并确保系统级一致性。

客户责任

  1. 创建一个新实例用于还原: 客户端必须启动一个新的 watsonx.data 实例来接收恢复的数据。
  2. 验证恢复的数据: 客户必须执行恢复后验证,以确保恢复的数据准确可用。
  3. 恢复外部组件: 客户必须手动恢复原始设置中的任何外部集成或数据源。

应用程序级别高可用性

通过网络和云服务进行通信的应用程序会发生瞬态连接故障。 设计应用程序以在与部署或 IBM Cloud的连接暂时中断导致错误时重试连接。 由于 watsonx.data 是受管服务,因此定期更新和维护是正常操作的一部分。 此类维护有时会导致临时服务中断。

应用程序必须设计为处理服务的临时中断,对失败的命令实施错误处理,并实施重试逻辑以从临时中断中恢复。

以下是临时服务中断期间可能需要的一些错误代码:

如果 Presto 协调程序节点重新启动 (无论是出于维护目的还是由于系统故障),那么需要应用程序重新建立与 Presto 引擎的连接。

不期望出现几分钟的不可用性或连接中断。 如果您的时间段超过一分钟而没有连接,请提交支持凭单并提供详细信息,以便对中断进行调查。

灾难恢复策略

IBM® watsonx.data 提供了保护数据和复原服务功能的机制。 已制定业务连续性计划,以实现服务的目标恢复点目标 (RPO) 和恢复时间目标 (RTO)。 下表概述了 watsonx.data的目标。

灾难恢复战略
灾难恢复目标 目标值
RPO <= 24 小时
RTO < 24 小时

缩短了 SaaS 服务 Milvus 的备份间隔,将还原 RPO 从 24 小时缩短到 2 小时。

位置

AWS 区域

  1. 俄勒冈州 (us-west-2)
  2. N. 弗吉尼亚 ( us-east-1 )
  3. 法兰克福 (eu-central-1)
  4. 东京 (jp-tok)

IBM 区域

  1. 达拉斯 (us-south)
  2. 华盛顿 (us-east)
  3. 法兰克福 (eu-de)
  4. 伦敦 (eu-gb)
  5. 东京 (jp-tok)
  6. 悉尼 (au-syd)