IBM Cloud Docs
双区域灾难恢复概述

双区域灾难恢复概述

VMware® 受监管工作负载实例的 IBM Cloud® 是一个单一区域部署,包括许多高可用性(HA)和业务连续性功能。 然而,这种单一的区域设计并不涉及灾难恢复 (DR)。

灾难恢复被定义为在灾难发生时恢复关键业务系统和正常运行的计划。 例如,重大天气事件、网络攻击或其他导致严重停机的原因。 灾难恢复与 HA 不同的关键概念包括:基于策略的管理、无中断测试和自动协调。

IBM Cloud 提供三层区域:多区域 (MZR)、单园区 MZR 和数据中心。

  • 单园区多区域 - 单园区 MZR 包含三个可用性区域,分别位于同一楼宇的不同区域或园区内的多个楼宇中,其中任何两个可用性区域之间的电源、冷却、网络和物理安全相关性都有重叠,但不完全相同。 有关详细信息,请参阅 单校区 MZR
  • 数据中心 - 全球有 50 多个数据中心,包括蒙特利尔的 MON01、阿姆斯特丹的 AMS02 和墨尔本的 MEL01。 有关所有数据中心的更多信息,请参阅 经典基础设施位置。 有关可部署 VMware Solutions的数据中心的详细信息,请参阅 IBM Cloud 数据中心可用性

调整的工作负载 DR 设计的重点具有以下规格。

  • 根据两个关键要求进行设计:

    • 在不同区域建立备用站点,以便在主站点发生故障时进行工作负载故障切换。
    • 工作负载的故障转移,满足客户的恢复时间目标(RTO)和恢复点目标(RPO)应用要求。
  • 设计定义了替代地点基础设施和管理组件的恢复。

  • 允许灵活恢复工作负载,但不确定如何恢复工作负载的设计。 这种方法具有最大的灵活性,可满足客户的 RTO/RPO 应用要求。

    注释

    • 如果选择单一园区 MZR 或数据中心,VMware 和 Hyper Protect Crypto Services 的 KMIP 放置位置不在 VMware 受监管工作负载实例的本地。 由于请求密钥的时间是在初始加密、重新请求密钥和 ESXi 服务器重启时,因此服务和实例之间的延迟不是问题。
    • 确保了解所有服务组件的位置,并确保其符合规定要求。

概念

调整的工作负载 双区域设计概念基于两个 调整的工作负载 实例的自动部署,每个实例部署到不同的 IBM Cloud 多区区域。 使用不同的多区区域可以实现灾难恢复,原因如下

  • 服务的主机托管 - VMware 的 KMIP™ 和 Hyper Protect Crypto Services 在多区托管。
  • 地理距离--同一物理事件影响两个多区的风险较低。
  • 弹性 - 每个区域的逻辑服务都是独立的,因此一个服务出现故障不会影响到另一个区域的服务。

Hyper Protect Crypto Services 不适用于伦敦多区区域。

调整的工作负载实例的这种解析使管理和工作负载虚拟机(VM)能够在区域之间进行故障切换。 由于每个区域都是一个单独的 调整的工作负载 实例,因此这些区域具有相似的物理层和虚拟基础架构设计。 调整的工作负载 灾难恢复设计需要两个 IBM Cloud 位置:

  • 受保护区域 - 该区域包含需要 DR 的受保护虚拟机。

  • 恢复区域 - 如果发生灾难,该区域可为托管受保护区域的虚拟机提供环境。

    注释

    • 恢复区域管理群集需要足够的空闲容量来托管受保护区域的受保护管理应用程序。
    • 恢复区域工作负载集群需要足够的空闲容量来托管受保护区域的受保护工作负载。
    • 在正常运行中,工作负载虚拟机可根据需要在恢复区域内运行。 不过,恢复区域需要有足够的初始容量,以便在调用 DR 时运行已恢复的工作负载虚拟机。 这些工作负载可能是测试和开发工作负载,在灾难恢复时被视为牺牲品。

恢复点目标(RPO)和恢复时间目标(RTO)取决于许多变量。 因此,调整的工作负载 双区域设计没有为 RPO 或 RTO 提供标准服务级别协议 (SLA)。 不过,请查看以下有关 RPO 和 RTO 的信息:

  • 恢复区域中的 VMware vSphere 群集已进行调配,并可在 DR 调用后启动这些工作负载虚拟机时立即运行工作负载。
  • 恢复区域中的核心管理组件(vCenter Server 和 NSX™ Manager 群集)正在运行,因此不存在基础架构部署等待时间。
  • 通过管理工具集(即 VMware Aria® Operations™ 和 Caveonix RiskForesight, )对恢复基础架构进行监控和合规性检查,从而确保恢复基础架构资源健康、合规并可随时使用。
  • 该设计描述了管理组件的可用性和恢复性,如果需要,用于完成该设计的技术也可用于工作负载。 此外,还可根据需要为工作负载使用其他产品,以满足客户的 RTO/RPO 应用要求。
  • 这种设计不会限制工作负载 DR 方法的选择。 例如,客户的要求可以规定在灾难恢复中使用相同或不同的 IP 地址,或使用复制或备份和恢复来恢复这些工作负载。 大多数技术都能还原到多个还原点,这样当恶意软件攻击发生时,客户端就能回滚到“已知良好”的配置。

设计概述

调整的工作负载双区域设计包含了许多设计决策,这些决策的合理性在于设计简单、最大限度地提高 调整的工作负载 实例部署自动化,以及最大限度地减少对工作负载 DR 的限制。 管理工作负载和客户工作负载的恢复被认为是独立的,因此本设计侧重于这些管理组件的恢复。 客户工作负载可以通过类似的方法或使用不同的工具进行恢复。

调整的工作负载 dual region overview diagram
调整的工作负载 dual region overview diagram

调整的工作负载 双区域设计使用以下规范:

  • 每个区域都有一个 调整的工作负载 实例,需要两个区域。 可用地区包括:达拉斯、华盛顿特区、悉尼、伦敦、法兰克福和东京。
    • 在受保护区域,根据需要部署单区或多区 调整的工作负载 实例,以支持工作负载的正常运行。
    • 在恢复区域,根据需要部署单个 调整的工作负载 实例,以便在启动或测试 DR 时支持恢复工作负载。
  • vCenter- 每个区域一台设备。
  • NSX 管理器 - 每个区域一个群集。
  • RiskForesight--在恢复区域托管的“一体化”虚拟机,该虚拟机具有资产存储库以及为受保护区域和恢复区域配置的计划作业。
  • VMware Aria Operations™ for Logs - 每个区域一个群集,并在区域之间使用日志转发/过滤。
  • VMware Aria Operations Manager - 受保护区域跨区域网络上的分析群集,以及两个区域的远程收集器。 分析集群的恢复是通过副本完成的。
  • VMware Aria Operations™ for Networks - 每个地区的可选手动安装。
  • AD/DNS/NTP - 两个区域的 HA 虚拟机。 每个区域都是一片独立的森林。
  • Veeam - 单个 Veeam 备份和复制实例,每个区域都有一台裸机服务器。 管理组件位于恢复区域。 备份和文件副本用于提供异地副本。 Veeam 复制用于提供 VMware Aria Operations 分析集群的副本。
  • VMware 服务的密钥管理互操作性协议 (KMIP)- 每个区域都有一个 HA KMIP 实例。
  • Hyper Protect Crypto Services (HPCS)- 每个区域都有一个 HA HPCS 实例。