双区域灾难恢复设计
设计采用以下结构:
- 网络
- vCenter
- VMware NSX® 管理器
- Caveonix RiskForesight™
- VMware 用于日志的 Aria Operations™ 操作系统
- VMware 网络版 Aria Operations™
- VMware Aria® Operations™ Manager
- AD/DNS/NTP
- Veeam®
- KMIP for VMware®
- 超级保护加密服务
网络设计
由于设计使用了两个 调整的工作负载 实例,因此网络设计位于每个区域,并在 Underlay networking 和 Overlay networking 中进行了记录。
网络层面的关键设计要素是采用跨区域网络来使用 VMware Aria Operations Manager 分析集群。 跨区域网络是一种第 3 层结构,允许在受保护区域或恢复区域使用相同的 IP 子网空间。 在正常操作中,跨区域网络与受保护区域内的 vSRX 或 FortiGate 绑定,即该网络的默认网关是 vSRX 或 FortiGate。 然后,受保护区域 vSRX 或 FortiGate 会对该网络进行广告宣传,以便其他网络可以访问该网络。 在恢复操作中,跨区域网络与恢复区域的vSRX或FortiGate相连。 然后,恢复区域 vSRX 或 FortiGate 会对该网络进行广告宣传,以便其他网络可以访问该网络。 跨区域网络的使用允许 VMware Aria Operations Manager Analytic 群集在恢复到恢复区域时保留相同的 IP 地址。
回顾以下网络设计决策:
- IBM Cloud® 传统网络环境不允许跨数据中心扩展 VLAN。 因此,本设计不在物理网络基础设施层面使用扩展 VLAN。
- 虽然某些VMwareNSX™设计可以在地理位置遥远的vSphere集群之间延伸网段,但这些设计需要一个共同的 NSX 集群,而这并不符合区域间独立性的设计要求。
- 可以在地理位置分散的 vSRX 设备之间延伸网络。 然而,本设计并没有提出这种用例。
- 恢复的管理组件使用相同的 IP 地址,以最大限度地减少恢复工作量。
- 为提供流量隔离,设计在区域之间以及区域与 SaaS 消费者和 SaaS 提供商之间使用隧道(根据客户要求使用 GRE 或 IPsec)。
- 在正常运行和灾难恢复调用期间,区域与 SaaS 提供商和 SaaS 消费者之间使用 BGP 在适当位置公布所需路由。
- VMwareAria Operations Manager DR 设计要求跨区域子网使用相同的 IP 地址在恢复区域重启分析群集。 实现这一过程的方法是将跨区域 IBM Cloud 可移植子网“移动”到恢复区域。 这一过程之所以可能,是因为该子网的默认网关是 vSRX。 但是,除非通过 SaaS 提供商 VPN 通道,否则该子网无法从外部连接到 vSRX。
vCenter Server
每个区域都有一个 vCenter 服务器实例,用于管理区域内的 ESXi 主机。 每个实例都是一个单独的 SSO 域。 IBM Cloud 设计使用带有嵌入式平台服务控制器 (PSC) 的 vCenter 服务器设备 (VCSA)。 每个区域使用一个 vCenter 和单独的 SSO 域可实现服务隔离。
在每个区域 vSphere 高可用性(HA)提供了设备的可用性。 为提高业务弹性,建议对设备进行镜像级和文件级备份。 这些备份存储在本地区域,以便快速恢复。
建议同时配置 Veeam 备份复制作业。 如果 Veeam 资源库服务器发生故障,则另一区域的设备备份副本可用。
Veeam 用于对设备进行映像级备份。 不过,这种类型的备份不会静止数据库,在极少数情况下,映像可能无法使用。 因此,还建议按计划进行文件级备份。
要还原 VCSA 映像,请将 Veeam Backup and Replication Manager 配置为首先附加到管理群集中的 ESXi 主机,因为通过 VCSA 的连接不可用。 在 Veeam UI 还原向导中,选择“整个虚拟机”,选择 VCSA,然后选择“还原到新位置”,再选择 ESXi 服务器。
良好的做法是将备份 vDS 交换机配置作为备份的一部分,这可以通过备份任务触发的脚本来实现。 有关详细信息,请参阅 PowerCLI 从 VMware vCenter 收集完整的虚拟分布式交换机 (VDS) 信息。
VCSA 支持基于文件的备份和还原机制,有助于在发生故障后恢复设备。 只有使用 VCSA 管理用户界面 (UI) 才能进行基于文件的备份。 在设计中,版本库服务器上的 SFTP/SMB 共享被用作目标目录。 该目录通过 Veeam 文件复制作业复制到其他区域,以获得额外的弹性。
对于基于文件的还原,流程包括部署新的 VCSA,并将数据从基于文件的备份还原到新设备。
NSX Manager
NSX Manager 提供用户界面和 API,用于创建、配置和监控 NSX 组件,如虚拟网段、Tier-0 和 Tier-1 网关。 NSX Manager 实现了 NSX 基础设施的管理平面和控制平面。 在设计中,受保护区域和恢复区域都有自己的 NSX Manager 集群,传输区的跨度仅限于该区域。 每个区域的 NSX 管理器可实现服务隔离,从而将每个区域视为独立区域。
使用群集虚拟 IP 地址可实现 NSX Manager 群集用户界面和 API 的 HA。 使用 vSphere HA 可使故障设备保持业务连续性。
不支持基于映像的 NSX 管理器备份。 因此,建议使用 SFTP 服务器配置 NSX 设备的计划备份,这是 NSX 的唯一选择。 在设计中,SFTP 服务器目标是本地 Veeam 资源库服务器上的一个目录。 该 Windows® 服务器被配置为 SFTP 服务器,用于在需要时恢复备份文件。 为限制所需组件的数量,不使用单独的独立 SFTP 服务器,而是使用 Veeam 资源库服务器 Windows 操作系统中的 SFTP 服务。
如果 Veeam Repository 服务器发生故障,则会丢失 VCSA 和 NSX Manager 备份。 因此,Veeam 文件复制作业用于将文件从本地区域复制到远程区域,从而提供异地备份副本。
当 NSX Manager 设备无法运行时,数据平面不会受到影响,但也无法更改配置。 还原过程会先还原一个节点,然后提示您添加其他节点。
由于区域管理是独立的,因此受保护区域和恢复区域的网络配置需要根据客户的网络弹性策略和叠加网络设计保持同步。 您可以为工作负载网络选择不同的网络弹性策略。 恢复后,您可能需要某些工作负载使用相同的 IP 地址或不同的 IP 寻址方案。
建议使用自动化创建覆盖网络组件,以便两个区域的配置保持一致。 建议使用配置管理自动化(如 PowerCli, Ansible 或 Terraform)来提供所需的同步。
Caveonix RiskForesight
IBM Cloud for VMware® Regulated Workloads 自动化在受保护区域和恢复区域都部署了 Caveonix RiskForesight 一体化设备。 在双区域设计中,只使用恢复区域设备,并进行重新配置,以便将受保护区域 vCenter, NSX 管理器配置为资产库。 使用 Caveonix RiskForesight的单一实例来管理受保护区域和恢复区域的合规性和网络风险,可实现对所有环境的单一视图。 通过将 Caveonix RiskForesight的单个实例置于恢复区域,该实例在灾难恢复调用中可用,而无需任何灾难恢复活动。
vSphere HA 提供 RiskForesight 实例的可用性和业务弹性。 对于虚拟机的映像级备份,请将其配置并存储在 Veeam Repository 服务器的恢复区域中。 配置 Veeam 备份复制作业,将备份复制到受保护站点,以便提供异地备份副本。
如果使用 Caveonix RiskForesight 管理工作负载虚拟机的合规性和网络风险,请查看 RiskForesight 实例的扩展。 用适当的部署取代一体化部署,以满足可用性和保留要求。 有关详细信息,请参阅 CaveonixRiskForesight 的部署模型。
VMware Aria Operations for Logs
调整的工作负载自动化部署了一个 VMware Aria Operations for Logs 环境,该环境由四个设备组成,两个区域中的每个设备都集成了负载平衡器。 有关详细信息,请参阅 VMware日志的 Aria 操作。
在双区域设计中,每个区域都被配置为将日志信息转发到另一个区域的 VMware Aria Operations for Logs 实例。 通过这种转发配置,VMware Aria Operations for Logs 群集中的任何一个都可用于从任一区域查询可用日志。 因此,VMware Aria Operations for Logs 群集不需要进行故障转移配置,每个群集仍与部署该群集的区域相关联。 这种方法最大限度地减少了灾难恢复调用中的故障转移配置。
使用 VMware以及 vSphere 可在区域内提供高可用性。 为确保业务连续性,请使用 Veeam 配置群集节点的映像级备份。
VMware Aria 网络运营
VMware Aria Operations for Networks 服务是 调整的工作负载 的可选手动安装。 有关详细信息,请参阅 VMware Aria Operations for Networks。
在双区域设计中,在每个区域手动安装一个 VMware Aria Operations for Networks 实例,用于监控和管理该区域。 无需将保护区域中的实例恢复到恢复区域。 VMware Aria Operations for Networks 实例按区域部署,以实现服务隔离,从而将每个区域视为独立区域。
使用 VMware和 vSphere 可在区域内提供高可用性。 为保证业务连续性,请配置文件级备份。 虽然 Broadcom® 支持镜像级备份,但建议关闭 VMware Aria Operations for Networks 设备。 这个过程在升级过程中很实用,但不适合定期备份。 因此,建议配置支持 SSH 备份的文件级备份。 将 VMware Aria Operations for Networks 配置为以 Veeam Repository 服务器为目标的计划备份。 配置 Veeam 文件复制作业,将备份复制到受保护站点,以便提供异地备份副本。
VMware 阿丽雅运营经理
调整的工作负载 自动化部署了一个合并的 VMware Aria Operations Manager 分析集群,该集群由四个节点组成:一个主节点、一个主副本节点和每个区域的两个数据节点。 有关详细信息,请参阅 VMware Aria Operations Manager 设计。
双区域设计使用这种部署架构,需要一些后期配置任务来创建所需的设计:
-
保护区
- 重新使用四节点分析集群,并在额外的专用便携式子网上部署两个额外的远程收集器。
- 分析集群受 Veeam Replication 保护,并可故障切换至恢复区域。 IP 地址不会更改。
- 远程收集器不会发生故障切换,而且是针对特定区域的。
-
恢复区域
- 删除四节点分析集群,在现有专用便携式子网上部署两个远程收集器。
- vSRX的配置是为了在恢复区域中使用托管分析群集的相同子网。 正常运行时,该网络上不托管任何虚拟机,而且该网络是隔离的。 在 DR 调用时,该网络和已恢复的分析集群可从远程收集器到达。 从 IBM Cloud 底层网络无法直接访问 vSRX, 以外的网络,但可以通过 VPN 连接访问。
审查以下设计决定:
- 在受保护区域重复使用 VMware Aria Operations 的自动部署可减少部署后的任务。
- 通过使用 VMware Aria Operations 的 VMware 多区域设计(具有特定区域和跨区域组件的概念),您可以将 VMware Aria Operations 分析设备恢复到相同的网络配置。 重新 IP 化设备是可行的,但会增加复杂性。
- 通过在每个区域部署两个远程收集器节点,分析集群就可以卸下收集区域间不发生故障的应用程序指标的负担。
- 使用 Veeam Replication 可提供 VMware Aria Operations analytics 群集的副本,以便在恢复区域进行恢复。
- 只有分析集群需要使用 Veeam 进行备份,因为远程采集器不存储数据,但为了便于重新部署,还是需要进行备份。
AD、DNS 和 NTP
调整的工作负载 自动化会在每个实例中部署一对 Microsoft® Windows 虚拟机。 这些虚拟机被配置为 AD、DNS 和 NTP 服务器。 这些服务在每个区域都是独立的,每个区域都有一个单独的 AD 森林,不需要将受保护区域的服务恢复到恢复区域。
vSphere HA 可提供虚拟机本身的可用性,而 Microsoft 域概念可提供在虚拟机上运行的 Microsoft Windows 服务的可用性。 为提高业务弹性,配置虚拟机的映像级备份,并将其存储在区域的 Veeam 资源库服务器中。 配置 Veeam 备份复制作业,将备份复制到其他站点,以便提供异地备份副本。
Veeam
预计 Veeam Backup and Replication 将在 调整的工作负载 双区域中使用以下用例:
- 案例 1. 仅备份和复制管理组件。
- 案例 2. 管理组件的备份和复制以及工作负载的备份。
- 案例 3. 管理组件的备份和复制以及工作负载的备份和复制。
调整的工作负载 双区域设计侧重于用例 1。 不过,为了满足工作负载备份和复制的个性化需求,我们提供了使用案例 2 和 3 的指导原则。
为静态数据和传输中的数据配置 Veeam 加密,以便不会在未加密的情况下存储或传输虚拟机数据(默认设置)。 Veeam 加密需要使用密码或口令,并且不使用 HPCS 实例管理密钥。 还原虚拟机时,选择加密存储策略,以确保虚拟机在 vSphere 数据存储中加密。
在受监管工作负载双区域设计中使用 Veeam Backup and Replication 意味着恢复区域不需要受保护区域加密密钥。 因此,可以为 VMware 服务使用单独的 HPCS 和 KMIP。
要创建双区域模式中使用的部署方案,需要开展以下部署后活动:
- 删除每个区域的 Veeam 虚拟机。
- 在每个地区订购一台 Windows 裸机服务器。 该服务器的规范记录在 Veeam on bare metal server Introduction 中。 小型服务器足以满足用例 1 的需要。
对于用例 2 和用例 3,需要计算裸机服务器的数量和规模。 有关详细信息,请参阅 存储库存储。
受保护区域裸机 Windows 服务器托管以下组件:
- 代理 - 代理是一个“数据搬运工”组件,用于从源数据存储中检索虚拟机数据、处理这些数据并将其传送到目标。 原则上,代理应尽可能接近源数据。 该代理用于位于受保护区域内的管理组件。
- 存储库 - 用于存储受保护区域管理组件备份文件的位置,也是恢复区域备份复制任务的目标。
- SFTP/SMB 服务器 - 这些服务器不是 Veeam 服务,而是本地 Windows 服务,用于对某些管理组件进行文件级备份。 Veeam 文件复制任务可将文件复制到恢复区域,以提供额外保护。
恢复区域裸机 Windows 服务器托管以下组件:
- 备份服务器 - 在使用复制的双站点环境中,最佳做法是在灾难恢复站点安装 Veeam 备份服务器组件。 在灾难情况下,备份服务器可以启动恢复。
- Veeam Backup and Replication 数据库 - Veeam Backup and Replication 在 Microsoft SQL Server 数据库中存储有关备份基础架构、作业设置、作业历史、会话和其他配置数据的信息。
- 企业管理器 - 企业管理器可通过网络界面对一台或多台备份服务器进行集中管理和报告。 虽然此设计只有一个备份服务器实例,但建议在备份或备份复制作业使用加密时部署企业管理器。 建议在恢复站点安装 Enterprise Manager 服务器,以便在灾难恢复时使用。
- 代理服务器 - 该代理用于位于恢复区域的管理组件。
- 存储库 - 用于存储恢复区域管理组件备份文件的位置,也是受保护区域备份复制任务的目标。
- SFTP/SMB 服务器 - 这些服务器不是 Veeam 服务,而是本地 Windows 服务,用于对某些管理组件进行文件级备份。 Veeam 文件复制任务可将文件复制到受保护区域,以提供额外保护。
查看以下 Veeam 设计决策:
- 为获得最佳性能和可用性,最佳做法是将 Veeam 组件分别置于不同的虚拟和物理服务器上。 不过,这种做法会增加较小环境的复杂性。 因此,选择了用例 1 的一体化部署方案。
- 由于受保护虚拟机的总数较少,因此为用例 1 的数据库选择了嵌入式数据库选项。
- 使用带直接连接存储选项的裸机服务器,是因为它提供了与虚拟化基础架构计算和存储分离的备份基础架构。
- 在双站点环境中,最佳做法是在灾难恢复站点安装 Veeam Backup 服务器组件。 在灾难情况下,Veeam 备份服务器可启动恢复。
- 部署企业管理器,使用密码丢失保护。 Enterprise Manager 管理员可通过挑战-响应机制解锁备份文件。
- 建议代理尽可能靠近源数据,并使用高带宽连接。 从源到代理的流量尚未优化,这意味着 100%的备份数据都是通过这条链路传输的。 代理和存储库之间需要良好的连接,因为优化后的数据(通常为源数据大小的 50%)会在此链路上传输。 因此,应在保护区和恢复区都放置代理。
- 代理服务器可以托管在 Windows Server 或 Linux 操作系统上,几乎没有性能差异。 在一体化部署方案中,使用的是 Windows 操作系统。
- 对于存储库服务器,建议使用裸机服务器,以最大限度地提高性能,并将需要保护的生产环境与备份存储分开。 还建议将这种做法与代理角色结合起来,以尽量减少虚拟环境和网络的开销。 最佳做法是避免将同一存储设备用于备份和虚拟化基础架构,因为丢失这单一系统可能会导致丢失两份数据,即生产数据和备份数据。
- 版本库服务器可以是 Windows 或 Linux。 在一体化部署方案中,使用的是 Windows 操作系统。 此外,对于Microsoft Windows 的存储库,Veeam 使用符合联邦信息处理标准 (FIPS 140) 的 Windows Crypto API。 对于基于 Linux 的软件源,Veeam 使用静态链接的 OpenSSL 加密库,但不支持 FIPS 140。
- 对于裸机服务器,块存储设备可以是本地磁盘,也可以是通过 SAN 使用 iSCSI 提供的 LUN。 对于 VMware 受监管工作负载设计,不支持使用 iSCSI 的 SAN。 因此,使用的是本地磁盘。
- 配置 Veeam 备份和复制配置的计划加密备份,并使用 Veeam 文件复制作业将文件复制到受保护区域。 这样,如果发生故障,Veeam Backup 服务器就可以重建,并从异地副本恢复配置。
- 没有配置使用 IBM Cloud Object Storage 的容量层,因为使用案例 1 的存储需求较低。
以下指南适用于用例 2 和用例 3:
- 在工作负载群集主子网上部署更多裸机服务器,以实现备份存储库的分离和扩展,并提高性能。
- 为获得最佳性能和可用性,最佳做法是将 Veeam 组件分别置于不同的虚拟和物理服务器上。 考虑为Veeam备份服务器使用虚拟机,因为它通过 vSphere 提供高可用性。 此外,随着环境的发展,它还能非常灵活地调整和扩展规模。
- Microsoft SQL Server 2016 Express版。 在受保护虚拟机超过 500 个的环境中,请考虑使用不同版本的 Microsoft SQL Server。
- 对于大型存储需求,建议卷的大小不要超过 200 TB,以保持故障域小而易于管理。 对于较大的存储库,可使用具有多个扩展的扩展备份存储库。
- IBM Cloud Object Storage存储库不能单独使用,但可在 Veeam Scale-out 备份存储库中配置为容量层。 对于大型部署或需要大量存档的部署,可考虑使用这种类型的存储库。
KMIP for VMware
VMware服务的密钥管理互操作性协议 (KMIP) 提供 24x7 高可用性服务,允许 vCenter 与 Hyper Protect Crypto 服务互连。 有关 调整的工作负载 中加密设计的更多信息,请参阅 加密。
KMIP 是一项基于地区的服务。 因此,在调整的工作负载双区域设计中,使用了一个单独的 KMIP 实例,并与 vCenter 和 Hyper Protect Crypto 服务连接。 可用地区包括达拉斯、华盛顿特区、悉尼、伦敦、法兰克福和东京。 订购 KMIP 服务时,请在部署 调整的工作负载 实例的区域中选择 KMIP 实例。
超级保护加密服务
IBM Hyper Protect Crypto Service (HPCS) 由 FIPS 140-2 level 4 认证的硬件安全模块提供支持。 它允许 IBM Cloud 的 VMware® 受监管工作负载 SaaS 提供商和 SaaS 消费者管理其加密密钥。
要获取更多信息,请参阅:
目前,HPCS 可在以下地区使用:达拉斯、华盛顿特区、悉尼和法兰克福。 为伦敦和东京的 调整的工作负载 实例使用不同地区的 HPCS 实例是可能的,但并不理想。
调整的工作负载 设计有两种加密用例:
- SaaS 提供商 - VMware vSphere 用于加密管理和工作负载虚拟机的加密。 这些密钥由 SaaS 提供商管理。
- SaaS 消费者 - 一种可选的应用级加密,除虚拟机加密外,还用于加密应用数据。 这些密钥由 SaaS 消费者管理。
在 调整的工作负载 Provider 密钥管理的 SaaS 双区域设计中,使用了两个独立的 HCPS 实例和特定于 VMware 服务的区域 KMIP。 HCPS 实例之间不共享密钥。
Veeam Backup and Replication 可访问未加密的数据,备份或复制数据不需要源加密密钥。 还原备份或配置副本时,指定目标加密存储策略。
在 调整的工作负载 双区域设计中,以下步骤描述了区域间的备份和还原过程:
- 受保护的虚拟机在 VMware vSphere 数据存储中使用 VMware 加密。
- 对受保护的虚拟机进行备份。
- 虚拟机备份文件通过 Veeam 加密技术在受保护区域 Veeam 资源库的磁盘上加密,该加密技术由存储在 Veeam 数据库中的密码保护。
- 如果需要本地还原,则使用 VMware 数据存储加密存储策略,通过 KMIP for VMware 服务使用来自受保护区域 HPCS 实例的加密密钥重新加密虚拟机。
- Veeam 网络加密用于将文件和备份复制到恢复区域。
- 虚拟机备份文件通过 Veeam 加密技术在恢复区域 Veeam 资源库的磁盘上加密。
- 如果需要在恢复区域进行还原,则使用 Veeam 数据存储加密存储策略,通过 KMIP for VMware 服务,使用来自恢复区域 HPCS 实例的加密密钥重新加密虚拟机。
有关 Veeam 加密的更多信息,请参阅 加密标准。
在调整的工作负载消费者密钥管理的SaaS双区域设计中,恢复区域需要使用与受保护区域相同的加密密钥。 目前,HPCS 不支持在两个区域使用相同的加密密钥。 如果第一个 HPCS 实例发生故障,密钥可以恢复到另一个区域的另一个 HPCS 实例。
要获取更多信息,请参阅: