了解 IBM Cloud Transit Gateway 的高可用性和灾难恢复

高可用性服务或工作负载根据预先定义的服务级别承受故障并继续提供处理能力的能力。对于服务，可用性在服务水平协议中进行了定义。可用性包括计划内和计划外事件，例如维护、故障和灾难。（HA）是指服务在出现意外故障时仍能保持运行和访问的能力。灾难恢复服务或工作负载从罕见重大事故和大规模故障（如服务中断）中恢复的能力。这包括影响整个地区的自然灾害、数据库损坏或导致工作负荷增加的服务中断。这种影响超出了高可用性设计所能承受的范围。 (DR) 是将服务实例恢复到工作状态的过程。

IBM Cloud Transit Gateway 是一种高度可用的服务，旨在实现服务级别目标(SLO)。它是建立在弹性分布式基础设施上的区域性服务，支持区域内多个区域的连接。 Transit Gateway 实现资源（如虚拟专用云（VPC））之间的无缝通信，并通过冗余连接和自动路由传播支持高可用性网络架构。IBM Cloud

您负责了解服务的配置、定制和使用情况。您还必须做好在新区域重新创建服务实例和在新区域恢复数据的准备。

要更好地了解底层基础架构，包括数据中心和区域的定义，请参阅 IBM Cloud 区域和数据中心的资源部署位置，其中详细介绍了区域如何映射到物理数据中心。有关 Transit Gateway 可用区域和数据中心位置的信息，请参阅 Transit Gateway 位置。

高可用性架构

IBM Cloud Transit Gateway 是一种基于多区区域 (MZR) 的区域性高可用性服务，提供 % SLA，区域内无单点故障。99.99 当您创建 Transit Gateway 时，它会自动部署到多个可用区，每个可用区都位于不同的物理设施中，以确保对区级故障的恢复能力。

Transit Gateway 确保流量尽可能保持在原发区域内。在分区中断的情况下，流量会通过其余分区透明地重新路由，从而保持整个 IBM Cloud 环境的不间断连接。

对于默认为单线程的基于 GRE 隧道的连接，高可用性需要明确的冗余。在 Transit Gateway 上配置 GRE 连接时，必须指定可用性区域。为满足高可用性需求，请使用至少有两条隧道的冗余 GRE 配置，或在不同可用性区域配置多个 GRE 连接。

GRE 连接要求网关所有者根据自己的具体要求配置高可用性。

虽然 Transit Gateway 支持连接多个区域的全局路由，但它不会在区域实例之间自动复制配置或状态。为防止全区域中断，请在辅助区域部署镜像 Transit Gateway，复制附件和路由配置，并相应规划故障切换机制。

IBM Cloud 支持的地区都是多区地区，只有蒙特利尔是单区地区。Transit Gateway 在蒙特利尔，Transit Gateway 不提供区域级冗余。如果在该区域部署，请务必采取其他措施，如在辅助区域建立镜像中转网关，以确保可用性和容错性。

高可用性功能

IBM Cloud Direct Link 支持以下高可用性功能

高可用性功能用于 IBM Cloud Transit Gateway
功能	描述	对价
多区部署	在 MZR 内跨多个可用区部署	在区域一级部署中转网关；为实现冗余，可考虑在另一个区域再部署一个中转网关。
GRE 隧道冗余	在不同可用性区域配置至少两条 GRE 隧道	Transit Gateway 不提供自动 GRE 故障切换；需要手动配置多条隧道。
全局路由	跨地区互联 VPC 和传统基础设施	确保正确配置路由策略并监控区域间流量，以保持最佳性能。
Direct Link 整合	使用 IBM Cloud 连接内部网络 Direct Link	在内部连接中实现冗余，避免单点故障。
多账户支持	跨多个 IBM Cloud 账户互联 VPC 和传统基础架构	与账户所有者协调管理权限，确保各账户配置一致。

客户负责维护进入 IBM Cloud 的网络连接。为确保您拥有高可用性的端到端连接，请考虑以下功能：

客户 HA 功能用于 IBM Cloud Transit Gateway
功能	描述	对价
多台内部设备	在内部设置多个冗余设备（如路由器和交换机	规划物理空间、电源和电缆冗余。定期测试故障切换方案。
连接不同的 AZ	将设备连接到同一多区区域 (MZR) 内的不同可用区 (AZ)	确保多样化的物理路径，并与医疗服务提供者协调，避免共同风险群体。
AS 预编译，BGP	配置 AS 预编译和 BGP 路由，以管理主动连接和被动连接之间的流量	为入站、出站流量定义清晰的路由选择策略。监控 BGP 广告的正确性。

灾后恢复架构

IBM Cloud Transit Gateway 通过实现跨环境的安全、高可用性连接，支持灾难恢复。IBM Cloud

在 MZR 内的多个 AZ 上部署 Transit Gateway 可确保单个区域内的容错。这种设置可减轻局部故障的影响，保持 VPC 和传统基础设施之间的连接。

使用全局路由功能，可以实现不同地区 VPC 和传统基础设施之间的互联。这种方法支持区域间的工作负载分配和故障转移，增强了网络架构的整体弹性。

通过将 IBM Cloud Transit Gateway 的功能与战略部署和配置实践相结合，企业可以建立强大的灾难恢复架构，确保连续性并最大限度地减少中断期间的停机时间。

下表概述了这些功能和主要考虑因素。

灾难恢复功能

Transit Gateway 支持以下灾难恢复功能：

灾难恢复功能用于 IBM Cloud Transit Gateway
功能	描述	对价
全局路由	支持不同地区 VPC 和传统基础架构之间的互联互通。	促进区域间的工作负载分配和故障切换。

作为客户，您可以创建并支持以下其他灾难恢复选项：

客户灾难恢复功能用于 IBM Cloud Transit Gateway
功能	描述	对价
全局路由配置	配置全局路由，以便在不同区域间互联 VPC 和传统基础架构。	支持区域间的工作负载分配和故障切换。
Direct Link 整合	将 IBM Cloud Direct Link 与 Transit Gateway 整合，实现内部网络与 IBM Cloud 之间的专用专网连接。	需要正确配置，以避免 IP 重叠并确保无缝连接。

规划灾难恢复

定期练习灾难恢复步骤，确保为意外中断做好充分准备，这一点至关重要。在制定灾难恢复计划时，请考虑以下故障情况和解决方案 IBM Cloud Transit Gateway。

从某些故障中恢复可能有多种方法，因此一定要根据具体的架构和要求对每种情况进行评估。以下是常见的故障情况以及可能的恢复措施：

以下灾难恢复方案 IBM Cloud Transit Gateway
失败	解决方法
地区 Transit Gateway 停机	通过另一区域的中转网关重定向流量。
BGP 会话丢失	验证路由配置和对等设备状态；重启 BGP 会话。
VPC 连接失败	重新创建附件或切换到其他路径。
意外删除配置	使用备份或自动化工具恢复配置。
记录或监控失败	重新配置登录/监控端点；验证 IAM 和服务状态。

为灾难恢复备份过境网关

准备好重新创建您的过境网关和连接。本节将帮助您确保您拥有为此目的所需的所有数据。

IBM Cloud Transit Gateway 备份具有跨区域持久性。它们存储在多个区域，并可在其他区域恢复。

以下步骤使用 IBM Cloud CLI，但也可以使用 IBM Cloud 控制台或 API。

保存所有中转网关及其连接的列表。为此，请执行以下步骤：

使用 ibmcloud tg gateways 命令列出所有中转网关的详细信息。保存输出结果。
使用 ibmcloud tg connections GATEWAY_ID 命令列出每个网关的连接信息。保存输出结果。

更多信息，请参阅 Transit Gateway CLI 参考资料。

保存这些命令返回的信息有助于快速从故障中恢复。如果出现故障，请使用保存的信息并运行 ibmcloud tg gateway-create 和 ibmcloud tg connection-create 命令来重新创建中转网关和连接。

您对 HA 和 DR 的责任

有关 IBM 和客户（您）之间使用 Direct Link 的责任归属的背景信息，请参阅了解您在使用 IBM Cloud Transit Gateway 时的责任。持续测试 HA 和 DR 计划是您的责任。

可能会出现网络连接中断和服务短时间无法使用的情况。您有责任确保应用程序源代码包含客户端可用性重试逻辑，以保持应用程序的高可用性。

恢复时间目标 (RTO)

Transit Gateway 提供保护数据和恢复服务功能的机制。制定了业务连续性计划，以实现服务的目标恢复时间在灾难恢复计划中，指灾难发生后业务流程恢复所需的时间。（RTO）。下表概述了 Transit Gateway 的目标。

区域办事处的目标是 IBM Cloud Transit Gateway
功能	RTO
控制平面可用性	< 1 小时
数据路径故障切换（区域内）	< 5 分钟
数据路径故障切换（区域间）	< 15 分钟
门户/API 访问	< 1 小时
恢复配置	< 4 小时

变更管理

变更管理包括更改和删除配置等任务。

授予用户和流程 Identity and Access Management (IAM) 角色和操作以其工作所需的最低权限。有关更多信息，请参阅如何防止意外删除服务？

管理变革的最佳做法还包括

对 Transit Gateway 配置所做的任何修改都要保存修改日志，以计划和记录修改。
在进行重大更改之前，创建关键配置的备份。
将影响较大的变更安排在人流量较少的时间段，并通知受影响的团队。
监控 Transit Gateway 健康状况和指标，确保一切按预期运行。

IBM 如何支持灾难恢复规划

IBM Cloud Transit Gateway 专为弹性而构建，可简化并确保跨 VPC、内部部署网络和混合云环境的连接。如果发生故障：

事件响应团队可快速识别并隔离故障。
在可能的情况下，使用 IBM 的主干网和提供商网络进行流量重路由。
通过 IBM Cloud Status 页面保持服务状态通信，以便随时向您通报情况。

当区域和地区发生故障时，IBM 会采取以下恢复措施：

IBM 如何从区域故障中恢复

区域故障是指区域内的可用性区域发生故障。如果区域出现故障，IBM Cloud 将尽快查明问题所在，进行维修并恢复区域。如果某个区域不可用，流量会自动路由到健康的区域。客户无需采取任何行动即可恢复其中转网关。

IBM 如何从地区失败中恢复过来

如果发生罕见的区域性故障，IBM Cloud 将尽快查明并修复故障，恢复对该区域的服务。转接网关实例将在此过程中自动恢复。区域恢复后，您需要负责验证中转网关实例的状态。

IBM 如何维护服务

所有升级均遵循 IBM 服务最佳实践，包括恢复计划和回滚流程。定期维护可能会造成短时间的中断，但客户端可用性重试逻辑可以缓解这种情况。 IBM 会在出现缺陷的第一时间恢复更新。

IBM 提前通知所有计划中的维护活动。如果某项变更预计会影响您的工作量，IBM 会通过正式通知告知。要了解维护、服务公告和其他更新的最新情况，请参阅监控通知和状态页面。