保留部署计划

本部分描述了 IBM MQ on Cloud 服务提供的高可用性 (HA) 以及灾难恢复的详细信息。此处的信息是保留容量和保留部署计划的具体信息。

高可用性

IBM MQ on Cloud 是使用一系列组件进行部署的，这些组件作为容器构建并部署到在所选特定地理区域中运行的 OpenShift 集群中。部署的每个付费队列管理器都位于其自己的隔离容器中，并且已分配专用的 CPU、RAM 和磁盘以供其使用。

OpenShift 集群由多个工作程序节点 (例如，虚拟机) 组成，已部署的容器分布在这些节点上，并且每个容器都定义了运行状况检查和活动性检查，以便在发生特定类型的故障时，OpenShift 将自动导致容器从一个工作程序移至另一个工作程序。

MQ on Cloud 基础结构将部署到每个区域 (也称为 "多专区区域") 的 3 数据中心。这将使服务对单个工作程序节点或数据中心问题具有弹性。

队列管理器的持久状态 (例如，已定义的队列，包含在这些队列中的持久消息以及队列管理器通道的通道顺序状态) 存储在存在于容器外部的持久卷上，因此当队列管理器容器在另一个工作程序节点上重新启动时，它仍具有与在原始工作程序节点上运行时完全相同的持久状态。

上述方法构成了 IBM MQ on Cloud 中高可用性的基础，并确保即使在集群中个别工作程序发生故障的情况下，队列管理器也能够继续运行。

队列管理器的高可用性

MQ on Cloud 体系结构使用 MQ 本机 HA 解决方案。通过在 3 可用性区域之间复制队列管理器容器，这将提供跨这些区域的弹性。其中一个队列管理器副本处于活动状态，并将数据同步转发到 2 非活动副本。如果活动队列管理器容器由于底层基础结构更改或故障而变得不可用，那么其中一个副本将接管，并且连接将自动重新路由到新的活动队列管理器。此配置对于保留容量和保留部署计划的最终用户是不透明的，并且增加了队列管理器在单个实例部署上的可用性。

请在此处查看有关 MQ 本机 HA 的更多信息

IBM Cloud 服务描述的 3.2 部分中引用了预留容量和预留部署计划的 IBM Cloud 合同服务级别协议 (SLA)。

IBM 职责

为了使 IBM 能够在发生灾难性故障后复原服务，每小时都会对每个付费队列管理器进行一次配置备份，并以加密格式保存在活动数据中心外部的存储位置中。配置备份包括队列管理器中存在的队列，主题和通道的管理定义以及已应用的 TLS 证书，但不包括运行时状态 (例如持久消息或通道序列状态)，因为队列管理器中的运行时状态更改非常频繁，因此恢复该数据的副本通常不如从干净状态开始。

由于从此配置备份复原队列管理器会导致丢失运行时状态（例如，持久性消息），这并不是 IBM 能轻松执行的操作，因此 IBM 操作团队将首先与基础架构提供者（例如，IBM 或 Amazon Web Services）合作，以恢复现有基础架构。只有在确定无法在可接受的时间范围内恢复原始基础结构后，才会激活恢复过程。

RTO 和 RPO（恢复时间目标和恢复点目标）

在此情况下，将发生灾难性故障，导致所有 3 区域变为不可用

RTO 为 24 小时
RPO 为 1 小时

请注意，不支持跨区域灾难恢复，因此 RTO 预先要求该区域已完全恢复

在单个区域变为不可用的情况下，

RTO 小于 10 秒
RPO 为 0

客户职责

由于队列管理器的冷复原不会保留运行时状态（例如，通道序列状态），因此您可能需要执行某种管理操作，以将复原的队列管理器与其他基础架构重新集成，例如通过重置通道序号，以便通道成功通信。为了帮助执行此最终恢复步骤，建议您在部署队列管理器时配置灾难恢复通知处理程序（如此处所述），以便能在灾难恢复过程完成时收到来自 IBM 操作团队的通知。