为 SAP 解决方案规划灾难恢复 IBM Cloud

灾难恢复（DR）是一项战略计划，旨在帮助组织应对自然灾害、停电、网络攻击和其他破坏性事件等意外事件。灾难恢复计划的主要目标是将此类中断的影响降到最低，并使组织能够继续或快速恢复关键业务。一个结构合理的灾难恢复计划能够快速恢复，不受中断原因的影响，从而减少潜在的收入损失、品牌损害和客户不满。

为在 IBM Cloud 中运行 SAP 系统的组织设计和实施灾难恢复策略，具体步骤如下：

通过识别关键数据、确定恢复时间目标（RTO）和恢复点目标（RPO）的流程来评估您的业务需求。
设计灾难恢复策略，包括数据复制方法、备份位置以及故障切换和故障恢复程序。
通过 IBM Cloud 服务实施灾难恢复策略，例如 IBM 虚拟私有云（VPC）、IBM Power Virtual Servers 和 IBM Cloud Object Storage。这些服务有助于实现自动化、可扩展性和增强冗余。
配置网络和安全设置，重点关注VPC、VPN、直接链接、访问控制和加密。
请确保定期测试、监控和维护您的灾难恢复计划，以确保其有效性和相关性。

评估您的业务需求

在制定灾难恢复策略之前，先了解您的业务需求。分析所需的数据、应用程序和信息。确定您业务的关键系统。每个应用程序都有特定的RTO和RPO要求，这些要求被描述为服务等级或层级。

弹性等级定义

根据恢复时间目标（RTO）和恢复点目标（RPO）的要求，将应用程序分类到不同的恢复层。

以下列表是弹性层分类示例：

第一级：持续可用性（RTO<=1小时，RPO<=1小时）
第二级：高级恢复（> 1小时至<= 24小时，RPO< 2小时至<= 24小时）
第三级：标准恢复（> 24 小时到 <= 72 小时，RPO：上次备份）
第四级：无法恢复（不适用）

设计灾难恢复策略，以 IBM Cloud

在您全面评估业务需求后，设计满足您需求的灾难恢复策略。请考虑以下操作：

数据复制

根据您的RTO和RPO，选择以下数据复制方法之一：

SAP HANA 系统复制、HADR 或 Data Guard，后者使用系统的数据库层进行数据复制。IBM Db2 Oracle SAP
IBM Power Virtual Server 中的全球复制服务（GRS）提供异步复制和高级网络配置，用于快速将数据传输到远程位置。
IBM 虚拟私有云（VPC）中的文件共享复制功能可在同一地理区域的其他区域创建文件共享副本。使用文件共享复制功能，您可以在不同的区域保留文件共享的只读副本。如果您在目标区域有另一个VPC，您也可以在同一位置的另一个区域创建一个副本。

备份和复原

定期备份关键数据和系统，并确保它们存储在安全且可访问的位置。备份必须与灾难恢复义务保持一致，并定期进行测试，以确保其完整性和成功执行。

故障切换和故障恢复

制定灾难期间自动切换到备用站点的计划。制定灾后数据恢复到主站点的程序。

灾难恢复计划中的自动故障切换和故障恢复程序具有以下优点：

将停机时间降至最低
确保效率
保持一致性
应对复杂环境的尺度
优化资源配置
便于测试
降低成本
提高整体弹性

实施灾难恢复策略 IBM Cloud

根据 IBM Cloud 中的基础设施和服务制定您的灾难恢复计划。请考虑以下主要服务。

IBM 虚拟私有云

在VPC中创建文件共享的快照。快照是您的文件共享的即时副本，映射到文件共享的生命周期。更多信息，请参阅规划 File Storage for VPC 快照。

IBM Power Virtual Server

在多个区域部署虚拟服务器，提高冗余性和可用性。使用全局复制服务（GRS ）进行异步块存储复制。

IBM Cloud Object Storage

使用 IBM Cloud Object Storage，这是一种可扩展且经济高效的解决方案，可用于存储备份和复制的数据。 IBM Cloud Object Storage 具有弹性、耐用、地理冗余、增量备份支持、数据分离和暂存等功能。

钴铁合金——安全自动备份

使用Cobalt Iron在多个环境中创建备份，它提供了一种安全、自动化且经济高效的解决方案。它包括备份策略的集中管理、先进的合规性功能和灾难恢复支持。

如需了解有关 IBM Power Virtual Server 中备份策略的更多详情，请参阅《使用指南针为 AIX 和 Linux 提供安全自动备份》。

配置网络和安全

创建网络和安全措施，以防止数据在传输和存储过程中遭到未经授权的访问、盗窃或损坏。在灾难恢复场景中，这些措施非常重要，因为数据可能会在主站点和辅助站点之间传输，或者存储在云端。使用加密、访问控制和安全协议来维护数据的机密性、完整性和可用性。请确认您的灾难恢复计划包含高效的网络和安全配置。以下主要服务：

Virtual Private Cloud (VPC)

使用 IBM Cloud VPC 为灾难恢复环境创建独立网络。它提供逻辑隔离、自定义网络策略、多区域覆盖、高速网络连接以及核心服务支持。

VPN和 Direct Link

使用VPN或 Direct Link 在您的本地基础设施和 IBM Cloud 之间建立安全连接。

访问控制和加密

实施严格的访问控制，并对传输中和静止中的数据进行加密。

记录并测试您的灾难恢复计划

记录您的灾难恢复计划，并让业务部门和运营部门了解这些计划。定期测试恢复计划，以验证它们是否能在对服务与网络影响最小的情况下恢复必要的服务和网络。请考虑以下行动：

明确角色和职责

在灾难恢复计划中明确角色和职责。一个明确的灾难恢复计划可以减少混乱，并在任务确定后缩短响应时间。此外，明确界定的灾难恢复计划具有以下优势：

避免重复工作，考虑整个恢复过程
促进团队成员之间的有效沟通和协调
通过确保每个角色都有指定的负责人负责执行，促进问责制

员工培训

确保您的IT员工接受过最新的灾难恢复程序和工具的培训。培训可确保所有团队成员在灾难发生时了解自己的职责。在事故发生时，这种清晰度对于协调应对和减少混乱是必不可少的。定期培训有助于员工熟悉灾难恢复程序，减少执行过程中的错误。这种熟悉程度大大加快了恢复过程，最大限度地减少了停机时间，并防止了对业务运营的不利影响。

安排灾难恢复演练

定期进行灾难恢复培训，模拟灾难场景，验证故障切换和故障恢复程序。在灾难恢复计划中加入以下灾难恢复演练，以尽量减少停机时间，并制定有效的灾难恢复策略：

测试计划。
培训人员
发现问题并解决问题
验证合规性
记录经验教训

性能测试

展示灾难恢复计划的有效性，向利益相关者保证您的组织能够从中断中恢复并保持业务连续性。出于以下原因，请定期测试DR环境性能：

验证DR基础设施是否能够管理所需的工作量，并在规定的恢复时间目标（RTO）内恢复。它能够快速恢复关键应用和服务，最大限度地减少停机时间及其相关成本。
识别灾难恢复环境中的潜在限制，以便在真正灾难发生前进行必要的调整和优化。在恢复过程中，积极主动的态度可以防止意外问题的发生。
提供实际恢复时间和数据丢失的可观察性。深入的可观察性提高了RPO，并使灾难恢复环境与组织的风险承受能力保持一致。

合规性审计

定期审查您的DR计划，确保符合行业法规和标准。许多行业都有关于灾难恢复计划和员工培训的法规要求。

持续监控并改进灾难恢复计划

根据从事故、测试、已识别风险以及恢复目标和优先级变化中汲取的经验教训，定期更新灾难恢复计划。更新必须反映业务运营、基础设施和技术方面的变化。

监视工具

使用 IBM Cloud 监控工具来跟踪您的灾难恢复环境的健康状况和性能。监控工具为灾难恢复基础设施提供了可观察性，以便快速识别和响应问题。这些工具还有助于识别灾难恢复环境中的潜在障碍或限制，以便在实际灾难发生之前进行调整和优化。