了解 IBM Cloud® Object Storage 的高可用性和灾难恢复
高可用性服务或工作负载根据预先定义的服务级别承受故障并继续提供处理能力的能力。 对于服务,可用性在服务水平协议中进行了定义。 可用性包括计划内和计划外事件,例如维护、故障和灾难。 (HA)是指服务在出现意外故障时仍能保持运行和访问的能力。
灾难恢复服务或工作负载从罕见重大事故和大规模故障(如服务中断)中恢复的能力。 这包括影响整个地区的自然灾害、数据库损坏或导致工作负荷增加的服务中断。 这种影响超出了高可用性设计所能承受的范围。是将服务实例恢复到工作状态的过程。
IBM Cloud Object Storage 是一项全局服务,可让您配置存储数据弹性,同时保持高可用性。 更多信息,请参阅 服务级别协议(SLA)。 您还可以在 服务和基础设施可用性本地 文档中找到可用区域和数据中心位置。
高可用性架构
Object Storage 是一项全局服务,您可以选择配置存储弹性。 存储桶的弹性由用于创建存储桶的端点定义,即跨区域、区域和单一站点。
-
跨区域弹性可将您的数据分散到多个城市地区
-
区域恢复能力将使数据遍布整个大都市区
-
单个数据中心的弹性可将数据分散到单个数据中心内的多个设备上
区域和跨区域存储桶可在站点或区域中断期间保持可用性,无需更改任何配置,因此建议在配置工作负载以实现高可用性时使用这些存储桶弹性设置。 存储在单个站点的数据仍然分布在许多物理存储设备上,但都包含在单个数据中心内,没有任何分区支持。
高可用性功能
Object Storage 提供以下功能,帮助您在发生故障时计划高可用性:
功能 | 描述 | 对价 |
---|---|---|
存储桶弹性 | 能够为客户数据配置特定的弹性选择。 | Object Storage 在区域端点创建的存储桶会将数据分布到都会区中包含的三个或更多区域。 这些区域中的任何一个都可能发生故障,甚至遭到破坏,而不会影响可用性。 在跨区域端点创建的桶可将数据分布到一个地理位置的三个区域。 其中任一区域遇到中断甚至破坏,都不会影响可用性。 通过使用全球服务器负载平衡(GSLB),将请求路由到最近的跨区域都会区。 有关详细信息,请参阅 端点和存储位置。 |
复制 | 复制功能可将新创建的对象和对象更新从源数据桶复制到目标数据桶,并可定义自动异步复制对象的规则。 | 为确保在发生灾难时有备份副本可用,建议配置和设置复制。 了解有关 跟踪复制事件的 更多信息。 |
灾后恢复架构
跨地区、区域和单个站点桶可对特定灾难情况提供不同程度的容忍度。 根据企业的灾难恢复要求,为您的数据桶选择合适的弹性模式。 对于数据中心或地区级的许多灾难场景,IBM 计划将服务和相关内容的恢复时间目标设定在 24 小时以内,RPO 为 1 小时。
客户还可以采用其他可选架构来缩短恢复时间。
例如,在 COS 区域完全中断而无法恢复原始数据的情况下,可以在另一个区域创建一个复制的存储桶。 等待 IBM Cloud恢复受影响的区域或服务也是一种有效的方法,但请记住,这可能需要数小时或更长时间,而且根据灾难情况可能会造成数据丢失。
可以将复制的数据桶配置为生产数据桶的镜像,但要更新区域服务的引用。 例如,如果使用Key Protect,马德里的复制桶应引用存储在马德里密钥Key Protect实例中的根密钥。 如果发生灾难,无法等待 IBM 完全恢复该区域,客户可以使用源数据桶中原始数据的备份副本重新填充这个复制的数据桶。 此外,客户还可以在任何中断之前设置复制规则,以保持源数据桶和复制数据桶之间的数据同步。 为实现最高级别的恢复能力,应在事实发生之前(任何潜在灾难发生之前)创建这样一个复制桶,并与使用复制的源桶保持同步。 使用对象复制功能时,应同时考虑源桶的弹性模型和整体业务灾难恢复目标。
为恢复到恢复区域制定计划。 复制的存储桶应与 IBM Cloud的工作负载 灾难恢复方法 保持一致。 如果灾难不影响生产源数据桶的配置或可用性(例如只是数据丢失),客户就有可能就地修复源数据桶中的数据。 如果需要故障切换到复制的存储桶,则需要重新配置客户端应用程序,以调用目标复制存储桶的端点。
灾难恢复功能
IBM COS 提供以下可由客户配置的灾难恢复功能:
功能 | 描述 | 对价 |
---|---|---|
对象复制 | 复制功能可将新创建的对象和对象更新从源数据桶复制到目标数据桶,并可定义自动异步复制对象的规则。 | 为确保在发生灾难时有第二个副本可用,可以在生产数据桶和目标恢复数据桶之间配置复制。 根据企业的弹性要求,如果使用跨地区或区域存储桶,可能不需要复制。 了解有关 跟踪复制事件的 更多信息。 |
对象版本控制 | 启用对象版本管理,以便在数据损坏或删除的情况下,保留可恢复的对象先前版本。 | 客户可以在数据包上启用对象版本控制,并在数据损坏时恢复旧版本。 必须有可用的数据桶才能执行版本恢复。 了解更多 |
对象锁定 | 对象锁定可防止在指定保留期内删除对象版本。 | 启用对象锁,防止意外或未经授权的对象删除或覆盖。 确保安全对象版本可用于恢复。 了解更多 |
其他灾难恢复选项由客户创建和支持。
功能 | 描述 | 对价 |
---|---|---|
备份和复原 | 使用脚本或3rd-party备份应用程序将源数据桶中的数据备份到恢复区域。 | 客户必须托管和管理任何脚本或3rd-party备份解决方案,以备份存储在 COS 存储桶中的数据。 |
灾难恢复规划
必须定期练习灾难恢复步骤。 在制定计划时,请考虑以下失败情况和解决办法。
失败 | 解决方法 |
---|---|
硬件故障(单点) | Object Storage 存储桶可抵御区域内的单点硬件故障。 无需配置。 |
数据中心故障 | 跨区域和区域 COS 数据集可抵御单个数据中心故障。 客户无需进行配置或故障切换。 在单个数据中心区域内拥有存储桶的客户可以配置复制或使用3rd备份解决方案,以确保在区域外提供安全的数据副本。 等待 IBM Cloud恢复受影响的区域或服务也是一种有效的方法,但请记住,这可能需要数小时或更长时间,具体取决于数据中心故障的性质。 |
数据损坏 | 使用对象版本管理、对象复制或3rd备份解决方案,确保在数据损坏或意外删除的情况下,对象的未损坏版本可以恢复。 |
地区性失败 | 跨地区的 COS 桶可抵御地区性故障。 某些集成的区域服务(如 Key Protect )可能需要额外的故障转移步骤来处理跨区域数据桶。 在区域或单一数据中心 COS 存储桶中有存储桶的客户,在发生区域性全面故障时,应遵循上述灾难恢复步骤。 等待 IBM Cloud恢复受影响的区域或服务也是一条有效途径,但请记住,这可能需要数小时或更长时间,具体取决于区域故障的性质。 |
使用 IBM Cloud密钥管理服务添加信封加密:
如果您使用任何其他 IBM Cloud服务集成(例如 Key Protect 或 Hyper Protect 等 IBM Cloud密钥管理服务)来添加信封加密,则需要确保使用适当的密钥复制配置计划。 在使用跨区域配置时,这一点至关重要,因为该配置可确保在发生故障时有一个复制密钥可用。 有关 高可用性和灾难恢复,请参阅 Key Protect 文档。
您对 HA 和 DR 的责任
职责 | 描述 |
---|---|
弹性 | 使用适当的弹性选项、存储类别、数据位置性以及特定工作负载和用例所需的可选配置来配置Object Storage桶。 |
数据备份 | 如果需要,确保根据贵组织的要求备份客户数据。 |
网络 | 监控和管理IBM IBM 网络资源,确保适当访问 IBM Cloud服务端点,包括容量和可用性。 |
使用 IBM Cloud KMS 添加信封加密 | 如果您使用 IBM Cloud Key Protect 或 Hyper Protect Crypto Services 添加信封加密,请确保查看相应的高可用性和灾难恢复文档,以充分了解其影响。 您可能需要使用具有密钥副本的密钥实例位置,该密钥副本可在发生故障切换时使用。 还请确保查看相应的许可和计划信息。 |
要进一步了解客户与 Object Storage 之间的责任归属,请参阅[使用 Object Storage 时您的责任(/docs/cloud-object-storage?topic=cloud-object-storage-responsibilities)]。
恢复时间目标(RTO)和恢复点目标(RPO)
IBM Cloud Object Storage产品已制定计划,在发生相应灾难时,可在数小时内恢复云服务和相关内容。
功能 | RTO 和 RPO |
---|---|
从硬件故障中恢复(单点) | 所有弹性模型的 RTO = 0,RPO = 0 |
从数据中心故障中恢复 | 跨地区和地区恢复能力模型的 RTO = 0,RPO = 0 |
恢复以前的对象版本 | RTO = 秒,RPO = 接近 0 |
恢复到具有主动复制功能的独立区域中的存储桶 | RTO = 分钟,脚本可能会进一步缩短时间,同时还要考虑调整工作负载以实现恢复桶目标的时间, RPO = 接近 1 小时 |
恢复到新区域中的新存储桶,无需主动复制 | RTO = 分钟到数天,考虑重新配置新的数据桶和调整工作负载以新的数据桶端点为目标所需的时间。 还要考虑用原始数据副本填充数据桶的时间。 RPO 取决于客户的备份和恢复计划 |
变更管理
变更管理包括升级、配置变更和删除等任务。 为确保根据角色要求授予用户访问权限,请查看 IAM 入门。
建议授予用户和流程的 IAM 角色和操作的权限最小,以满足其工作需要。 请参阅 如何防止意外删除服务?
IBM® 如何帮助确保灾难恢复
IBM® 会在发生灾难时采取特定的恢复行动。
- 从区域或地区故障中恢复
如果发生区域故障,IBM Cloud将解决区域中断问题,当区域重新上线时,全局负载平衡器将恢复向恢复的实例节点发送 API 请求,无需客户操作。 - IBM® 每年都会对各种灾难场景进行测试,并根据测试结果不断完善我们的恢复文档。
- IBM® 为客户提供 24 × 7 全球支持。主题专家随时待命,在灾难发生时提供帮助。
所有 IBM® 的主题专家每年都会接受业务连续性和灾难恢复政策与程序方面的培训,以确保在发生灾难时做好准备。
IBM 如何维护服务
所有升级均遵循 IBM 服务最佳实践,并制定了恢复计划和回滚流程。 新功能的定期升级和维护是正常运行的一部分。 这种维护偶尔会造成短暂的中断,客户端可用性重试逻辑 会处理这些中断。 更改是按区域和区域内各区域的顺序推出的。 一旦出现缺陷,更新就会被退回。
通过功能标志启用和禁用复杂的更改,以控制曝光率。
影响客户工作负载的变更将在通知中详细说明。 有关详细信息,请参阅计划维护的 监控通知和状态、公告以及影响此服务的发布说明。