了解 Event Streams 的高可用性和灾难恢复
高可用性The ability of a service or workload to withstand failures and continue providing processing capability according to some predefined service level. For services, availability is defined in the Service Level Agreement. Availability includes both planned and unplanned events, such as maintenance, failures, and disasters. (HA)是指服务在出现意外故障时仍能保持运行和可用。 灾难恢复The ability of a service or workload to recover from rare, major incidents and wide-scale failures, such as service disruption. This includes a physical disaster that affects an entire region, corruption of a database, or the loss of a service contributing to a workload. The impact exceeds the ability of the high availability design to handle it.是指将服务实例恢复到工作状态的过程。
IBM® Event Streams for IBM Cloud® 是一项全球服务,您可以在 服务和基础设施可用性 文档中找到可用区域和数据中心位置。 作为一项全球服务 Event Streams 通过标准和企业计划满足既定的 服务水平目标(SLO )。 SLO并非一种保证 {{site.data.keyword.ibm}} 不会因未达成目标而发放积分。
高可用性架构
高可用性功能
Event Streams 支持以下高可用性功能:
功能 | 描述 | 对价 |
---|---|---|
多区域重新部署 | 分布在三个可用区,用于容错和高可用性 | Event Streams,每个分区数据分布在三个可用区(针对MZR部署),以确保在可用区数据丢失时业务连续性。 |
最小同步副本数 | 在任何时候都必须至少有两个同步副本 | Event Streams 持续监控并确保至少有两个副本在可用性方面保持同步,以确保在代理或区域出现故障时消息不会丢失,从而确保关键数据保持持久性。 |
灾难恢复架构
灾难恢复功能
Event Streams 支持以下灾难恢复功能:
功能 | 描述 | 对价 |
---|---|---|
镜像 | 集群复制镜像 | Event Streams 提供镜像功能,可将Event Streams中的消息持续复制到第二个实例中。 您可以使用 Event Streams 镜像功能,也可以选择管理自己的镜像解决方案。 |
Event Streams 的镜像
镜像功能可将Event Streams实例中的信息持续复制到第二个实例中。 应用程序的恢复能力可以通过镜像得到提高,因此,如果第一个服务实例不可用,应用程序可以重新连接到第二个实例并继续正常运行。
此功能属于完全托管服务的一部分,仅可在Event Streams的服务实例之间使用。
- 镜像功能:
- Event Streams实例之间的镜像主题、消息数据和消费者组偏移,可在不同的 IBM Cloud® 账户中配置。
- 可用性99.99 的SLA,与 Event Streams一致。
- 可通过 IBM Cloud® Monitoring 进行监控。
- 镜像的限制:
- 单向:数据只能在两个服务实例之间单向镜像。 这意味着镜像提供的是“主动-被动”的高可用性,而不是“主动-主动”的可用性。
- 异步:消息必须成功发送到源实例,然后才能镜像到目标实例。 这意味着当发生故障时,某些消息数据可能会丢失。
- 至少一次消息消费:当消费者在不同实例之间切换时,可能需要重新处理已经处理过的消息。
规划灾难恢复
灾难恢复步骤必须定期演练。 在制定计划时,请考虑以下失败情形和解决方案。
失败 | 解决方法 |
---|---|
硬件故障(单点) | Event Streams 能够抵御一个区域内的单点硬件故障,无需任何配置。 |
区域故障 | 部署在多区域Event Streams能够抵御单个区域故障的影响,无需任何配置。 对于单区域部署,请设置另一个 Event Streams 集群作为镜像对,以应对区域故障。 |
数据损坏 | Event Streams 不包含任何内置机制,无法从数据损坏中恢复。 您需要在灾难恢复计划中为这种情况做好准备,并可能需要使用镜像功能或配置新的实例。 |
区域故障 | 如果您在多区域区域配置了您的 Event Streams 实例,那么发生区域性灾难的可能性就不大。 如果确实发生区域故障,您需要在其他区域配置新的实例。 更多信息,请参阅 了解您的责任。 |
您在HA和DR方面的职责
以下信息可以帮助您制定并持续实施您的HA和DR计划。
在使用 Event Streams 时,了解管理责任和条款非常重要。 客户责任 页面有助于制定高可用性和灾难恢复计划。
作为灾难恢复的一部分,建议您为用户和流程授予其工作所需的最低权限。 更多信息,请参阅 如何防止意外删除服务?
所有 Event Streams 计划(不包括Satellite )都可以在三天内恢复已删除的实例,超过三天,数据将不可逆转地被销毁。 您可以使用 IBM Cloud 检查回收的状态,并强制或取消预定的回收。
如果 Event Streams 无法恢复服务实例,您必须按照 灾难恢复场景中的镜像操作 进行恢复。
IBM 如何维护服务
所有升级均遵循 IBM 服务最佳实践,并具有恢复计划和回滚流程。 作为日常运营的一部分,我们会定期升级新功能并进行维护。 此类维护偶尔会导致短暂的中断,但 客户可用性重试逻辑 可以处理这种情况。 变更将按顺序逐个区域、逐个分区进行。 一旦发现缺陷,就会立即撤回更新。
通过功能标志启用和禁用复杂更改,以控制曝光。
通知中详细说明了影响客户工作量的变更。 如需了解更多信息,请查看计划维护 的监控通知和状态、公告以及影响Event Streams 的发布说明。