Event Streams の高可用性と災害復旧について
高可用性The ability of a service or workload to withstand failures and continue providing processing capability according to some predefined service level. For services, availability is defined in the Service Level Agreement. Availability includes both planned and unplanned events, such as maintenance, failures, and disasters. (HA)とは、予期せぬ障害が発生した場合でも、サービスが稼働し続け、アクセス可能であることを意味します。 災害復旧The ability of a service or workload to recover from rare, major incidents and wide-scale failures, such as service disruption. This includes a physical disaster that affects an entire region, corruption of a database, or the loss of a service contributing to a workload. The impact exceeds the ability of the high availability design to handle it.とは、サービスインスタンスを稼働可能な状態に復旧するプロセスです。
IBM® Event Streams for IBM Cloud® はグローバルなサービスであり、利用可能な地域およびデータセンターの場所については、 サービスおよびインフラストラクチャの可用性 に関するドキュメントで確認できます。 グローバルサービスとして Event Streamsは、スタンダードプランおよびエンタープライズプランで定義された サービスレベル目標(SLO) を達成しています。 SLOは保証ではなく、 {{site.data.keyword.ibm}} は目標未達成に対してクレジットを発行しません。
高可用性アーキテクチャ
高可用性機能
Event Streamsは、以下の高可用性機能に対応しています
機能 | 説明 | 考慮事項 |
---|---|---|
マルチゾーン地域再展開 | 3つの可用性ゾーンに分散し、耐障害性と高可用性を実現 | Event Streamsでは、各パーティションのデータは3つのアベイラビリティゾーン(MZR展開の場合)に分散されており、アベイラビリティゾーンのデータが失われた場合でも業務の継続性を確保しています。 |
最小同期レプリカ数 | 常に2つ以上の同期レプリカが必要です | Event Streamsは、ブローカーやゾーンに障害が発生した場合でもメッセージが失われないよう、可用性を確保しながら少なくとも2つのレプリカが同期されるよう継続的に監視し、確保しています。これにより、重要なデータの耐久性が維持されます。 |
災害復旧アーキテクチャ
災害復旧機能
Event Streamsは、以下の災害復旧機能に対応しています
機能 | 説明 | 考慮事項 |
---|---|---|
ミラーリング | クラスタレプリケーションのためのミラーリング | Event Streamsは、 Event Streams内のメッセージを、2番目のインスタンスに継続的にコピーするミラーリング機能を提供しています。 Event Streams のミラーリング機能 を使用するか、独自のミラーリングソリューションを管理するかを選択できます。 |
Event Streams のミラーリング
ミラーリング機能により Event Streamsのメッセージを、2番目のインスタンスに継続的にコピーすることができます。 ミラーリングを使用することでアプリケーションの回復力を向上させることができるため、最初のサービスインスタンスが利用できなくなった場合でも、アプリケーションは2番目のインスタンスに再接続し、通常通りの動作を継続することができます。
この機能は完全に管理されたサービスの一部であり Event Streamsを使用しているサービスインスタンス間でのみ使用できます。
- ミラーリングの特徴:
- IBM Cloud®でプロビジョニング可能な Event Streamsンス間で、トピック、メッセージデータ、消費者グループのオフセットをミラーリングします。
- 99.99の可用性を保証するSLAは Event Streamsと一致しています。
- IBM Cloud® Monitoring を使用して監視できます。
- ミラーリングの限界:
- 一方向:データは、サービスインスタンスのペア間で、一度に一方向にのみミラーリングされます。 つまり、ミラーリングは「アクティブ-アクティブ」ではなく、「アクティブ-パッシブ」の可用性を提供します。
- 非同期:メッセージは、ターゲットインスタンスにミラーリングされる前に、ソースインスタンスに正常に生成されなければなりません。 これは、障害が発生した場合、一部のメッセージデータが失われる可能性があることを意味します。
- 少なくとも1回はメッセージを消費する:コンシューマーがインスタンス間を移動する場合、すでに処理済みのメッセージを再処理する必要が生じる場合があります。
災害復旧の計画
災害復旧手順は定期的に訓練する必要があります。 計画を立てる際には、以下の失敗シナリオと解決策を考慮してください。
失敗 | 解決方法 |
---|---|
ハードウェアの故障(単一箇所) | Event Streamsはゾーン内のハードウェアの単一障害点に対して耐性があります。設定は不要です。 |
ゾーン障害 | マルチゾーンのリージョンにデプロイされた Event Streamsは、単一ゾーンの障害に対して耐性があります。設定は不要です。 単一ゾーンの展開の場合は、ゾーンの障害を軽減するために、ミラーリングされたペアとして別の Event Streamsをセットアップします。 |
データ破損 | Event Streamsには、データ破損からの復旧を可能にする組み込みのメカニズムは含まれていません。 このような状況を災害復旧計画の一部として計画する必要があります。また、ミラーリング機能を使用したり、新しいインスタンスを構成したりする必要があるかもしれません。 |
地域的な障害 | Event Streams インスタンスをマルチゾーンの地域で構成した場合、その地域で災害が発生する可能性は低いでしょう。 地域的な障害が発生した場合は、別の地域で新しいインスタンスを構成する必要があります。 詳細は 、「あなたの責任を理解する」 をご覧ください。 |
HAとDRに対するお客様の責任
以下の情報は、HAおよびDRの計画を作成し、継続的に実践するのに役立ちます。
Event Streams を利用する際には、管理責任と利用規約を理解することが重要です。 顧客責任ページ は、高可用性と災害復旧のための計画を立てる際の出発点として役立ちます。
災害復旧の一環として、ユーザーおよびプロセスに、その作業に必要な最小限の特権を持つIAMロールとアクションを付与することをお勧めします。 詳細は 、「サービスの誤削除を防ぐにはどうすればよいですか?」 を参照してください。
すべての Event Streams Satellite を除く)では、削除されたインスタンスを3日間の回復期間内に復元できます。それ以降は、データは不可逆的に破壊されます。 IBM Cloud を使用すると、再取得のステータスを確認したり、スケジュールされた再取得を強制またはキャンセルしたりすることができます。
Event Streamsがサービスインスタンスを復元できない場合は、 災害復旧シナリオにおけるミラーリング の説明に従って復元する必要があります。
IBMがサービスを維持する方法
すべてのアップグレードは IBM サービスのベスト プラクティスに従っており、リカバリー プランとロールバック プロセスが導入されています。 通常業務の一環として、新機能やメンテナンスのための定期的なアップグレードが行われます。 このようなメンテナンスにより、時折、短時間のサービス中断が発生することがありますが、これは クライアントの可用性再試行ロジック によって処理されます。 変更は、地域ごとに、地域内のゾーンごとに順次展開されます。 更新は、不具合の兆候が見られた時点で取り消されます。
複雑な変更は、機能フラグで有効化および無効化され、公開を制御します。
顧客の作業負荷に影響を与える変更は通知に詳細が記載されています。 詳細は、 Event Streamsに影響を与える計画されたメンテナンス、アナウンス、 リリースノート に関する 監視通知とステータス を参照してください。