Event Streams の高可用性と災害復旧について

高可用性サービスまたは作業負荷が障害に耐え、事前に定義されたサービスレベルに従って処理能力を提供し続ける能力。サービスについては、可用性はサービスレベル契約で定義されています。可用性には、計画されたイベントと計画外のイベントの両方が含まれます。計画外のイベントには、メンテナンス、故障、災害などが含まれます。（HA）とは、予期せぬ障害が発生した場合でも、サービスが稼働し続け、アクセス可能であることを意味します。災害復旧サービスの中断などの稀な重大なインシデントや広範囲にわたる障害から、サービスや作業負荷が回復する能力。これには、地域全体に影響を及ぼす物理的な災害、データベースの破損、作業負荷に寄与するサービスの損失などが含まれます。その影響は、高可用性設計が処理できる能力を超えています。とは、サービスインスタンスを稼働可能な状態に復旧するプロセスです。

IBM® Event Streams for IBM Cloud® はグローバルなサービスであり、利用可能な地域およびデータセンターの場所については、サービスおよびインフラストラクチャの可用性に関するドキュメントで確認できます。グローバルサービスとして Event Streamsは、スタンダードプランおよびエンタープライズプランで定義されたサービスレベル目標（SLO）を達成しています。 SLOは保証ではなく、 IBM®、目標を達成できなかったからといって単位を発行することはない。

高可用性アーキテクチャ

高可用性機能

Event Streamsは、以下の高可用性機能に対応しています

Event Streams のHA機能
特長	説明	考慮事項
マルチゾーン地域再展開	3つの可用性ゾーンに分散し、耐障害性と高可用性を実現	Event Streamsでは、各パーティションのデータは3つのアベイラビリティゾーン（MZR展開の場合）に分散されており、アベイラビリティゾーンのデータが失われた場合でも業務の継続性を確保しています。
最小同期レプリカ数	常に2つ以上の同期レプリカが必要です	Event Streamsは、ブローカーやゾーンに障害が発生した場合でもメッセージが失われないよう、可用性を確保しながら少なくとも2つのレプリカが同期されるよう継続的に監視し、確保しています。これにより、重要なデータの耐久性が維持されます。

災害復旧アーキテクチャ

災害復旧機能

Event Streamsは、以下の災害復旧機能に対応しています

Event Streams のDR機能
特長	説明	考慮事項
ミラーリング	クラスタレプリケーションのためのミラーリング	Event Streamsは、 Event Streams内のメッセージを、2番目のインスタンスに継続的にコピーするミラーリング機能を提供しています。 Event Streams のミラーリング機能を使用するか、独自のミラーリングソリューションを管理するかを選択できます。

Event Streams のミラーリング

ミラーリング機能により Event Streamsのメッセージを、2番目のインスタンスに継続的にコピーすることができます。ミラーリングを使用することでアプリケーションの回復力を向上させることができるため、最初のサービスインスタンスが利用できなくなった場合でも、アプリケーションは2番目のインスタンスに再接続し、通常通りの動作を継続することができます。

この機能は完全に管理されたサービスの一部であり Event Streamsを使用しているサービスインスタンス間でのみ使用できます。

ミラーリングの特徴：

IBM Cloud®でプロビジョニング可能な Event Streamsンス間で、トピック、メッセージデータ、消費者グループのオフセットをミラーリングします。
99.99の可用性を保証するSLAは Event Streamsと一致しています。
IBM Cloud® Monitoring を使用して監視できます。

ミラーリングの限界：

一方向：データは、サービスインスタンスのペア間で、一度に一方向にのみミラーリングされます。つまり、ミラーリングは「アクティブ-アクティブ」ではなく、「アクティブ-パッシブ」の可用性を提供します。
非同期：メッセージは、ターゲットインスタンスにミラーリングされる前に、ソースインスタンスに正常に生成されなければなりません。これは、障害が発生した場合、一部のメッセージデータが失われる可能性があることを意味します。
少なくとも1回はメッセージを消費する：コンシューマーがインスタンス間を移動する場合、すでに処理済みのメッセージを再処理する必要が生じる場合があります。

災害復旧の計画

災害復旧手順は定期的に訓練する必要があります。計画を立てる際には、以下の失敗シナリオと解決策を考慮してください。

Event Streamsの災害復旧シナリオ
失敗	解決方法
ハードウェアの故障（単一箇所）	Event Streamsはゾーン内のハードウェアの単一障害点に対して耐性があります。設定は不要です。
ゾーン障害	マルチゾーンのリージョンにデプロイされた Event Streamsは、単一ゾーンの障害に対して耐性があります。設定は不要です。単一ゾーンの展開の場合は、ゾーンの障害を軽減するために、ミラーリングされたペアとして別の Event Streamsをセットアップします。
データ破損	Event Streamsには、データ破損からの復旧を可能にする組み込みのメカニズムは含まれていません。このような状況を災害復旧計画の一部として計画する必要があります。また、ミラーリング機能を使用したり、新しいインスタンスを構成したりする必要があるかもしれません。
地域的な障害	Event Streams インスタンスをマルチゾーン・リージョンで構成した場合、地域的な災害は起こりにくい。地域的な障害が発生した場合は、別の地域で新しいインスタンスを構成する必要があります。詳しくは、「自分の責任を理解する」をご覧ください。

HAとDRに対するお客様の責任

以下の情報は、HAおよびDRの計画を作成し、継続的に実践するのに役立ちます。

Event Streams を利用する際には、管理責任と利用規約を理解することが重要です。顧客責任ページは、高可用性と災害復旧のための計画を立てる際の出発点として役立ちます。

災害復旧の一環として、ユーザーおよびプロセスに、その作業に必要な最小限の特権を持つIAMロールとアクションを付与することをお勧めします。詳細は、「サービスの誤削除を防ぐにはどうすればよいですか？」を参照してください。

すべての Event Streams Satellite を除く）では、削除されたインスタンスを3日間の回復期間内に復元できます。それ以降は、データは不可逆的に破壊されます。 IBM Cloud を使用すると、再取得のステータスを確認したり、スケジュールされた再取得を強制またはキャンセルしたりすることができます。

Event Streamsがサービスインスタンスを復元できない場合は、災害復旧シナリオにおけるミラーリングの説明に従って復元する必要があります。

IBMがサービスを維持する方法

すべてのアップグレードは IBM サービスのベストプラクティスに従っており、リカバリープランとロールバックプロセスが導入されています。通常業務の一環として、新機能やメンテナンスのための定期的なアップグレードが行われます。このようなメンテナンスにより、時折、短時間のサービス中断が発生することがありますが、これはクライアントの可用性再試行ロジックによって処理されます。変更は、地域ごとに、地域内のゾーンごとに順次展開されます。更新は、不具合の兆候が見られた時点で取り消されます。

複雑な変更は、機能フラグで有効化および無効化され、公開を制御します。

顧客の作業負荷に影響を与える変更は通知に詳細が記載されています。詳細は、 Event Streamsに影響を与える計画されたメンテナンス、アナウンス、リリースノートに関する監視通知とステータスを参照してください。