高可用性と災害復旧
IBM® watsonx.data サービス・インスタンスは、 IBM Cloud マルチゾーン・リージョン (MZR) および AWS MZR にデプロイされます。 watsonx.data コンポーネントの可用性は、Active-Active および Active-Only です。
アクティブ/アクティブ
マルチテナント・コンポーネントは複数のお客様をサポートし、可用性を確保するために可用性ゾーン (AZ) 全体で複数のレプリカを使用して構成されます。 このカテゴリーは、ほとんどの watsonx.data コンポーネントで構成されています。 エンタープライズプランのデータシートはアクティブアクティブです。
アクティブのみ
このカテゴリーのシングル・テナント・コンポーネントは、単一のお客様専用です。 このカテゴリーは、 Presto エンジンとメタストアで構成されます。 これらのコンポーネントは、障害発生時に新しいゾーンで再始動します。 ライトプランではデータシートはアクティブ・オンリー。
マルチゾーン・リージョン(MZR)では、 Prestoとデータシートは異なるゾーンに分散される。
単一のアベイラビリティー・ゾーンが MZR で失敗した場合、またはいずれかのリージョンでハードウェア障害が発生した場合、ワークロードは自動的に失敗し、そのリージョン内の他のゾーンで再始動します。 すべての watsonx.data インスタンスには、デフォルトの Cross-Regional Metadata バケットとオプションの Trial バケット (10 GB) が付属しています。 どちらのバケットも、IBM Cloud® Object Storage Versioningで有効になっています。 データは、別の IBM Cloud Object Storage アカウントへのレプリケーションを有効にすることでバックアップされます。 しかし、顧客がwatsonx.data インスタンスに持ち込む外部バケットについては、それらのバックアップは顧客の責任となります。
地域の災害では、実行する必要があるすべての手順が記載された E メールが届きます。 watsonx.dataの責任を参照してください。 シングル・テナント・コンポーネントは、「アクティブのみ」モデルで動作し、障害が発生した場合に同じサービスを提供する新規ノードで即時に再始動できるようにします。
シングル・テナント・コンポーネントは、信頼性を高めるために戦略的に 3 つの AZ に分散されます。 AZ に障害が発生すると、使用可能な AZ 上で必要なサービスを開始するための十分な容量が確保されます。 これにより、AZ の停止による影響を最小限に抑えることができます。
責任
タスク | IBMの責任 | ユーザーの責任 |
---|---|---|
バックアップ | watsonx.data は、すべての watsonx.data 提供リソースの自動日次バックアップを担当します。 | お客様は、以下について責任を負います。 1) IBM watsonx.data の新規インスタンスを作成して、バックアップをリストアし、適切にリストアされた IBM バックアップを検証します。 2) watsonx.dataに持ち込んだ外部コンポーネントのバックアップをリストアします。 |
リストア | watsonx.data は、提供されたリソースのバックアップのリストアを処理します。 | お客様は、以下について責任を負います。 1) watsonx.data の新規インスタンスを作成して、バックアップをリストアし、適切にリストアされた IBM バックアップを検証します。 2) watsonx.dataに持ち込んだ外部コンポーネントのバックアップをリストアします。 |
アプリケーション・レベルの高可用性
ネットワークとクラウド・サービスを介して通信するアプリケーションは、一時的な接続障害の影響を受けます。 デプロイメントまたは IBM Cloudへの接続が一時的に失われてエラーが発生した場合に接続を再試行するようにアプリケーションを設計します。 watsonx.dataはマネージドサービスであるため、通常の運用の一環として定期的な更新とメンテナンスが行われます。 このような保守により、一時的なサービスの中断が発生することがあります。
サービスの一時的な中断を処理し、失敗したコマンドのエラー処理を実装し、一時的な中断から復旧するための再試行ロジックを実装するようにアプリケーションを設計する必要があります。
以下に、一時サービスの中断中に予期される可能性のあるエラー・コードをいくつか示します。
Presto コーディネーター・ノードが再始動した場合、保守のため、またはシステム障害のために、アプリケーションは Presto エンジンとの接続を再確立する必要があります。
数分間の使用不能や接続の中断は想定されていない。 接続できない時間が1分以上ある場合は、サポートチケットに詳細を記入してください。
災害復旧戦略
IBM® watsonx.dataは、データを保護し、サービス機能を復元するメカニズムを提供します。 サービスの目標リカバリー・ポイント目標(RPO)および目標リカバリー時間(RTO)を達成するための事業継続性計画が用意されています。 次の表は watsonx.dataのターゲットの概要です。
災害復旧目標 | ターゲット値 |
---|---|
RPO | < = 24 時間 |
RTO | < 24 時間 |
SaaS 型サービス Milvusのバックアップ間隔を短縮し、リストアRPOを24時間から2時間に改善。
ロケーション
AWS リージョン
- オレゴン (us-west-2)
- N。 バージニア (us-east-1)
- フランクフルト (eu-central-1)
- 東京 (jp-tok)
IBM 地域
- ダラス (米国南部)
- ワシントン (us-east)
- フランクフルト (eu-de)
- ロンドン (eu-gb)
- 東京 (jp-tok)
- シドニー (au-syd)