IBM Cloud Docs
災害シナリオ watsonx.data

災害シナリオ watsonx.data

シナリオ 1: Kubernetes コンフィギュレーションの破損

説明フォーメーションの破損や削除、 ConfigMaps, シークレットなど。

  • 一般的な影響

    • SRE はアラートを受信し、 Kubernetes 構成またはフォーメーションをリストアする。
    • 機内クエリに失敗し、一時的な障害が発生。
    • RTOとRPOはSREと検討する。
  • Milvus:

    • 機内でのクエリーとデータ取り込みに失敗。
    • SREはバックアップからフォーメーションを復元する。
    • 一時的な停止。RPOとRTOが更新される。
  • Presto:

    • 機内でのクエリーとインジェストに失敗。
    • バックアップから復元されたフォーメーション。
  • データシート

    • 機内API呼び出しに失敗。
    • フォーメーションが回復するまで停止。
    • Veleroのバックアップはサービスの復旧を確実にしますが、まれにポートの競合が発生した場合、手動でのサービス編集が必要になることがあります。
  • スパーク

    • 破損したコンフィギュレーションに関連するワークロードのみが失敗する。
    • その他の仕事も続いている。
    • ユーザーは失敗したジョブを再実行しなければならない。
  • 顧客の関与 :なし

シナリオ2:永続的なストレージの破損

説明永続ボリュームの破損

  • 一般的な影響

    • PVCを使用するサービスは影響を受ける。
  • Milvus:

    • バックアップから復元されたPVC。
    • ETCDダウンタイムによる一時停止。
    • データ損失はない。
  • Presto データシート、スパーク

    • 影響はない(PVCは使用しない)。
  • 顧客の関与 :なし

シナリオ3:データまたはメタデータの破損

説明保存されたデータまたはメタデータの破損。

  • 一般的な影響

    • 復旧中のサービス停止。
  • Milvus:

    • ETCDメタデータを毎時バックアップからリストア。
    • 最大1時間のメタデータが失われる可能性がある。
    • ベクター・ストレージのバックアップはお客様の責任となります。
  • Presto:

    • コンフィギュレーションとメタデータのリストアに使用されるポイント・イン・タイム・バックアップ。
  • MDS、スパーク

    • 影響はありません。
  • 顧客の関与 :なし

シナリオ4:クラスタ障害

説明クラスタの完全な障害。

  • Milvus:

    • フォーメーションとデータをバックアップから復元。
    • 1時間のメタデータロスの可能性。
    • ベクター・ストレージのバックアップはお客様の責任となります。
  • Presto:

    • フォーメーションとデータをバックアップから復元。
  • データシート

    • 機内API呼び出しに失敗。
    • クラスターまたはフォーメーションが復旧するまで停止。
  • スパーク

    • 実行中のワークロードはすべて失敗する。
    • データ損失はない。
    • SREは新しいクラスタ上でフォーメーションを復元する。
    • ユーザーは失敗したジョブを再実行しなければならない。
  • 顧客の関与 :なし

シナリオ5:可用性ゾーン(AZ)の停止

説明 AZが使用できなくなる。

  • 一般的な影響

    • クラスタにはワークロードをマイグレーションする能力がある。
    • ポッドは健全なAZに自動的に再スケジュールされる。
  • Milvus:

    • メタデータはEnterpriseプランではActive-Activeです。
    • 機内クエリーは失敗、長期的な影響はなし。
  • Presto:

    • ポッドは再スケジュールされ、機内クエリーは失敗した。
  • データシート

    • 片方のAZがダウンしただけなら、影響はない。
    • 2つ以上のAZがダウンした場合、少なくとも1つのAZが復旧するまでサービスに影響が出る。
  • スパーク

    • 失敗したAZのドライバを使用するワークロードは失敗する。
    • エグゼキューターは健康なAZで回復する。
    • 影響を受けていないAZの作業負荷への影響はない。
  • 顧客の関与 :なし

シナリオ6:地域災害

説明地域全体が利用できなくなる。

  • Milvus:

    • 顧客は新しい watsonx.data インスタンス・ユースと Milvus フォーメーションを別の地域に用意する。
    • 同じバケツとパスを使用しなければならない。
    • 顧客は新旧フォーメーションのCRNを共有する。
    • SREはETCDメタデータをリストアする。
  • Presto:

    • 顧客は新しいフォーメーションを用意する。
    • SREはメタデータとコンソールDBをリストアする。
  • データシート

    • 毎時の Postgres バックアップが有効な場合は、新しい DB インスタンスにリストアします。
    • データシートポッドの環境変数を更新して、新しいDBを指すようにします。
    • RPO:1時間、RTO:2~3時間。
    • コンソールDBとAMS DBにも影響。
  • スパーク

    • 実行中のワークロードはすべて失敗する。
    • 顧客は新しい watsonx.data インスタンスと Spark エンジンを準備する。
    • データの損失がない(オブジェクトストアのログやイベント)。
  • 顧客の関与

    • 新しいフォーメーションを用意し、CRNを共有する。

    Milvus は、 Kafka を Active-Active モード(Enterprise プラン)で使用しているため、 Kafka のリカバリにお客様のアクションは必要ありません。