災害シナリオ watsonx.data
シナリオ 1: Kubernetes コンフィギュレーションの破損
説明フォーメーションの破損や削除、 ConfigMaps, シークレットなど。
-
一般的な影響
- SRE はアラートを受信し、 Kubernetes 構成またはフォーメーションをリストアする。
- 機内クエリに失敗し、一時的な障害が発生。
- RTOとRPOはSREと検討する。
-
Milvus:
- 機内でのクエリーとデータ取り込みに失敗。
- SREはバックアップからフォーメーションを復元する。
- 一時的な停止。RPOとRTOが更新される。
-
Presto:
- 機内でのクエリーとインジェストに失敗。
- バックアップから復元されたフォーメーション。
-
データシート
- 機内API呼び出しに失敗。
- フォーメーションが回復するまで停止。
- Veleroのバックアップはサービスの復旧を確実にしますが、まれにポートの競合が発生した場合、手動でのサービス編集が必要になることがあります。
-
スパーク
- 破損したコンフィギュレーションに関連するワークロードのみが失敗する。
- その他の仕事も続いている。
- ユーザーは失敗したジョブを再実行しなければならない。
-
顧客の関与 :なし
シナリオ2:永続的なストレージの破損
説明永続ボリュームの破損
-
一般的な影響
- PVCを使用するサービスは影響を受ける。
-
Milvus:
- バックアップから復元されたPVC。
- ETCDダウンタイムによる一時停止。
- データ損失はない。
-
Presto データシート、スパーク
- 影響はない(PVCは使用しない)。
-
顧客の関与 :なし
シナリオ3:データまたはメタデータの破損
説明保存されたデータまたはメタデータの破損。
-
一般的な影響
- 復旧中のサービス停止。
-
Milvus:
- ETCDメタデータを毎時バックアップからリストア。
- 最大1時間のメタデータが失われる可能性がある。
- ベクター・ストレージのバックアップはお客様の責任となります。
-
Presto:
- コンフィギュレーションとメタデータのリストアに使用されるポイント・イン・タイム・バックアップ。
-
MDS、スパーク
- 影響はありません。
-
顧客の関与 :なし
シナリオ4:クラスタ障害
説明クラスタの完全な障害。
-
Milvus:
- フォーメーションとデータをバックアップから復元。
- 1時間のメタデータロスの可能性。
- ベクター・ストレージのバックアップはお客様の責任となります。
-
Presto:
- フォーメーションとデータをバックアップから復元。
-
データシート
- 機内API呼び出しに失敗。
- クラスターまたはフォーメーションが復旧するまで停止。
-
スパーク
- 実行中のワークロードはすべて失敗する。
- データ損失はない。
- SREは新しいクラスタ上でフォーメーションを復元する。
- ユーザーは失敗したジョブを再実行しなければならない。
-
顧客の関与 :なし
シナリオ5:可用性ゾーン(AZ)の停止
説明 AZが使用できなくなる。
-
一般的な影響
- クラスタにはワークロードをマイグレーションする能力がある。
- ポッドは健全なAZに自動的に再スケジュールされる。
-
Milvus:
- メタデータはEnterpriseプランではActive-Activeです。
- 機内クエリーは失敗、長期的な影響はなし。
-
Presto:
- ポッドは再スケジュールされ、機内クエリーは失敗した。
-
データシート
- 片方のAZがダウンしただけなら、影響はない。
- 2つ以上のAZがダウンした場合、少なくとも1つのAZが復旧するまでサービスに影響が出る。
-
スパーク
- 失敗したAZのドライバを使用するワークロードは失敗する。
- エグゼキューターは健康なAZで回復する。
- 影響を受けていないAZの作業負荷への影響はない。
-
顧客の関与 :なし
シナリオ6:地域災害
説明地域全体が利用できなくなる。
-
Milvus:
- 顧客は新しい watsonx.data インスタンス・ユースと Milvus フォーメーションを別の地域に用意する。
- 同じバケツとパスを使用しなければならない。
- 顧客は新旧フォーメーションのCRNを共有する。
- SREはETCDメタデータをリストアする。
-
Presto:
- 顧客は新しいフォーメーションを用意する。
- SREはメタデータとコンソールDBをリストアする。
-
データシート
- 毎時の Postgres バックアップが有効な場合は、新しい DB インスタンスにリストアします。
- データシートポッドの環境変数を更新して、新しいDBを指すようにします。
- RPO:1時間、RTO:2~3時間。
- コンソールDBとAMS DBにも影響。
-
スパーク
- 実行中のワークロードはすべて失敗する。
- 顧客は新しい watsonx.data インスタンスと Spark エンジンを準備する。
- データの損失がない(オブジェクトストアのログやイベント)。
-
顧客の関与 :
- 新しいフォーメーションを用意し、CRNを共有する。
Milvus は、 Kafka を Active-Active モード(Enterprise プラン)で使用しているため、 Kafka のリカバリにお客様のアクションは必要ありません。