IBM Cloud® Object Storage の高可用性と災害復旧について

高い可用性サービスまたは作業負荷が障害に耐え、事前に定義されたサービスレベルに従って処理能力を提供し続ける能力。サービスについては、可用性はサービスレベル契約で定義されています。可用性には、計画されたイベントと計画外のイベントの両方が含まれます。計画外のイベントには、メンテナンス、故障、災害などが含まれます。 (HA）とは、予期せぬ障害が発生しても、サービスが稼動し、アクセスし続ける能力のことである。
ディザスタリカバリサービスの中断などの稀な重大なインシデントや広範囲にわたる障害から、サービスや作業負荷が回復する能力。これには、地域全体に影響を及ぼす物理的な災害、データベースの破損、作業負荷に寄与するサービスの損失などが含まれます。その影響は、高可用性設計の処理能力を超えている。とは、サービスインスタンスを稼動状態に回復させるプロセスである。

IBM Cloud Object Storageは、高可用性を維持しながらストレージデータの回復力を設定できるグローバルサービスです。詳しくは、サービス・レベル・アグリーメント（SLA ）を参照。また、サービスおよびインフラストラクチャの可用性については、地域のドキュメントで利用可能な地域とデータセンターの場所を確認できます。

高可用性アーキテクチャ

Object Storageはグローバルサービスで、ストレージの回復力を設定する選択肢があります。バケットの弾力性は、バケットを作成するために使用されるエンドポイントによって定義されます。

複数の都市圏にデータを分散させるクロスリージョン・レジリエンシー
地域のレジリエンシーは、単一都市圏にデータを拡散する
シングル・データ・センターの耐障害性は、単一データ・センター内の複数のアプライアンスにデータを分散します

リージョナルバケットとクロスリージョンバケットは、サイトやゾーンが停止しても、構成を変更することなく可用性を維持することができるため、ワークロードを高可用性に構成する際には、これらのストレージバケットの弾力性設定を使用することをお勧めします。単一サイトに保存されたデータは、多数の物理ストレージ・アプライアンスに分散されたままだが、ゾーンサポートなしで単一のデータセンター内に収められる。

高可用性機能

Object Storageは、障害発生時に高可用性を計画するのに役立つ以下の機能を提供します：

Object Storageの HA機能
機能	説明	考慮事項
ストレージ・バケットの弾力性	顧客データに特定の弾力性を設定する機能。	地域エンドポイントで作成される Object Storage バケットは、メトロエリアに含まれる3つ以上のゾーンにデータを分散します。これらのゾーンのどれかが、可用性に影響を与えることなく、停止や破壊に見舞われる可能性さえある。クロスリージョンエンドポイントで作成されたバケットは、地理的に3つの地域にデータを分散する。これらの地域のいずれかが停止したり破壊されたりしても、可用性に影響はありません。リクエストは、グローバル・サーバー・ロード・バランシング（GSLB）を使用して、最も近いクロスリージョンの大都市圏にルーティングされる。詳しくは「エンドポイントとストレージの場所」を参照。
複製する	レプリケーションは、新しく作成されたオブジェクトやオブジェクトの更新をソースバケットからターゲットバケットにコピーし、オブジェクトの自動的な非同期コピーのルールを定義することができます。	災害時にバックアップコピーを確実に利用できるようにするため、レプリケーションの設定とセットアップを行うことをお勧めします。レプリケーション・イベントの追跡についてはこちらをご覧ください。

災害復旧アーキテクチャ

クロスリージョン、リージョナル、単一サイトのバケットは、特定の災害シナリオに対してさまざまなレベルの耐性を提供する。ビジネスのディザスタリカバリ要件に沿った、バケットに適した弾力性モデルを選択する。 IBMは、データセンターまたは地域レベルの多くの災害シナリオについて、サービスと関連コンテンツの復旧時間を24時間以内、RPOを1時間とすることを目標としている。

回復時間を改善するために、顧客がオプションのアーキテクチャを追加実装することもできる。

例えば、COSの地域が完全に停止し、元のデータの復旧が不可能になるような万が一の事態から復旧するために、代替地域に複製バケットを作成することができる。 IBM Cloudが影響を受けたリージョンまたはサービスを回復するのを待つのも有効な方法ですが、災害のシナリオによっては何時間もかかるか、それ以上かかることがあり、データが失われる可能性があることを覚えておいてください。

複製されたバケットは、本番バケットをミラーするように構成することができますが、地域サービスへの参照は更新されます。例えば、 Key Protectを使用する場合、Madridで複製されたバケットは、Madrid Key Protect インスタンスに保存されているルート鍵を参照しなければならない。 IBMによるリージョンの完全復旧を待つことができない災害シナリオの場合、顧客はこの複製されたバケットに、ソースバケット内のオリジナルデータのバックアップコピーを再投入することができます。あるいは、お客様は障害発生前にレプリケーションルールを設定し、ソースバケットと複製バケット間のデータの同期を保つことができます。最高レベルの耐障害性を実現するためには、このような複製バケットは事前に（潜在的な災害が発生する前に）作成し、レプリケーションを使用するソースバケットと同期させておく必要があります。オブジェクト・レプリケーション機能の使用は、ソース・バケットの弾力性モデルやビジネス全体のディザスタリカバリ目標とともに検討する必要があります。

回復地域への回復を計画する。レプリケートされたバケットは、 IBM Cloud 内のワークロードのディザスタリカバリ・アプローチに合わせる必要がある。災害が本番用ソースバケットの構成や可用性に影響を与えない場合（例えば、単なるデータ損失など）、顧客はソースバケット内のデータをその場で修復できる可能性があります。レプリケートされたバケットへのフェイルオーバーが必要な場合、クライアントアプリケーションは、ターゲットとなるレプリケートされたバケットのエンドポイントを呼び出すように再設定する必要があります。

災害復旧機能

IBM COS は、顧客が設定できる以下の災害復旧機能を提供します：

Object Storageの DR機能
機能	説明	考慮事項
オブジェクトの複製	レプリケーションは、新しく作成されたオブジェクトやオブジェクトの更新をソースバケットからターゲットバケットにコピーし、オブジェクトの自動的な非同期コピーのルールを定義することができます。	災害時に2つ目のコピーを確実に利用できるように、本番用バケットと復旧用バケット間でレプリケーションを設定することができます。クロス・リージョン・バケットやリージョナル・バケットを使用する場合、ビジネスの弾力性要件によってはレプリケーションが不要な場合があります。レプリケーション・イベントの追跡についてはこちらをご覧ください。
オブジェクト・バージョン管理	オブジェクトのバージョニングを有効にし、データが破損または削除された場合に復元可能なオブジェクトの旧バージョンを維持する。	お客様はバケット上でオブジェクトのバージョニングを有効にし、データが破損した場合に古いバージョンをリストアすることができます。バージョン回復を行うには、バケットが利用可能でなければならない。詳細情報
オブジェクト・ロック	オブジェクト・ロックは、指定された保持期間中、オブジェクト・バージョンの削除を防ぎます。	偶発的または不正なオブジェクトの削除や上書きから保護するために、オブジェクトロックを有効にします。安全なオブジェクトのバージョンがリカバリに利用可能であることを確認する。詳細情報

その他の災害復旧オプションは、顧客が作成し、サポートする。

Object Storageの顧客DR機能
機能	説明	考慮事項
バックアップとリストア	スクリプトまたは3rd-partyを使用して、ソースバケットのデータをリカバリリージョンにバックアップする。	お客様は、COSバケットに保存されたデータをバックアップするためのスクリプトまたは3rd-partyをホストし、管理する必要があります。

DRの計画

DRステップは定期的に練習しなければならない。計画を立てる際には、次のような失敗のシナリオと解決策を検討してください。

Object Storageの DRシナリオ
失敗	解決方法
ハードウェア障害（シングルポイント）	Object Storage バケットは、ゾーン内の単一点ハードウェア障害に強い。設定は不要。
データセンターの障害	クロスリージョンおよびリージョナルCOSバケットは、個々のデータセンターの障害に強い。顧客による設定やフェイルオーバーは必要ない。単一のデータセンターゾーンにバケットをお持ちのお客様は、レプリケーションを設定するか、 3rdパーティのバックアップソリューションを使用して、ゾーン外でデータの安全なコピーを利用できるようにすることができます。 IBM Cloud が影響を受けたリージョンまたはサービスを回復するのを待つのも有効な方法ですが、データ・センターの障害の性質によっては、何時間かそれ以上かかる可能性があることを覚えておいてください。
データ破損	オブジェクトのバージョニング、オブジェクトのレプリケーション、または3rdパーティのバックアップソリューションを使用して、データの破損や偶発的な削除の場合にリカバリできるように、破損していないバージョンのオブジェクトが存在するようにします。
地域的な失敗	クロスリージョンのCOSバケットは、地域の障害に強い。 Key Protectのような地域統合サービスでは、地域をまたがるバケットに対して追加のフェイルオーバーステップが必要になる場合がある。地域または単一データセンターのCOSバケットにバケットをお持ちのお客様は、地域全体で障害が発生した場合、上記の災害復旧手順に従ってください。 IBM Cloud が影響を受けたリージョンまたはサービスを回復するのを待つのも有効な方法ですが、リージョン停止の性質によっては何時間もかかるか、それ以上かかる可能性があることを覚えておいてください。

エンベロープ暗号化を追加するために IBM Cloud Key Management Serviceを使用する：

他の IBM Cloud サービス統合、例えば Key Protect Hyper Protectのような IBM Cloud Key Management Serviceを使用して暗号化を追加する場合は、キー・レプリカ用の適切な構成プランが使用されていることを確認する必要があります。これは、クロス・リージョン構成を使用する場合に不可欠であり、障害が発生した場合にレプリカ・キーを確実に利用できるようにする。高可用性とディザスタリカバリについては、 Key Protectのドキュメントを参照してください。

HAとDRの責任

HAとDRの責任
責任	説明
回復力	特定のワークロードとユースケースに必要な、適切な弾力性オプション、ストレージクラス、データローカリティ、オプション構成で Object Storage バケットをプロビジョニングする。
データのバックアップ	お客様の組織の要件に応じて、必要に応じて顧客データのバックアップを確保する。
ネットワーク	IBM IBM Cloud サービス・エンドポイントへの適切なアクセスを確保するため、 IBM 以外のネットワーク・リソースを監視・管理する。
IBM Cloud KMSを使って暗号化を追加する	IBM Cloud Key Protect または Hyper Protect Crypto Servicesを使用して暗号化を追加する場合は、それぞれのHigh Availability and Disaster Recoveryドキュメントを確認して、その意味を十分に理解してください。フェイルオーバー時に使用できる鍵レプリカを持つ鍵インスタンス・ロケーションを使用する必要がある場合がある。また、適切なライセンスとプランに関する情報もご確認ください。

顧客と Object Storage 間の責任の所有権の詳細については、 [Object Storageを使用する際の責任(/docs/cloud-object-storage?topic=cloud-object-storage-responsibilities)] を参照してください。

復旧時間目標（RTO）と復旧時点目標（RPO）

IBM Cloud Object Storageは、クラウド・サービスと関連するコンテンツの両方を復旧するための計画を備えており、対応する災害が発生した場合は数時間以内に復旧する。

Object Storageの RTO/RPO機能。
機能	RTOとRPO
ハードウェア障害からの復旧（シングルポイント）	すべての回復力モデルでRTO = 0、RPO = 0
データセンター停止からの復旧	クロス・リージョンおよびリージョナル・レジリエンシー・モデルの場合、RTO = 0、RPO = 0
以前のオブジェクトバージョンに戻す	RTO＝秒、RPO＝0に近い
アクティブレプリケーションで別リージョンのバケットにリカバリする	RTO = 数分、スクリプトによってさらに時間が短縮される可能性がある。また、リカバリーバケットを目標にワークロードを調整する時間も考慮する。 , RPO = 1時間近く
アクティブレプリケーションなしで、新しいリージョンの新しいバケットにリカバリする	RTO = 数分から数日、新しいバケットを再構成し、新しいバケットのエンドポイントをターゲットとしてワークロードを調整する時間を考慮する。また、元のデータのコピーをバケツに入れる時間も考慮する。 RPOは、顧客のバックアップおよびリカバリプランに従う

変更管理

変更管理には、アップグレード、構成変更、削除などのタスクが含まれる。ユーザーが役割要件に従ってアクセスできるようにするには、「IAMを始める」を参照してください。

ユーザーとプロセスには、業務に必要な最小限の権限を持つIAMロールとアクションを付与することを推奨する。サービスの偶発的な削除を防ぐにはどうすればよいですか？

災害復旧を確実にする IBM®の方法

IBM®は、災害時に特定の復旧行動を取る。

ゾーンまたは地域の障害からの回復
ゾーン障害が発生した場合、 IBM Cloudはゾーン停止を解決し、ゾーンがオンラインに戻ると、グローバル・ロード・バランサーは、顧客のアクションを必要とせずに、復旧したインスタンス・ノードへのAPIリクエストの送信を再開します。
IBM®では、さまざまな災害シナリオのテストを毎年実施しており、これらのテストで発見された事項に基づいて、復旧ドキュメントを継続的に改良しています。
24時間365日のグローバル・サポートは、 IBM®でご利用いただけます。サブジェクト・マター・エキスパートが災害時に待機しています。
すべての IBM®のサブジェクト・マター・エキスパートは、災害発生時の備えを確実にするため、事業継続と災害復旧の方針と手順に関するトレーニングを毎年受けています。

IBMがサービスを維持する方法

すべてのアップグレードは IBM サービスのベストプラクティスに従い、リカバリプランとロールバックプロセスを実施しています。新機能やメンテナンスのための定期的なアップグレードは、通常業務の一環として行われます。このようなメンテナンスは、クライアントの可用性再試行ロジックによって処理される短い中断間隔を引き起こすことがある。変更は地域ごとに、また地域内のゾーンごとに順次展開される。アップデートは、欠陥の最初の兆候でバックアップされる。

複雑な変更は、露出をコントロールする機能フラグで有効・無効にする。

顧客のワークロードに影響を与える変更は、通知で詳述される。詳細については、このサービスに影響する計画的メンテナンス、アナウンスメント、リリースノートの通知とステータスの監視を参照してください。