クラスターネットワークについて
クラスタ・ネットワークは、仮想プライベート・クラウド(VPC)内のソフトウェア定義ネットワークで、複数のコンピューティング・システムまたはノードを、パフォーマンスとノード間の通信を最適化する方法で接続するために使用される。 これらのネットワークは、ハイパフォーマンス・コンピューティング(HPC)や大規模データ処理など、高速データ転送と低レイテンシーを必要とするタスクをサポートするように設計されている。 大規模なAIトレーニングのユースケースに最適なクラスタ・ネットワークでは、相互接続されたシステム群に対してパフォーマンス基準のセットを定義することもできます。
各クラスタ・ネットワークには、接続可能なコンポーネントのタイプを記述する関連クラスタ・ネットワーク・プロファイルがあります。 クラスタネットワーク内には、基本的なネットワーク抽象化のセットがあり、高性能ワークロードを構成するために必要な柔軟性と制御を提供します。
主要機能は以下のとおりです:
- 分離と最適化
- コンピュートリソースのグループに対して、高帯域幅かつ低レイテンシーのネットワーキングを提供します。 クラスタ・ネットワークは独立したIPv4アドレス空間に隔離され、外部にはルーティングされない。
- 専門技術
- CPUを介さずに異なるノードのメモリ間で直接データ転送を可能にするRDMA(Remote Direct Memory Access)などの高度なネットワーキング技術をサポートし、パフォーマンスをさらに向上。
- 高性能コンピューティング
- 人工知能(AI)のトレーニングや複雑なシミュレーションなど、高帯域幅と低遅延が不可欠な要求の厳しいアプリケーションに適しています。
- 柔軟性とコントロール
- 既存のVPCネットワークを補完するネットワーク。 クラスタネットワークのアタッチメントはVPCネットワークから分離されているため、ユーザーは高速RDMAネットワークをVPCネットワークと混在させることができます。
クラスタネットワークを始める
クラスタネットワークは、ネットワーク化されたシステムグループ内のデータ転送の効率と速度を向上させ、ハイパフォーマンスコンピューティングタスクに不可欠なコンポーネントとなっています。 以下の一般的な手順に従って、AIトレーニング用のシンプルなクラスタネットワークを作成する:
-
クラスター・ネットワークに関する計画の考慮事項 を確認し、既知の問題や制限 に注意する。
-
作成するインスタンス数に、対応する インスタンスプロファイル で定義されているリソースを乗じて、クラスタに必要な総リソースを決定します。
-
計算されたクラスタに必要な総リソースを デフォルトのクォータ と照らし合わせて、クォータの増加が必要かどうかを判断します。
-
NVIDIA H100 および H200 プロファイルの容量があり、クラスタリングをサポートするリージョンに既存の VPC があることを確認してください。
現在、サポートされているゾーンは
us-east-wdc07-a
のみである。 ゾーンの詳細については、アカウントごとのゾーンマッピング を参照してください。 -
クラスタネットワークを作成する。 現在、クラスタネットワーキングは、 NVIDIA Hopper HGXインスタンスの H100 と Hopper-1 プロファイルの両方をサポートしています。 ただし、 H100 クラスタ・ネットワーク・プロファイルは将来的に廃止され、 NVIDIA と H200 インスタンス・プロファイルの両方をサポートする Hopper-1 クラスタ・ネットワーク・プロファイルに置き換えられる予定です。
-
クラスターネットワークのサブネットを作成する (8, 16, or 32) as child objects on the cluster network.
コンソールでクラスタネットワークを作成する場合、クラスタネットワークのサブネットも同時に作成できます。 8つのサブネットを使用することが推奨されていますが、特定のシナリオではより多くのサブネットを使用します。
Hopper 1クラスタのネットワークタイプ内のサブネットは互いにルーティング可能です。 しかし、クラスタ・ネットワークは外部からはルーティングできない。
-
以下のいずれかを実行します。
-
仮想サーバーインスタンス をプロビジョニングします。
-
インスタンス・テンプレートを作成 し、インスタンスを作成する。 必ず確認すること:
- ホッパー1インスタンスプロファイルを選択します。
- クラスタリングを有効にする。
- クラスタのサブネットに対応するアタッチメント(8、16、または32)を追加します。
上級ユーザーは、IPアドレスやインターフェイスを事前に割り当てたいかもしれない。 ただし、インスタンスの作成時にIPまたはインタフェースを作成することを推奨する。
-
クラスターネットワークの使用例
クラスター・ネットワークス for VPCは、以下のユースケースをサポートしています。
ユースケース 1: Hopper-1 クラスタネットワークで RDMA を使用する H100/H200 インスタンスのネットワーキング
次の図は、 H100/H200 インスタンスを hopper-1 クラスター・ネットワークに接続して、 IBM Cloud の RDMA を活用する方法を示しています:
まず、クラスター ネットワーク サブネットを使用してクラスターネットワーク が設定されていることを確認します。 次に、クラスタ・ネットワークに接続する H100 または H200 インスタンスを作成する。 インスタンスが作成されたら、VPCネットワークとクラスタネットワークを指定します。 VPCネットワークはクラウドリソースへの接続性を提供し、外部ルーティングを提供することができる。 クラスタ・ネットワークはインスタンス内の追加インターフェースで、ノード間の接続性を提供します。
使用例 2:IBM Cloudエコシステムの他の部分からクラスター・ネットワークを保護する
クラスタ・ネットワークは、VPCクラウド・ネットワークとは別のネットワーク・ドメインに分離されます。 クラスタ・ネットワーク分離ドメインにより、ユーザはセキュリティ・グループ、ネットワークACL、ルーティング・テーブルを利用することなく安全性を確保することができます。 クラスタ・ネットワーク内の通信は、クラスタ・ネットワークに直接接続されたデバイス間でのみ行われます。
クラスタ・ネットワークに接続されているリソースも、少なくとも1つのVPCネットワークに接続されている必要があります。 VPCネットワークは、標準的なVPCリソースである IBM Cloud のすべてのユースケース(フローティングIP、パブリックゲートウェイ、 Transit Gateway など)をサポートしています。 そのため、クラスタ・ネットワーク上のリソースに接続されている仮想ネットワーク・インタフェースのセキュリティ・ポリシーを確認することをお勧めします。
クラスタ・ネットワークへの最小限のアクセスを維持するためには、次のことが必要です:
- クラスタネットワークに接続されているインスタンスにアクセスを制限する。
- クラスタ・ネットワークにアクセスできる各インスタンスに、VPC仮想ネットワーク・インタフェース(VNI)用の厳重なセキュリティ・グループがあることを確認します。
- インバウンドのTCPリクエストを注意深くガードし、アウトバ ンドのTCPリクエストをガードすることを検討してください。 詳細は、リソースのセキュリティグループの設定 を参照してください。
- クラスタネットワークが有効なインスタンスに接続されているサブネットに適切なネットワークACLが設定されていることを確認します。
- クラスタ・ネットワーク権限用にIAMポリシーを設定します。