GPUとアクセラレータの管理

GPU対応のプロファイルファミリーは、GPUやアクセラレータへのオンデマンドかつコスト効率の高いアクセスを提供します。 GPUとアクセラレータは、AI、機械学習、推論などのような計算集約的なワークロードに必要な処理時間を加速するのに役立ちます。 GPUとアクセラレータを使用するには、ワークロードに適したドライバと関連ツールキットをインストールしてください。

NVIDIA GPU による仮想サーバーインスタンスの設定

プロファイルフィールドで NVIDIA のGPUプロファイルを選択して、仮想サーバーインスタンスを提供します。オペレーティング・システムはストック・イメージとカスタム・イメージがサポートされています。

仮想サーバー・インスタンスのイメージおよび GPU プロファイル用の NVIDIA GPU ドライバーをインストールします。次の表は、 Linux および Windows オペレーティングシステム用の最小ドライバおよび CUDA ソフトウェアのバージョンレベルを示しています。詳しくは、 NVIDIA 「ドライバーのダウンロード」ページをご覧ください。 NVIDIA データセンター製品用ドライバの概要については、 NVIDIA データセンター用ドライバを参照してください。

NVIDIA ドライバーとCUDAのバージョン Linux
GPU と最小 NVIDIA ドライバおよび CUDA バージョン
GPU	NVIDIA ドライバー	CUDAバージョン
A100	550	12.4
L4	550	12.4
L40s	550	12.4
V100	535	12.2
H100	550	12.4
H200	570	12.8

NVIDIA ドライバーとCUDAのバージョンは、Windows 2019、2022年用
GPU と最小 NVIDIA ドライバおよび CUDA バージョン
GPU	NVIDIA ドライバー	CUDAバージョン
A100	538	12.2
L4	538	12.2
L40s	538	12.2
V100	535	12.2
H100	該当なし	該当なし
H200	該当なし	該当なし

NVIDIA Windows 2016用ドライバとCUDAバージョン
GPU と最小 NVIDIA ドライバおよび CUDA バージョン
GPU	NVIDIA ドライバー	CUDAバージョン
A100	529	12.0
L4	529	12.0
L40s	該当なし	該当なし
V100	535	12.0
H100	該当なし	該当なし
H200	該当なし	該当なし

ワークロード用の関連ツールキットをインストールします。 NVIDIA の CUDAツールキットのダウンロードページをご覧ください。

ステップ2と3を完了するための詳細な手順、その他のGPUツール、例については、V100-Based GPUをIBM Cloud VPCで使う方法を参照してください。

Linux NVIDIA ドライバのインストールに焦点を当てたガイドについては、 NVIDIA ドライバインストールガイドを参照。

ドライバーのインストールを自動化したい場合は、仮想サーバーのユーザーデータセクションを使用します。ユーザーデータフィールドを使用すると、 NVIDIA ドライバーをインストールするコマンドを発行するスクリプトを入力することができます。

インテル® Gaudi 3 AI アクセラレーター搭載の仮想サーバーインスタンスの設定

プロファイルフィールドで「Intel® Gaudi® 3 AI Accelerator」インスタンスプロファイルを選択して、仮想サーバーインスタンスを提供します。オペレーティング・システムはストック・イメージとカスタム・イメージがサポートされています。
仮想サーバーに Intel Gaudi 3 AI Accelerator ソフトウェアとドライバーをインストールします。ドライバーのダウンロードについては、インテル・ガウディ・ドライバーおよびソフトウェアのインストールページをご覧ください。

AMD Instinct MI300X アクセラレーターを使用した仮想サーバーインスタンスの設定

プロファイルフィールドで AMD Instinct™ MI300X Accelerator インスタンスプロファイルを選択して、仮想サーバーインスタンスをプロビジョニングします。オペレーティング・システムはストック・イメージとカスタム・イメージがサポートされています。
仮想サーバーに必要なドライバーをインストールします。ドライバのダウンロードについては、「 ROCm と機械学習フレームワークのインストール」のページを参照。
仮想サーバーのゲストOSが Ubuntu の場合、コマンドラインから nomodeset を削除し、仮想サーバーを再起動する必要があります。
1. これらのコマンドはrootで実行する必要がある。 Sudo を根付かせる。
```
sudo -i
```
2. 設定ファイルから nomodeset を削除する。次の例ではviを使っている。
```
vi /etc/default/grub.d/50-cloudimg-settings.cfg
```
3. 設定ファイルから nomodeset が削除されていることを確認する。
```
cat /etc/default/grub.d/50-cloudimg-settings.cfg
```
4. grubをアップデートする。
```
update-grub
```
5. 仮想サーバを再起動します。

ボリュームからカスタムイメージにドライバを統合する

GPU を使用して仮想サーバー・インスタンスをプロビジョンし、ドライバーをインストールします。
仮想サーバー・インスタンスのストック・イメージ・ブート・ボリュームからイメージを作成します。詳しくは、ボリュームからのイメージの作成を参照してください。
複数のインスタンスにデプロイする場合は、ボリュームからのイメージの作成のプロセスを繰り返します。

次のステップ

詳細については、 NVIDIA ドライバのドキュメントを参照してください。