IBM Cloud Docs
GPUとアクセラレータの管理

GPUとアクセラレータの管理

GPU対応のプロファイルファミリーは、GPUやアクセラレータへのオンデマンドかつコスト効率の高いアクセスを提供します。 GPUとアクセラレータは、AI、機械学習、推論などのような計算集約的なワークロードに必要な処理時間を加速するのに役立ちます。 GPUとアクセラレータを使用するには、ワークロードに適したドライバと関連ツールキットをインストールしてください。

NVIDIA GPU による仮想サーバーインスタンスの設定

  1. プロファイルフィールドで NVIDIA のGPUプロファイル を選択して、 仮想サーバーインスタンス を提供します。 オペレーティング・システムはストック・イメージとカスタム・イメージがサポートされています。

  2. 仮想サーバー・インスタンスのイメージおよび GPU プロファイル用の NVIDIA GPU ドライバーをインストールします。 次の表は、 Linux および Windows オペレーティングシステム用の最小ドライバおよび CUDA ソフトウェアのバージョンレベルを示しています。 詳しくは、 NVIDIA 「 ドライバーのダウンロード 」ページをご覧ください。 NVIDIA データセンター製品用ドライバの概要については、 NVIDIA データセンター用ドライバを参照してください。

    NVIDIA ドライバーとCUDAのバージョン Linux
    GPU と最小 NVIDIA ドライバおよび CUDA バージョン
    GPU NVIDIA ドライバー CUDAバージョン
    A100 550 12.4
    L4 550 12.4
    L40s 550 12.4
    V100 535 12.2
    H100 550 12.4
    H200 570 12.8
    NVIDIA ドライバーとCUDAのバージョンは、Windows 2019、2022年用
    GPU と最小 NVIDIA ドライバおよび CUDA バージョン
    GPU NVIDIA ドライバー CUDAバージョン
    A100 538 12.2
    L4 538 12.2
    L40s 538 12.2
    V100 535 12.2
    H100 該当なし 該当なし
    H200 該当なし 該当なし
    NVIDIA Windows 2016用ドライバとCUDAバージョン
    GPU と最小 NVIDIA ドライバおよび CUDA バージョン
    GPU NVIDIA ドライバー CUDAバージョン
    A100 529 12.0
    L4 529 12.0
    L40s 該当なし 該当なし
    V100 535 12.0
    H100 該当なし 該当なし
    H200 該当なし 該当なし
  3. ワークロード用の関連ツールキットをインストールします。 NVIDIA の CUDAツールキットのダウンロードページをご覧ください。

ステップ2と3を完了するための詳細な手順、その他のGPUツール、例については、V100-Based GPUをIBM Cloud VPCで使う方法を参照してください。

Linux NVIDIA ドライバのインストールに焦点を当てたガイドについては、 NVIDIA ドライバインストールガイドを参照。

ドライバーのインストールを自動化したい場合は、仮想サーバーの ユーザーデータセクションを 使用します。 ユーザーデータフィールドを使用すると、 NVIDIA ドライバーをインストールするコマンドを発行するスクリプトを入力することができます。

インテル® Gaudi 3 AI アクセラレーター搭載の仮想サーバーインスタンスの設定

  1. プロファイルフィールドで「Intel® Gaudi® 3 AI Accelerator」インスタンスプロファイル を選択して、 仮想サーバーインスタンス を提供します。 オペレーティング・システムはストック・イメージとカスタム・イメージがサポートされています。
  2. 仮想サーバーに Intel Gaudi 3 AI Accelerator ソフトウェアとドライバーをインストールします。 ドライバーのダウンロードについては、 インテル・ガウディ・ドライバーおよびソフトウェアのインストールページをご覧ください。

AMD Instinct MI300X アクセラレーターを使用した仮想サーバーインスタンスの設定

  1. プロファイルフィールドで AMD Instinct™ MI300X Accelerator インスタンスプロファイルを 選択して、 仮想サーバーインスタンスを プロビジョニングします。 オペレーティング・システムはストック・イメージとカスタム・イメージがサポートされています。
  2. 仮想サーバーに必要なドライバーをインストールします。 ドライバのダウンロードについては、「 ROCm と機械学習フレームワークのインストール 」のページを参照。
  3. 仮想サーバーのゲストOSが Ubuntu の場合、コマンドラインから nomodeset を削除し、仮想サーバーを再起動する必要があります。
    1. これらのコマンドはrootで実行する必要がある。 Sudo を根付かせる。
      sudo -i
      
    2. 設定ファイルから nomodeset を削除する。 次の例ではviを使っている。
      vi /etc/default/grub.d/50-cloudimg-settings.cfg
      
    3. 設定ファイルから nomodeset が削除されていることを確認する。
      cat /etc/default/grub.d/50-cloudimg-settings.cfg
      
    4. grubをアップデートする。
      update-grub
      
    5. 仮想サーバを再起動します。

ボリュームからカスタムイメージにドライバを統合する

  1. GPU を使用して仮想サーバー・インスタンスをプロビジョンし、ドライバーをインストールします。
  2. 仮想サーバー・インスタンスのストック・イメージ・ブート・ボリュームからイメージを作成します。 詳しくは、ボリュームからのイメージの作成を参照してください。
  3. 複数のインスタンスにデプロイする場合は、ボリュームからのイメージの作成のプロセスを繰り返します。

次のステップ

詳細については、 NVIDIA ドライバのドキュメントを参照してください。