IBM Cloud Docs
管理GPU和加速器

管理GPU和加速器

GPU驱动的配置文件系列可根据需求以经济高效的方式访问GPU和加速器。 GPU和加速器有助于缩短AI、机器学习、推理等计算密集型工作负载的处理时间。 要使用GPU和加速器,请确保您为您的工作负载安装了适当的驱动程序和相关工具包。

使用 NVIDIA GPU配置虚拟服务器实例

  1. 在配置文件字段中选择 NVIDIA GPU配置文件,即可创建 虚拟服务器实例。 支持库存和定制操作系统映像。

  2. 为虚拟服务器实例的映像和 GPU 配置文件安装 NVIDIA GPU 驱动程序。 下表描述了 Linux 和 Windows 操作系统的最低驱动程序和 CUDA 软件版本级别。 更多信息,请参阅 NVIDIA 的 下载驱动程序页面。 有关 NVIDIA 数据中心产品驱动程序的概述,请参阅 NVIDIA 数据中心驱动程序

    NVIDIA 的驱动程序和 CUDA 版本 Linux
    GPU 以及最低 NVIDIA 驱动程序和 CUDA 版本
    GPU NVIDIA 驱动程序 CUDA 版本
    A100 550 12.4
    L4 550 12.4
    L40s 550 12.4
    V100 535 12.2
    H100 550 12.4
    H200 570 12.8
    NVIDIA 驱动程序和 CUDA 版本的 Windows 2019、2022
    GPU 以及最低 NVIDIA 驱动程序和 CUDA 版本
    GPU NVIDIA 驱动程序 CUDA 版本
    A100 538 12.2
    L4 538 12.2
    L40s 538 12.2
    V100 535 12.2
    H100 不适用 不适用
    H200 不适用 不适用
    NVIDIA Windows 2016 的驱动程序和 CUDA 版本
    GPU 以及最低 NVIDIA 驱动程序和 CUDA 版本
    GPU NVIDIA 驱动程序 CUDA 版本
    A100 529 12.0
    L4 529 12.0
    L40s 不适用 不适用
    V100 535 12.0
    H100 不适用 不适用
    H200 不适用 不适用
  3. 为工作负载安装关联的工具箱。 访问 NVIDIA 的 CUDA工具包下载页面。

有关完成步骤 2 和 3 的详细说明、其他 GPU 工具和示例,请参阅 如何在V100-BasedGPU 上IBM Cloud VPC

有关安装 NVIDIA 驱动程序的 Linux 重点指南,请参阅 NVIDIA 驱动程序安装指南

如果您想自动安装驱动程序,可以使用虚拟 服务器的“用户数据”部分。 通过使用用户数据字段,您可以输入一个脚本,用于发出安装 NVIDIA 驱动程序的命令。

使用英特尔Gaudi 3人工智能加速器配置虚拟服务器实例

  1. 在配置文件字段中选择英特尔® 高迪® 3 AI 加速器 配置文件, 即可创建 虚拟服务器实例。 支持库存和定制操作系统映像。
  2. 为您的虚拟服务器安装英特尔高迪3人工智能加速器软件和驱动程序。 如需下载驱动程序,请访问 英特尔高迪驱动程序和软件安装页面。

使用 AMD Instinct MI300X 加速器配置虚拟服务器实例

  1. 在配置文件字段中选择 AMD Instinct™ MI300X Accelerator 实例配置文件,配置 虚拟服务器实例。 支持库存和定制操作系统映像。
  2. 为虚拟服务器安装必要的驱动程序。 要下载驱动程序,请参阅 安装 ROCm 和机器学习框架页面。
  3. 如果虚拟服务器的客户操作系统是 Ubuntu,则必须从命令行中删除 nomodeset 并重新启动虚拟服务器。
    1. 这些命令必须以根用户身份运行。 Sudo 到根部。
      sudo -i
      
    2. 从设置文件中删除 nomodeset。 下面的示例使用 vi。
      vi /etc/default/grub.d/50-cloudimg-settings.cfg
      
    3. 确认 nomodeset 已从设置文件中删除。
      cat /etc/default/grub.d/50-cloudimg-settings.cfg
      
    4. 更新 grub。
      update-grub
      
    5. 重新启动虚拟服务器。

将驾驶员整合到自定义图像中

  1. 使用 GPU 供应虚拟服务器实例并安装驱动程序。
  2. 从虚拟服务器实例库存映像引导卷创建映像。 有关更多信息,请参阅 从卷创建映像
  3. 重复卷进程中的“映像”以跨多个实例进行部署。

后续步骤

更多信息,请参阅 NVIDIA 驱动程序文档