IBM Cloud Docs
安装 Red Hat OpenShift 人工智能插件

安装 Red Hat OpenShift 人工智能插件

按照以下步骤将 OpenShift 人工智能插件安装到现有集群中。

想要在新的集群上部署 OpenShift 人工智能操作员吗? 请尝试 OpenShift AI on IBM Cloud 可部署架构。

最低需求

要使用 OpenShift AI 附加组件,您的群集必须满足以下要求。

  • 您的群集必须是 4.16 及更高版本。
  • 您的群集至少需要 2 个工作节点。 每个 Worker 节点必须至少有 8vCPU 和 32GB 内存。 要使用 OpenShift AI 提供的所有功能,建议至少使用 1 个 GPU。
  • 您的工作节点必须使用 RHCOS 操作系统。

准备工作

  1. 登录您的账户。 如果适用,请将相应的资源组设定为目标。 设置集群的上下文。

  2. 可选:如果还没有,请 创建一个 VPC Public Gateway

  3. 如果您想将 OpenShift 管道、Node 功能发现或 NVIDIA GPU运算符 与 OpenShift AI附加组件一起使用,则必须禁用出站流量保护。 如果您不想使用这些操作符,请跳过此步骤。

    禁用出站流量保护后,所有外部网络连接均被允许。 更多信息,请参阅 《VPC集群中的出站流量管理 》。

    ibmcloud oc vpc outbound-traffic-protection disable --cluster CLUSTER
    
  4. 启用集群上的 OperatorHub。

    oc patch operatorhub cluster --type json -p '[{"op": "add", "path": "/spec/disableAllDefaultSources", "value": false}]'
    

第一步:选择定制选项

您可以在安装附加组件时指定不同的选项来增强 Red Hat OpenShift 人工智能项目,例如用于构建可移植机器学习工作流的数据管道或用于管理和扩展资源的工具。 您还可以自定义升级策略和删除策略。

运行命令列出所有选项。 如需了解每个可用选项的描述,请参阅 OpenShift 人工智能定制选项。 如果您在安装附加组件时未选择特定选项,则将应用默认值。

ibmcloud oc cluster addon options --addon openshift-ai

第二步:查看推荐的运营商

您也可以选择安装其他推荐用于某些 OpenShift 人工智能功能的操作员。 如果您的仪表盘上还没有这些功能,您可以选择将其添加到附加安装中。 或者,您可以随时通过 OperatorHub 或按照操作员特定的安装步骤进行安装。 要使用这些操作符,您必须 禁用集群的出站流量保护

您负责管理这些操作员,包括但不限于更新、监控、恢复和重新安装。

建议使用以下操作符。

其中一些运营商可能会提供额外的定制选项,您可以在安装附加组件时选择指定这些选项。 查看 推荐运营商提供的定制服务 列表。

第三步:在CLI中安装附加组件

运行命令安装 Red Hat OpenShift 人工智能插件。 请通过 --parameter PARAM=VALUE 格式指定 定制内容。 例如,要添加数据科学管道选项,请发送电子邮件至 --parameter oaiDataSciencePipelines=Managed

要在使用 CLI 安装附加组件时包含推荐的运营商,请在运行安装命令时指定以下选项。

  • OpenShift 管道:--parameter pipelineEnabled=true
  • Node 发现功能:--parameter nfdEnabled=true
  • NVIDIA GPU运算:--parameter nvidiaEnabled=true

安装命令。

ibmcloud oc cluster addon enable openshift-ai --cluster CLUSTER [-f] [--param PARAM] [-q] [--version VERSION]

示例命令用于安装附加组件,自动更新次要更新和补丁,启用Codeflare和Kserve。

ibmcloud oc cluster addon enable openshift-ai --cluster CLUSTER --param oaiInstallPlanApproval=Automatic --param oaiCodeflare=Managed --param oaiKserve=Managed

第一步:查看推荐的运营商

您也可以选择安装其他推荐用于某些 OpenShift 人工智能功能的操作员。 如果您的仪表盘上还没有这些功能,您可以选择将其添加到附加安装中。 或者,您可以随时通过 OperatorHub 或按照操作员特定的安装步骤进行安装。 要使用这些操作符,您必须 禁用集群的出站流量保护

您负责管理这些操作员,包括但不限于更新、监控、恢复和重新安装。

建议使用以下操作符。

其中一些运营商可能会提供额外的定制选项,您可以在安装附加组件时选择指定这些选项。 查看 推荐运营商提供的定制服务 列表。

第二步:在用户界面中安装附加组件

使用用户界面安装 Red Hat OpenShift 人工智能插件。

  1. 导航至 仪表板页面,点击相关仪表板。

  2. 在集群详情页面上,找到附加组件部分。 找到 Red Hat OpenShift 人工智能选项并点击安装

  3. “功能”部分,查看可用附加自定义选项的描述,并启用您希望随安装一起提供的选项。

  4. “其他推荐运营商”部分,点击展开每个运营商,然后选择您想要包含的自定义选项。 建议对某些 Red Hat OpenShift 人工智能功能进行额外的操作和自定义。 您可以选择稍后通过 OperatorHub 或按照操作员特定的安装步骤来安装这些选装件。

    您负责管理这些操作员,包括但不限于更新、监控、恢复和重新安装。

  5. 单击安装

OpenShift 人工智能定制选项

查看 OpenShift 人工智能插件的定制选项。

要在安装 OpenShift AI插件时 添加选项,请在运行 ibmcloud oc cluster addon enable openshift-ai 时使用 --parameter PARAM=VALUE 格式。 例如,要安装带有数据科学管道选项的附加组件,请指定 --parameter oaiDataSciencePipelines=Managed

要在安装 OpenShift 人工智能插件时 添加选项,请在出现提示时点击启用选项。

OpenShift AI附加定制选项和CLI参数。
定制 CLI 参数 描述 CLI 价值观 缺省值
OpenShift 人工智能审批政策 oaiInstallPlanApproval 自动或手动应用次要更新和补丁更新。 AutomaticManual Automatic
OpenShift 人工智能删除政策 oaiDeletePolicy 如果卸载附加组件,请保留或删除附加组件安装的任何操作员或组件。 RetainDelete Retain
开放数据中心仪表板 oaiDashboard 启用或禁用组件。 如果启用,则由 OpenShift 人工智能平台管理。 Managed 使 能够禁用
Removed
Managed (已启用)
ueue oaiKueue 启用或禁用组件。 如果启用,则由 OpenShift 人工智能平台管理。 Managed 使 能够禁用
Removed
Managed (已启用)
代码炫光 oaiCodeflare 启用或禁用组件。 如果启用,则由 OpenShift 人工智能平台管理。 Managed 使 能够禁用
Removed
Managed (已启用)
ModelMesh 服务 oaiModelmeshserving 启用或禁用组件。 如果启用,则由 OpenShift 人工智能平台管理。 Managed 使 能够禁用
Removed
Managed (已启用)
Workbench oaiWorkbenches 启用或禁用组件。 如果启用,则由 OpenShift 人工智能平台管理。 Managed 使 能够禁用
Removed
Managed (已启用)
数据科学流程 oaiDataSciencePipelines 启用或禁用组件。 如果启用,则由 OpenShift 人工智能平台管理。 Managed 使 能够禁用
Removed
Managed (已启用)
KServe oaiKserve 启用或禁用组件。 如果启用,则由 OpenShift 人工智能平台管理。 Managed 使 能够禁用
Removed
Managed (已启用)
oaiRay 启用或禁用组件。 如果启用,则由 OpenShift 人工智能平台管理。 Managed 使 能够禁用
Removed
Managed (已启用)

推荐运营商的定制服务

查看 推荐的运营商 以及在安装过程中可以包含的可选自定义项。

当您 使用CLI安装 OpenShift AI插件 时,要为操作员添加自定义设置,请在运行 ibmcloud oc cluster addon enable openshift-ai 时使用 --parameter PARAM=VALUE 格式的选项。 例如,要为 NVIDIA 操作员添加 NVIDIA GPUDirect Storage自定义,请指定 --parameter nvidiaGpuDirectStorageEnabled=true

当您 安装 OpenShift 人工智能附加组件 时,若要为操作员添加自定义设置,请在弹出提示时点击启用选项。

OpenShift AI附加自定义选项和CLI参数,用于其他运算符。
定制 CLI 参数 描述 CLI 价值观 缺省值
NDF 删除政策 nfdDeletePolicy 如果删除了 OpenShift AI插件,请保留或删除运算符。 RetainDelete Retain
NVIDIA 删除政策 nvidiaDeletePolicy 如果删除了 OpenShift AI插件,请保留或删除运算符。 RetainDelete Retain
NVIDIA 沙盒工作负载 nvidiaSandboxWorkloads 启用沙箱工作负载所需的附加操作数管理。 true (启用) (禁用)
false
true (已启用)
NVIDIA DCGM Hostengine 部署 nvidiaDcgmEnabled 启用 NVIDIA DCGM主机引擎作为单独的吊舱。 true (启用) (禁用)
false
true (已启用)
NVIDIA vGPU 经理 nvidiaVgpuManagerEnabled 启用 NVIDIA vGPU 经理。 true (启用) (禁用)
false
true (已启用)
NVIDIA VFIO经理 nvidiaVfioManagerEnabled 启用VFIOManager进行配置,以部署VFIO-PCI。 true (启用) (禁用)
false
true (已启用)
NVIDIA Node 状态 出口商 nvidiaNodeStatusExporterEnabled 启用 Node Status Exporter。 true (启用) (禁用)
false
true (已启用)
NVIDIA 沙盒设备插件 nvidiaSandboxDevicePluginEnabled 启用 NVIDIA 沙盒设备插件。 true (启用) (禁用)
false
true (已启用)
英伟达 MIG 管理器 nvidiaMigManagerEnabled 启用 NVIDIA MIG Manager。 true (启用) (禁用)
false
true (已启用)
NVIDIA vGPU 设备管理器 nvidiaVgpuDeviceManagerEnabled 启用 NVIDIA vGPU 设备管理器。 true (启用) (禁用)
false
true (已启用)
NVIDIA GPUDirect存储 nvidiaGpuDirectStorageEnabled 启用GPUDirect存储。 true (启用) (禁用)
false
true (已启用)
NVIDIA CUDA测试 nvidiaCudaTest 启用 NVIDIA CUDA测试。 true (启用) (禁用)
false
false (残障人士)
管道操作员删除政策 pipelineDeletePolicy 如果删除了 OpenShift AI插件,请保留或删除运算符。 RetainDelete

后续步骤?