安装 Red Hat OpenShift 人工智能插件

按照以下步骤将 OpenShift 人工智能插件安装到现有集群中。

想要在新的集群上部署 OpenShift 人工智能操作员吗？请尝试 OpenShift AI on IBM Cloud 可部署架构。

最低需求

在设置附加组件之前，请查看以下注意事项。

查看支持的群集附加组件版本，确定要在群集中安装的附加组件版本。
您的群集必须至少有 2 个工作节点。每个工作节点必须至少有 8vCPU 和 32GB 内存。
您的工作节点必须使用 RHCOS 操作系统。
您必须允许群集的出站流量，才能安装所需的操作员。

注意事项

要使用 OpenShift AI 提供的所有功能，建议至少使用 1 个 GPU。
您的集群可以混合使用 GPU 节点和非 GPU 节点。不过，如果使用这种配置，请确保将应用程序部署在 GPU 节点上，以充分利用其资源。
从 OpenShift AI Operator 的 2.19.0 版本开始，KServe 可选择高级模式或标准模式。默认情况下，当您使用 OpenShift AI 并使用 IBM Cloud 附加组件安装 KServe 时，它是以标准模式安装的。如果要使用高级模式，则必须在安装插件后完成可选步骤。

准备工作

登录您的账户。如果适用，请将相应的资源组设定为目标。设置集群的上下文。
可选：如果还没有，请创建一个 VPC Public Gateway。
如果您想将 OpenShift 管道、Node 功能发现或 NVIDIA GPU运算符与 OpenShift AI附加组件一起使用，则必须禁用出站流量保护。如果您不想使用这些操作符，请跳过此步骤。

禁用出站流量保护后，所有外部网络连接均被允许。更多信息，请参阅《VPC集群中的出站流量管理》。
```
ibmcloud oc vpc outbound-traffic-protection disable --cluster CLUSTER
```

启用集群上的 OperatorHub。

oc patch operatorhub cluster --type json -p '[{"op": "add", "path": "/spec/disableAllDefaultSources", "value": false}]'

第一步：选择定制选项

您可以在安装附加组件时指定不同的选项来增强 Red Hat OpenShift 人工智能项目，例如用于构建可移植机器学习工作流的数据管道或用于管理和扩展资源的工具。您还可以自定义升级策略和删除策略。

运行命令列出所有选项。如需了解每个可用选项的描述，请参阅 OpenShift 人工智能定制选项。如果您在安装附加组件时未选择特定选项，则将应用默认值。

ibmcloud oc cluster addon options --addon openshift-ai

第二步：查看推荐的运营商

您也可以选择安装其他推荐用于某些 OpenShift 人工智能功能的操作员。如果您的仪表盘上还没有这些功能，您可以选择将其添加到附加安装中。或者，您可以随时通过 OperatorHub 或按照操作员特定的安装步骤进行安装。要使用这些操作符，您必须禁用集群的出站流量保护。

您负责管理这些操作员，包括但不限于更新、监控、恢复和重新安装。

建议使用以下操作符。

其中一些运营商可能会提供额外的定制选项，您可以在安装附加组件时选择指定这些选项。查看推荐运营商提供的定制服务列表。

第三步：在CLI中安装附加组件

运行命令安装 Red Hat OpenShift 人工智能插件。请通过 --parameter PARAM=VALUE 格式指定定制内容。例如，要添加数据科学管道选项，请发送电子邮件至 --parameter oaiDataSciencePipelines=Managed。

要在使用 CLI 安装附加组件时包含推荐的运营商，请在运行安装命令时指定以下选项。

OpenShift 管道：--parameter pipelineEnabled=true
Node 发现功能：--parameter nfdEnabled=true
NVIDIA GPU运算：--parameter nvidiaEnabled=true

安装命令。

ibmcloud oc cluster addon enable openshift-ai --cluster CLUSTER [-f] [--param PARAM] [-q] [--version VERSION]

示例命令用于安装附加组件，自动更新次要更新和补丁，启用Codeflare和Kserve。

ibmcloud oc cluster addon enable openshift-ai --cluster CLUSTER --param oaiInstallPlanApproval=Automatic --param oaiCodeflare=Managed --param oaiKserve=Managed

第一步：查看推荐的运营商

您负责管理这些操作员，包括但不限于更新、监控、恢复和重新安装。

建议使用以下操作符。

其中一些运营商可能会提供额外的定制选项，您可以在安装附加组件时选择指定这些选项。查看推荐运营商提供的定制服务列表。

第二步：在用户界面中安装附加组件

使用用户界面安装 Red Hat OpenShift 人工智能插件。

导航至仪表板页面，点击相关仪表板。
在集群详情页面上，找到附加组件部分。找到 Red Hat OpenShift 人工智能选项并点击安装。
在 “功能”部分，查看可用附加自定义选项的描述，并启用您希望随安装一起提供的选项。
在 “其他推荐运营商”部分，点击展开每个运营商，然后选择您想要包含的自定义选项。建议对某些 Red Hat OpenShift 人工智能功能进行额外的操作和自定义。您可以选择稍后通过 OperatorHub 或按照操作员特定的安装步骤来安装这些选装件。

您负责管理这些操作员，包括但不限于更新、监控、恢复和重新安装。
单击安装。

可选：在高级模式下设置 KServe

如果要在高级模式下使用 KServe，必须完成以下步骤。

从 OperatorHub 安装 OpenShift Serverless Operator。
从 OperatorHub 安装 OpenShift Service Mesh Operator。

在数据科学群集初始化 CR 中，将 serviceMesh 管理状态设置为 Managed。

serviceMesh:
    controlPlane:
        metricsCollection: Istio
        name: data-science-smcp
        namespace: istio-system
    managementState: Managed

在数据科学集群自定义资源中将 kserve 服务管理状态设置为 Managed。

kserve:
    managementState: Managed
    serving:
      managementState: Managed
      name: knative-serving

OpenShift 人工智能定制选项

查看 OpenShift 人工智能插件的定制选项。

要在安装 OpenShift AI插件时添加选项，请在运行 ibmcloud oc cluster addon enable openshift-ai 时使用 --parameter PARAM=VALUE 格式。例如，要安装带有数据科学管道选项的附加组件，请指定 --parameter oaiDataSciencePipelines=Managed。

要在安装 OpenShift 人工智能插件时添加选项，请在出现提示时点击启用选项。

OpenShift AI附加定制选项和CLI参数。
定制	CLI 参数	描述	CLI 价值观	缺省值
OpenShift 人工智能审批政策	`oaiInstallPlanApproval`	自动或手动应用次要更新和补丁更新。	`Automatic` 或 `Manual`	`Automatic`
OpenShift 人工智能删除政策	`oaiDeletePolicy`	如果卸载附加组件，请保留或删除附加组件安装的任何操作员或组件。	`Retain` 或 `Delete`	`Retain`
开放数据中心仪表板	`oaiDashboard`	启用或禁用组件。如果启用，则由 OpenShift 人工智能平台管理。	`Managed` 使能够禁用 `Removed`	`Managed` （已启用）
ueue	`oaiKueue`	启用或禁用组件。如果启用，则由 OpenShift 人工智能平台管理。	`Managed` 使能够禁用 `Removed`	`Managed` （已启用）
代码炫光	`oaiCodeflare`	启用或禁用组件。如果启用，则由 OpenShift 人工智能平台管理。	`Managed` 使能够禁用 `Removed`	`Managed` （已启用）
ModelMesh 服务	`oaiModelmeshserving`	启用或禁用组件。如果启用，则由 OpenShift 人工智能平台管理。	`Managed` 使能够禁用 `Removed`	`Managed` （已启用）
工作台	`oaiWorkbenches`	启用或禁用组件。如果启用，则由 OpenShift 人工智能平台管理。	`Managed` 使能够禁用 `Removed`	`Managed` （已启用）
数据科学流程	`oaiDataSciencePipelines`	启用或禁用组件。如果启用，则由 OpenShift 人工智能平台管理。	`Managed` 使能够禁用 `Removed`	`Managed` （已启用）
KServe	`oaiKserve`	启用或禁用组件。如果启用，则由 OpenShift 人工智能平台管理。	`Managed` 使能够禁用 `Removed`	`Managed` （已启用）
雷	`oaiRay`	启用或禁用组件。如果启用，则由 OpenShift 人工智能平台管理。	`Managed` 使能够禁用 `Removed`	`Managed` （已启用）

推荐运营商的定制服务

查看推荐的运营商以及在安装过程中可以包含的可选自定义项。

当您使用CLI安装 OpenShift AI插件时，要为操作员添加自定义设置，请在运行 ibmcloud oc cluster addon enable openshift-ai 时使用 --parameter PARAM=VALUE 格式的选项。例如，要为 NVIDIA 操作员添加 NVIDIA GPUDirect Storage自定义，请指定 --parameter nvidiaGpuDirectStorageEnabled=true。

当您安装 OpenShift 人工智能附加组件时，若要为操作员添加自定义设置，请在弹出提示时点击启用选项。

OpenShift AI附加自定义选项和CLI参数，用于其他运算符。
定制	CLI 参数	描述	CLI 价值观	缺省值
NDF 删除政策	`nfdDeletePolicy`	如果删除了 OpenShift AI插件，请保留或删除运算符。	`Retain` 或 `Delete`	`Retain`
NVIDIA 删除政策	`nvidiaDeletePolicy`	如果删除了 OpenShift AI插件，请保留或删除运算符。	`Retain` 或 `Delete`	`Retain`
NVIDIA 沙盒工作负载	`nvidiaSandboxWorkloads`	启用沙箱工作负载所需的附加操作数管理。	`true` （启用）（禁用） `false`	`true` （已启用）
NVIDIA DCGM Hostengine 部署	`nvidiaDcgmEnabled`	启用 NVIDIA DCGM主机引擎作为单独的吊舱。	`true` （启用）（禁用） `false`	`true` （已启用）
NVIDIA vGPU 经理	`nvidiaVgpuManagerEnabled`	启用 NVIDIA vGPU 经理。	`true` （启用）（禁用） `false`	`true` （已启用）
NVIDIA VFIO经理	`nvidiaVfioManagerEnabled`	启用VFIOManager进行配置，以部署VFIO-PCI。	`true` （启用）（禁用） `false`	`true` （已启用）
NVIDIA Node 状态出口商	`nvidiaNodeStatusExporterEnabled`	启用 Node Status Exporter。	`true` （启用）（禁用） `false`	`true` （已启用）
NVIDIA 沙盒设备插件	`nvidiaSandboxDevicePluginEnabled`	启用 NVIDIA 沙盒设备插件。	`true` （启用）（禁用） `false`	`true` （已启用）
英伟达 MIG 管理器	`nvidiaMigManagerEnabled`	启用 NVIDIA MIG Manager。	`true` （启用）（禁用） `false`	`true` （已启用）
NVIDIA vGPU 设备管理器	`nvidiaVgpuDeviceManagerEnabled`	启用 NVIDIA vGPU 设备管理器。	`true` （启用）（禁用） `false`	`true` （已启用）
NVIDIA GPUDirect存储	`nvidiaGpuDirectStorageEnabled`	启用GPUDirect存储。	`true` （启用）（禁用） `false`	`true` （已启用）
NVIDIA CUDA测试	`nvidiaCudaTest`	启用 NVIDIA CUDA测试。	`true` （启用）（禁用） `false`	`false` （残障人士）
管道操作员删除政策	`pipelineDeletePolicy`	如果删除了 OpenShift AI插件，请保留或删除运算符。		`Retain` 或 `Delete`

后续步骤？

请参阅管理 OpenShift 人工智能插件的信息。
请确保您了解 OpenShift 人工智能插件的更新流程。