IBM Cloud Docs
Migrar a un nuevo sistema operativo

Migrar a un nuevo sistema operativo

Clásico VPC

Complete los siguientes pasos para migrar sus nodos trabajadores a un nuevo sistema operativo.

A partir de la versión de clúster 4.18, Red Hat Enterprise Linux CoreOS (RHCOS) es el sistema operativo por defecto y los nodos de trabajo RHEL quedan obsoletos en esta versión. La compatibilidad con los nodos de trabajo RHEL finaliza con el lanzamiento de la versión 4.21. Migre sus clústeres para utilizar nodos trabajadores RHCOS lo antes posible.

Calendario de eliminación de RHEL
Objetivo Descripción
4.18 liberación: 23 de mayo de 2025 A partir de la versión de clúster 4.18, Red Hat Enterprise Linux CoreOS (RHCOS) es el sistema operativo por defecto y los nodos de trabajo RHEL quedan obsoletos en esta versión. Los trabajadores RHEL siguen estando disponibles en la versión 4.18 sólo para completar la migración a los trabajadores RHCOS.
4.21 liberar La versión de clúster 4.21 sólo admite nodos trabajadores RHCOS. Migre sus nodos trabajadores RHEL 9 a RHCOS antes de actualizar a la versión 4.21.

Los pasos para migrar a RHCOS varían en función del caso de uso. Revise los siguientes enlaces para ver los pasos que se aplican a su caso de uso.

Migración de nodos trabajadores a RHCOS
Siga estos pasos para la mayoría de los casos.
Migración de nodos trabajadores GPU a RHCOS
Si dispone de nodos trabajadores GPU, siga estos pasos para migrar a RHCOS.

¿Busca pasos para Terraform? Para obtener más información, consulte esta entrada de blog sobre los pasos para migrar a RHCOS mediante Terraform.

Migración de nodos trabajadores a RHCOS

Complete los siguientes pasos para migrar sus nodos trabajadores a RHCOS.

Para migrar a RHCOS, debe aprovisionar un nuevo grupo de trabajadores y, a continuación, eliminar el grupo de trabajadores RHEL anterior. El nuevo grupo de trabajadores debe residir en la misma zona que el grupo de trabajadores anterior.

Paso 1: Actualice su clúster maestro

Ejecute el siguiente comando para actualizar el maestro.

ibmcloud ks cluster master update --cluster <clusterNameOrID> --version 4.18_openshift

Paso 2: Creación de un nuevo grupo de trabajadores RHCOS

  • Asegúrese de especificar RHCOS como --operating-system del nuevo grupo.
  • Asegúrese de que el número de nodos especificado con la opción --size-per-zone coincide con el número de trabajadores por zona para el grupo de trabajadores RHEL. Para listar las zonas de un pool de trabajadores y el número de trabajadores por zona, ejecute ibmcloud oc worker-pool get --worker-pool WORKER_POOL --cluster CLUSTER.
  • Asegúrese de incluir la opción --entitlement ocp_entitled si tiene derecho a Cloud Pak.
  1. Ejecute el comando ibmcloud oc worker-pool create para crear un nuevo grupo de trabajadores.

    VPC: Comando de ejemplo para crear un grupo de trabajadores RHCOS. Para obtener más información sobre el comando worker pool create vpc-gen2, consulte la referencia de la CLI para obtener detalles sobre el comando. Añadir nodos trabajadores en clusters VPC.

    ibmcloud oc worker-pool create vpc-gen2 --name <worker_pool_name> --cluster <cluster_name_or_ID> --flavor <flavor> --size-per-zone <number_of_workers_per_zone> --operating-system RHCOS [--entitlement ocp_entitled]
    

    Satellite: Ejemplo de comando para crear un grupo de trabajadores RHCOS. Tenga en cuenta que para los clústeres de Satellite, primero debe adjuntar hosts a su ubicación antes de poder crear un grupo de trabajadores.

    ibmcloud oc worker-pool create satellite --cluster CLUSTER --host-label "os=RHCOS" --name NAME --size-per-zone SIZE --operating-system RHCOS --zone ZONE [--label LABEL]
    
  2. Compruebe que se ha creado el pool de trabajadores y anote el ID del pool de trabajadores.

    ibmcloud oc worker-pool ls --cluster <cluster_name_or_ID>
    

    Salida de ejemplo

    Name            ID                              Flavor                 OS              Workers
    my_workerpool   aaaaa1a11a1aa1aaaaa111aa11      b3c.4x16.encrypted     REDHAT_8_64    0
    
  3. Añade una o varias zonas a tu pool de trabajadores. Cuando añada una zona, se añadirá a la zona el número de nodos trabajadores que haya especificado con la opción --size-per-zone. Estos nodos trabajadores ejecutan el sistema operativo RHCOS. Se recomienda que las zonas que añada al grupo de trabajadores de RHCOS coincidan con las zonas añadidas al grupo de trabajadores de RHEL que está sustituyendo. Para ver las zonas adjuntas a una agrupación de trabajadores, ejecute ibmcloud oc worker-pool zones --worker-pool WORKER_POOL --cluster CLUSTER. Si añade zonas que no coinciden con las del grupo de trabajadores de RHEL, asegúrese de que sus cargas de trabajo no se verán afectadas al moverlas a una zona nueva. Tenga en cuenta que el almacenamiento de archivos o bloques no es compatible entre zonas.

Paso 3: Añada nodos trabajadores a su grupo de trabajadores RHCOS

Consulte Adición de una zona a un grupo de trabajadores en un clúster VPC.

Paso 4: Migre sus cargas de trabajo

Si dispone de soluciones de almacenamiento definido por software (SDS) como OpenShift Data Foundation o Portworx, actualice sus configuraciones de almacenamiento para incluir los nuevos nodos trabajadores y verifique sus cargas de trabajo antes de retirar sus nodos trabajadores RHEL.

Para obtener más información sobre la reprogramación de cargas de trabajo, consulte Safely Drain a Node en los documentos Kubernetes o Understanding how to evacuate pods on nodes en los documentos Red Hat OpenShift.

  • Migrar por pod acordonando el nodo y eliminando pods individuales.

    oc adm cordon no/<nodeName>
    oc delete po -n <namespace> <podName>
    
  • Migrar por Node drenando nodos. Para obtener más información, consulte Drenaje seguro de un nodo.

  • Migre por grupo de trabajadores borrando todo su grupo de trabajadores RHEL.

    ibmcloud ks worker-pool rm --cluster <clusterNameOrID> --worker-pool <workerPoolNameOrID>
    

Paso 5: Eliminar los nodos trabajadores RHEL

Elimine el grupo de trabajadores que contiene los trabajadores RHEL.

Considere reducir su grupo de trabajadores RHEL y mantenerlo durante varios días antes de eliminarlo. De este modo, podrá volver a ampliar fácilmente el grupo de trabajadores si su carga de trabajo experimenta interrupciones durante el proceso de migración. Cuando haya determinado que su carga de trabajo es estable y funciona con normalidad, puede eliminar con seguridad el grupo de trabajadores de RHEL.

  1. Enumere sus pools de trabajo y anote el nombre del pool de trabajo que desea eliminar.
    ibmcloud oc worker-pool ls --cluster CLUSTER
    
  2. Ejecute el comando para eliminar el grupo de trabajadores.
    ibmcloud oc worker-pool rm --worker-pool WORKER_POOL --cluster CLUSTER
    

Paso opcional 5: Desinstalar y volver a instalar el plug-in Object Storage

Si utiliza el complemento COS en su clúster, después de migrar de RHEL a RHCOS, deberá desinstalarlo y volver a instalarlo porque la ruta kube-driver es diferente entre los dos sistemas operativos. Si no lo hace, es posible que aparezca un error similar a Error: failed to mkdir /usr/libexec/kubernetes: mkdir /usr/libexec/kubernetes: read-only file system.

Migración de recursos de GPU de NVIDIA a nodos de trabajo RHCOS

Revise los siguientes pasos sobre cómo migrar sus recursos de operador de GPU de NVIDIA de los nodos trabajadores de GPU de RHEL 8 a los nodos trabajadores de RHCOS.

El operador GPU NVIDIA consta de los siguientes recursos:

  • gpu-feature-discovery
  • nvidia-container-toolkit-daemonset
  • nvidia-cuda-validator
  • nvidia-dcgm
  • nvidia-dcgm-exporter
  • nvidia-device-plugin-daemonset
  • nvidia-driver-daemonset
  • nvidia-node-status-exporter
  • nvidia-operator-validator

El principal componente de interés es nvidia-driver-daemonset. Este componente se encarga de instalar el controlador de la GPU en el nodo trabajador de la GPU. Estos controladores se instalan de forma diferente cuando se trata de nodos trabajadores RHEL 8 y RHCOS.

Declaración oficial del operador de GPU NVIDIA: Todos los nodos trabajadores o grupos de nodos para ejecutar cargas de trabajo de GPU en el clúster Kubernetes deben ejecutar la misma versión del sistema operativo para utilizar el contenedor NVIDIA GPU Driver. Como alternativa, si preinstala el controlador de GPU NVIDIA en los nodos, podrá ejecutar diferentes sistemas operativos. Para obtener más información, consulte Instalación del operador de GPU NVIDIA.

El operador de GPU de NVIDIA no es capaz de gestionar simultáneamente instalaciones de controladores en diferentes sistemas operativos de nodos trabajadores. Esta limitación significa que si la instalación del controlador de la GPU es gestionada únicamente por el operador de la GPU NVIDIA, será necesario realizar una migración completa de la instalación del controlador cuando se cambie el sistema operativo del nodo trabajador.

  • Migración de una versión Red Hat OpenShift on IBM Cloud 4.17 en VPC con nodos trabajadores RHEL 8 a la versión 4.18 con nodos trabajadores RHCOS.
  • La versión 4.17 no es compatible con los nodos trabajadores RHCOS.
  • La versión 4.17 es compatible con RHEL 8 y RHEL 9 (se aplican exclusiones).
  • La versión 4.18 no es compatible con los nodos trabajadores de RHEL 8.
  • Versión compatible únicamente con RHCOS y RHEL 9.
  • NVIDIA El operador de GPU no es compatible con el sistema operativo RHEL 9.

Realice los siguientes pasos para migrar las instalaciones de controladores de operadores de GPU NVIDIA de RHEL 8 a los nodos trabajadores RHCOS. Este ejemplo describe específicamente los pasos de migración para la siguiente configuración de clúster:

Detalles del entorno inicial

  • Red Hat OpenShift on IBM Cloud 4.17 Clúster VPC
  • Nodos de trabajo de RHEL 8 que utilizan versiones de GPU de NVIDIA
  • NVIDIA Operador de GPU instalado
  • NVIDIA Operador de GPU ClusterPolicy instalado
  • Operador, ClusterPolicy, y operandos listos
  1. Obtenga los detalles de la nvidia-gpu-operator.
    oc get po -n nvidia-gpu-operator -o wide
    
    Salida de ejemplo
    NAME                                       READY   STATUS      RESTARTS   AGE     IP               NODE          NOMINATED NODE   READINESS GATES
    gpu-feature-discovery-ng7zn                1/1     Running     0          6m6s    172.23.145.152   10.240.0.15   <none>           <none>
    gpu-operator-678b489684-7zgkq              1/1     Running     0          45h     172.23.145.135   10.240.0.15   <none>           <none>
    nvidia-container-toolkit-daemonset-j4dzs   1/1     Running     0          6m6s    172.23.145.143   10.240.0.15   <none>           <none>
    nvidia-cuda-validator-l44mz                0/1     Completed   0          2m28s   172.23.145.236   10.240.0.15   <none>           <none>
    nvidia-dcgm-7sfvn                          1/1     Running     0          6m7s    172.23.145.180   10.240.0.15   <none>           <none>
    nvidia-dcgm-exporter-s5k48                 1/1     Running     0          6m6s    172.23.145.172   10.240.0.15   <none>           <none>
    nvidia-device-plugin-daemonset-xhds2       1/1     Running     0          6m6s    172.23.145.191   10.240.0.15   <none>           <none>
    nvidia-driver-daemonset-mjqls              1/1     Running     0          7m1s    172.23.145.145   10.240.0.15   <none>           <none>
    nvidia-node-status-exporter-5kvs4          1/1     Running     0          7m16s   172.23.145.235   10.240.0.15   <none>           <none>
    nvidia-operator-validator-pz7wm            1/1     Running     0          6m7s    172.23.145.153   10.240.0.15   <none>           <none>
    
  2. Obtenga los datos de gpu-cluster-policy y asegúrese de que es ready.
    oc get clusterpolicies.nvidia.com gpu-cluster-policy
    
    Salida de ejemplo
    NAME                 STATUS   AGE
    gpu-cluster-policy   ready    2025-03-07T03:07:00Z
    

Paso 1: Actualizar el clúster maestro

Ejecute el siguiente comando para actualizar el maestro.

ibmcloud oc cluster master update --cluster <clusterNameOrID> --version 4.18_openshift

En este punto, no actualice los nodos de los trabajadores a 4.18. Por ahora, mantenga sus trabajadores RHEL 8 en 4.17.

Paso 2: Crear un grupo de trabajadores de clúster RHCOS

  1. Ejecute el siguiente comando para crear un grupo de trabajadores RHCOS.

    ibmcloud oc worker-pool create vpc-gen2 \
        --cluster <clusterNameOrID> \
        --name <workerPoolName> \
        --flavor <workerNodeFlavor> \
        --size-per-zone <sizePerZoneCount> \
        --operating-system RHCOS
    

No añadas zonas a este grupo de trabajadores RHCOS. No debería haber trabajadores en esta reserva de trabajadores.

Paso 3: Añadir etiquetas de grupo de trabajadores al grupo de trabajadores RHCOS

Añada las siguientes etiquetas a su grupo de trabajadores RHCOS.

La adición de etiquetas al pool de trabajadores permite que las etiquetas de los nodos existan antes de que los nodos trabajadores estén disponibles para el cluster. Esto garantiza que los recursos de GPU de NVIDIA no se programen automáticamente desde el principio. Si los recursos de GPU NVIDA se programan en nodos trabajadores en los que no se pueden instalar los controladores, se degradará el estado del recurso ClusterPolicy. Los controladores aún no pueden instalarse en los nodos trabajadores RHCOS porque el operador de GPU NVIDIA está configurado para utilizar el método de instalación de RHEL 8.

Ejecute el siguiente comando para añadir etiquetas a su pool de trabajadores.

ibmcloud oc worker-pool label set \
    --cluster <clusterNameOrID> \
    --worker-pool <workerPoolNameOrID> \
    --label nvidia.com/gpu.deploy.operands=false \
    --label nvidia.com/gpu.deploy.driver=false

Paso 4: Añadir nodos trabajadores RHCOS al clúster

Añada capacidad a su clúster para permitir la migración de cargas de trabajo. La adición de zonas a la reserva de trabajadores hace que los nodos de trabajadores comiencen el aprovisionamiento y se unan al clúster. Tenga en cuenta que los recursos de GPU de NVIDIA aún no se han desplegado en los nodos trabajadores de RHCOS.

ibmcloud oc zone add vpc-gen2 \
    --cluster <clusterNameOrID> \
    --worker-pool <workerPoolNameOrID> \
    --subnet-id <vpcSubnetID> \
    --zone <vpcZone>

En este punto, los nodos trabajadores RHCOS están disponibles en el clúster para comenzar la migración.

Paso 5: Cambie el instalador del controlador en los nodos trabajadores de RHEL 8 a no gestionado

Añada la etiqueta nvidia.com/gpu.deploy.driver=false a sus nodos trabajadores RHEL 8. Esta etiqueta desprograma los pods instaladores de controladores existentes de los trabajadores de RHEL 8. El controlador no debe desinstalarse. Otros operandos, incluidos los complementos de dispositivo, permanecen en los trabajadores de RHEL 8. El estado ClusterPolicy permanece listo. Dado que el controlador sigue instalado y el complemento de dispositivo se está ejecutando, las cargas de trabajo de la GPU siguen siendo funcionales.

  1. Añada nvidia.com/gpu.deploy.driver=false a los nodos trabajadores de RHEL 8.

    Para etiquetar un nodo trabajador individual:

    oc label nodes <nodeName> "nvidia.com/gpu.deploy.driver=false"
    

    Para etiquetar todo un pool de trabajadores:

    ibmcloud oc worker-pool label set \
        --cluster <clusterNameOrID> \
        --worker-pool <workerPoolNameOrID> \
        --label nvidia.com/gpu.deploy.driver=false
    
  2. Enumere las vainas para confirmar las etiquetas.

    oc get po -n nvidia-gpu-operator -o wide
    

    Salida de ejemplo

    NAME                                       READY   STATUS        RESTARTS   AGE     IP               NODE          NOMINATED NODE   READINESS GATES
    gpu-feature-discovery-ng7zn                1/1     Running       0          4h27m   172.23.145.152   10.240.0.15   <none>           <none>
    gpu-operator-678b489684-7zgkq              1/1     Running       0          2d2h    172.23.145.135   10.240.0.15   <none>           <none>
    nvidia-container-toolkit-daemonset-j4dzs   1/1     Running       0          4h27m   172.23.145.143   10.240.0.15   <none>           <none>
    nvidia-cuda-validator-l44mz                0/1     Completed     0          4h24m   172.23.145.236   10.240.0.15   <none>           <none>
    nvidia-dcgm-7sfvn                          1/1     Running       0          4h27m   172.23.145.180   10.240.0.15   <none>           <none>
    nvidia-dcgm-exporter-s5k48                 1/1     Running       0          4h27m   172.23.145.172   10.240.0.15   <none>           <none>
    nvidia-device-plugin-daemonset-xhds2       1/1     Running       0          4h27m   172.23.145.191   10.240.0.15   <none>           <none>
    nvidia-driver-daemonset-mjqls              1/1     Terminating   0          4h28m   172.23.145.145   10.240.0.15   <none>           <none>
    nvidia-node-status-exporter-5kvs4          1/1     Running       0          4h28m   172.23.145.235   10.240.0.15   <none>           <none>
    nvidia-operator-validator-pz7wm            1/1     Running       0          4h27m   172.23.145.153   10.240.0.15   <none>           <none>
    
  3. Confirme que gpu-cluster-policy es ready.

    oc get clusterpolicies.nvidia.com gpu-cluster-policy
    

    Salida de ejemplo

    NAME                 STATUS   AGE
    gpu-cluster-policy   ready    2025-03-07T03:07:00Z
    

Paso 6: Programar el instalador de controladores y otros operandos para los nodos trabajadores RHCOS

Añade nvidia.com/gpu.deploy.driver=true y nvidia.com/gpu.deploy.operands=true a tus trabajadores RHCOS.

Al añadir estas etiquetas se intenta programar el instalador del controlador, el plug-in del dispositivo y otros operandos a los nodos trabajadores RHCOS. La mayoría de las cápsulas se encuentran en el estado init debido a un fallo del instalador de controladores. El instalador del controlador falla porque está intentando instalar el controlador utilizando el método RHEL 8.

Ejecute el comando label nodes para añadir etiquetas.

Para etiquetar un nodo trabajador individual:

oc label nodes <nodeName> "nvidia.com/gpu.deploy.driver=true"
oc label nodes <nodeName> "nvidia.com/gpu.deploy.operands=true"

Para etiquetar todo un pool de trabajadores:

ibmcloud oc worker-pool label set \
    --cluster <clusterNameOrID> \
    --worker-pool <workerPoolNameOrID> \
    --label nvidia.com/gpu.deploy.driver=true

Después de añadir las etiquetas, continúe con el siguiente paso.

Paso 7: Convertir el instalador de controladores de RHEL 8 al método de instalación RHCOS

Borrar nvidia-driver-installer DaemonSet. Este DaemonSet es específico de RHEL 8 y ya no es necesario. El operador GPU reconcilia y detecta que un nodo trabajador RHCOS está presente en el cluster. El operador de GPU vuelve a crear el instalador de controladores DaemonSet, pero ahora con el método de instalación RHCOS basado en OpenShift Driver Toolkit.

  1. Borrar nvidia-driver-installer DaemonSet. Después de borrar DaemonSet, no añada ni recargue ninguno de los GPU workers de RHEL 8.

    oc delete daemonset -n nvidia-gpu-operator nvidia-driver-installer
    
  2. Enumere los pods y confirme que el controlador de GPU está instalado en los nodos trabajadores RHCOS y que el resto de operandos son ready.

    oc get po -n nvidia-gpu-operator -o wide
    

    Salida de ejemplo

    NAME                                                  READY   STATUS      RESTARTS      AGE     IP               NODE                                                     NOMINATED NODE   READINESS GATES
    gpu-feature-discovery-h4bhx                           1/1     Running     0             18m     172.23.137.119   test-coajphf20ooqeeg7u9dg-btsstagevpc-gx316x8-000239a8   <none>           <none>
    gpu-feature-discovery-ng7zn                           1/1     Running     0             4h58m   172.23.145.152   10.240.0.15                                              <none>           <none>
    gpu-operator-678b489684-7zgkq                         1/1     Running     0             2d2h    172.23.145.135   10.240.0.15                                              <none>           <none>
    nvidia-container-toolkit-daemonset-79j86              1/1     Running     0             18m     172.23.137.115   test-coajphf20ooqeeg7u9dg-btsstagevpc-gx316x8-000239a8   <none>           <none>
    nvidia-container-toolkit-daemonset-j4dzs              1/1     Running     0             4h58m   172.23.145.143   10.240.0.15                                              <none>           <none>
    nvidia-cuda-validator-l44mz                           0/1     Completed   0             4h55m   172.23.145.236   10.240.0.15                                              <none>           <none>
    nvidia-cuda-validator-xgscz                           0/1     Completed   0             15m     172.23.137.121   test-coajphf20ooqeeg7u9dg-btsstagevpc-gx316x8-000239a8   <none>           <none>
    nvidia-dcgm-7sfvn                                     1/1     Running     0             4h58m   172.23.145.180   10.240.0.15                                              <none>           <none>
    nvidia-dcgm-9rpnz                                     1/1     Running     0             18m     172.23.137.117   test-coajphf20ooqeeg7u9dg-btsstagevpc-gx316x8-000239a8   <none>           <none>
    nvidia-dcgm-exporter-s5k48                            1/1     Running     0             4h58m   172.23.145.172   10.240.0.15                                              <none>           <none>
    nvidia-dcgm-exporter-x8vlc                            1/1     Running     2 (14m ago)   18m     172.23.137.116   test-coajphf20ooqeeg7u9dg-btsstagevpc-gx316x8-000239a8   <none>           <none>
    nvidia-device-plugin-daemonset-7g5hz                  1/1     Running     0             18m     172.23.137.120   test-coajphf20ooqeeg7u9dg-btsstagevpc-gx316x8-000239a8   <none>           <none>
    nvidia-device-plugin-daemonset-xhds2                  1/1     Running     0             4h58m   172.23.145.191   10.240.0.15                                              <none>           <none>
    nvidia-driver-daemonset-416.94.202502260030-0-dkcmh   2/2     Running     0             19m     172.23.137.107   test-coajphf20ooqeeg7u9dg-btsstagevpc-gx316x8-000239a8   <none>           <none>
    nvidia-node-status-exporter-5kvs4                     1/1     Running     0             5h      172.23.145.235   10.240.0.15                                              <none>           <none>
    nvidia-node-status-exporter-94v9f                     1/1     Running     0             19m     172.23.137.110   test-coajphf20ooqeeg7u9dg-btsstagevpc-gx316x8-000239a8   <none>           <none>
    nvidia-operator-validator-4wk6z                       1/1     Running     0             18m     172.23.137.118   test-coajphf20ooqeeg7u9dg-btsstagevpc-gx316x8-000239a8   <none>           <none>
    nvidia-operator-validator-pz7wm                       1/1     Running     0             4h58m   172.23.145.153   10.240.0.15                                              <none>           <none>
    
  3. Confirme que gpu-cluster-policy está listo.

    oc get clusterpolicies.nvidia.com gpu-cluster-policy
    

    Salida de ejemplo

    NAME                 STATUS   AGE
    gpu-cluster-policy   ready    2025-03-07T03:07:00Z
    
  4. Describe tus nodos y confirma las GPUs asignables.

    oc describe no
    

    Salida de ejemplo

    ...
    Capacity:
    nvidia.com/gpu:     1
    ...
    Allocatable:
    nvidia.com/gpu:     1
    

Paso 8: Migración de cargas de trabajo dependientes de la GPU a los nodos de trabajo RHCOS

Ahora que los nodos trabajadores RHCOS GPU tienen el controlador GPU instalado y están listos para la programación, migre las cargas de trabajo dependientes de la GPU a los nodos trabajadores RHCOS.

  • Migrar por pod acordonando el nodo y eliminando pods individuales.

    oc adm cordon no/<nodeName>
    oc delete po -n <namespace> <podName>
    
  • Migrar por Node drenando nodos. Para obtener más información, consulte Drenaje seguro de un nodo.

  • Migre por grupo de trabajadores borrando todo su grupo de trabajadores RHEL.

    ibmcloud oc worker-pool rm --cluster <clusterNameOrID> --worker-pool <workerPoolNameOrID>
    

Paso 9: Eliminar etiquetas de su grupo de trabajadores RHCOS

Elimine las etiquetas de grupo de trabajadores que añadió en un paso anterior. Esta eliminación garantiza que los nuevos nodos de trabajo RHCOS aprovisionados posteriormente no tengan estas etiquetas y que los componentes de GPU de NVIDIA se instalen automáticamente.

Paso 10: Reducir o eliminar el grupo de trabajadores de RHEL 8

En este punto, la migración del controlador GPU NVIDIA ha finalizado. Puede reducir o eliminar sus grupos de trabajadores RHEL.

ibmcloud oc worker-pool rm --cluster <clusterNameOrID> --worker-pool <workerPoolNameOrID>

Migración a Red Hat Enterprise Linux 9

Para RHEL 9, el directorio ' /tmp ' es una partición separada que tiene configuradas las opciones ' nosuid, ' noexec y ' nodev. Si tus aplicaciones se instalan y ejecutan scripts o binarios en el directorio ' /tmp ', pueden fallar. Actualiza tus aplicaciones para que utilicen el directorio ' /var/tmp ' en lugar del directorio ' /tmp ' para ejecutar scripts o binarios temporales.

La implementación por defecto de cgroup es cgroup v2. En RHEL 9, cgroup v1 no está soportado. Revise la documentación de migración de Kubernetes para cgroup v2 y verifique que sus aplicaciones sean totalmente compatibles con cgroup v2. Se conocen problemas con versiones anteriores de Java que pueden causar problemas de memoria insuficiente (OOM) para las cargas de trabajo.

  1. Revise los sistemas operativos de su pool de trabajadores para saber qué pools necesita migrar.

    ibmcloud ks worker-pools -c CLUSTER
    
  2. Especifique la versión RHEL_9_64 para el grupo de trabajadores.

    ibmcloud oc worker-pool operating-system set --cluster CLUSTER --worker-pool POOL --operating-system RHEL_9_64
    
  3. Actualiza cada nodo trabajador del pool de trabajadores ejecutando el comando ibmcloud oc worker update para clusters Classic o ibmcloud oc worker replace para clusters VPC.

    Asegúrese de que dispone de suficientes nodos trabajadores para soportar su carga de trabajo mientras actualiza o sustituye los nodos trabajadores pertinentes. Para más información, consulte Actualización de los nodos trabajadores de la VPC o Actualización de los nodos trabajadores clásicos.

    Ejemplo de comando para actualizar los nodos trabajadores Classic.

    ibmcloud oc worker update --cluster CLUSTER --worker WORKER1_ID [--worker WORKER2_ID]
    

    Ejemplo de comando para reemplazar nodos trabajadores de VPC.

    ibmcloud oc worker replace --cluster CLUSTER --worker WORKER_ID
    
  4. Obtenga los datos de su pool de trabajadores y de sus trabajadores. En la salida, verifique que sus nodos trabajadores ejecutan el RHEL_9_64 sistema operativo.

    Obtenga los datos de un pool de trabajadores.

    ibmcloud oc worker-pools -c CLUSTER
    

    Obtenga los detalles de un nodo trabajador.

    ibmcloud oc worker get --cluster CLUSTER --worker WORKER_NODE_ID