IBM Cloud Docs
新しいオペレーティング・システムへの移行

新しいオペレーティング・システムへの移行

クラシック VPC

ワーカーノードを新しいオペレーティングシステムに移行するには、以下の手順を実行します。

クラスタバージョン 4.18 以降、 Red Hat Enterprise Linux CoreOS (RHCOS) がデフォルトのオペレーティングシステムとなり、このバージョンでは RHEL ワーカーノードは非推奨となります。 RHEL ワーカーノードのサポートは、バージョン 4.21 のリリースをもって終了します。 できるだけ早くRHCOSワーカーノードを使用するようにクラスタを移行してください。

RHEL非推奨スケジュール
マイルストーン 説明
4.18 をリリースした: 23 2025年5月 クラスタバージョン 4.18 以降、 Red Hat Enterprise Linux CoreOS (RHCOS) がデフォルトのオペレーティングシステムとなり、このバージョンでは RHEL ワーカーノードは非推奨となります。 RHELワーカーは、RHOCSワーカーへの移行を完了するためにのみ、バージョン 4.18。
4.21 リリース クラスタバージョン 4.21 は、RHCOSワーカーノードのみをサポートしています。 バージョン 4.21 にアップデートする前に、RHEL 9 ワーカーノードを RHCOS に移行してください。

RHCOSへの移行手順は、ユースケースによって異なります。 以下のリンクで、あなたのユースケースに当てはまる手順を確認してください。

ワーカーノードのRHCOSへの移行
ほとんどの場合、以下の手順に従ってください。
GPUワーカーノードのRHCOSへの移行
GPUワーカーノードがある場合は、以下の手順に従ってRHCOSに移行してください。

Terraformのステップをお探しですか? 詳しくは、Terraformを使ったRHCOSへの移行手順についてはこちらのブログ記事を参照。 未定リンク

ワーカーノードのRHCOSへの移行

ワーカーノードをRHCOSに移行するには、以下の手順を実行します。

RHCOSに移行するには、新しいワーカープールをプロビジョニングしてから、以前のRHELワーカープールを削除する必要があります。 新しいワーカープールは、前のワーカープールと同じゾーンに存在しなければならない。

ステップ 1: クラスタ・マスターのアップグレード

以下のコマンドを実行してマスターを更新する。

ibmcloud ks cluster master update --cluster <clusterNameOrID> --version 4.18_openshift

ステップ2:新しいRHCOSワーカープールの作成

  • 新しいプールの --operating-system として RHCOS を必ず指定すること。
  • --size-per-zone オプションで指定したノードの数が、RHEL ワーカー プールのゾーンごとのワーカー数と一致していることを確認する。 ワーカー・プールのゾーンと、ゾーンごとのワーカー数をリストアップするには、 ibmcloud oc worker-pool get --worker-pool WORKER_POOL --cluster CLUSTER を実行する。
  • Cloud Pak の権利がある場合は、 --entitlement ocp_entitled オプションを必ず含めること。
  1. ibmcloud oc worker-pool create コマンドを実行して、新しいワーカー・プールを作成する。

    クラシック :RHCOSワーカープールを作成するコマンド例。 worker pool create classic コマンドの詳細については、 CLIリファレンスを 参照してください。 ワーカー・プールの作成とワーカー・ノードの追加の詳細については、 クラシック・クラスタでのワーカー・ノードの追加を 参照してください。

    ibmcloud oc worker-pool create classic --name <worker_pool_name> --cluster <cluster_name_or_ID> --flavor <flavor> --size-per-zone <number_of_workers_per_zone> --operating-system RHCOS [--entitlement ocp_entitled]
    

    VPC :RHCOSワーカープールを作成するコマンド例。 worker pool create vpc-gen2 、コマンドの詳細については CLIリファレンスを 参照してください。 VPCクラスタにワーカーノードを追加する

    ibmcloud oc worker-pool create vpc-gen2 --name <worker_pool_name> --cluster <cluster_name_or_ID> --flavor <flavor> --size-per-zone <number_of_workers_per_zone> --operating-system RHCOS [--entitlement ocp_entitled]
    

    Satellite:RHCOSワーカープールを作成するコマンド例。 Satellite クラスタの場合、ワーカープールを作成する前に、まず ロケーションにホストをアタッチする 必要があることに注意してください。

    ibmcloud oc worker-pool create satellite --cluster CLUSTER --host-label "os=RHCOS" --name NAME --size-per-zone SIZE --operating-system RHCOS --zone ZONE [--label LABEL]
    
  2. ワーカー・プールが作成されていることを確認し、ワーカー・プールIDをメモする。

    ibmcloud oc worker-pool ls --cluster <cluster_name_or_ID>
    

    出力例

    Name            ID                              Flavor                 OS              Workers
    my_workerpool   aaaaa1a11a1aa1aaaaa111aa11      b3c.4x16.encrypted     REDHAT_8_64    0
    
  3. ワーカープールに1つ以上のゾーンを追加します。 ゾーンを追加すると、 --size-per-zone オプションで指定した数のワーカーノードがゾーンに追加される。 これらのワーカーノードはRHCOSオペレーティングシステムを実行する。 RHCOSワーカープールに追加するゾーンは、置き換えるRHELワーカープールに追加するゾーンと一致させることを推奨します。 ワーカープールに接続されたゾーンを表示するには、 ibmcloud oc worker-pool zones --worker-pool WORKER_POOL --cluster CLUSTER を実行します。 RHELワーカープールのゾーンと一致しないゾーンを追加する場合は、ワークロードを新しいゾーンに移動しても影響がないことを確認してください。 ファイルやブロックストレージはゾーンをまたいでサポートされていないことに注意。

ステップ3:RHCOSワーカープールにワーカーノードを追加する

ステップ4:ワークロードの移行

OpenShift Data Foundation や Portworx のようなソフトウェア定義ストレージ(SDS)ソリューションを使用している場合は、RHEL ワーカーノードを削除する前に、新しいワーカーノードを含むようにストレージ構成を更新し、ワークロードを検証してください。

ワークロードの再スケジューリングの詳細については、 Kubernetes ドキュメントの Safely Drain a Node または Red Hat OpenShift ドキュメントの Understanding how to evacuate pods on nodes を参照してください。

  • ノードをコード化し、個々のポッドを削除することで、ポッドごとに移行する。

    oc adm cordon no/<nodeName>
    oc delete po -n <namespace> <podName>
    
  • Node、ノードの水抜きによって移動する。 詳細については、 ノードの安全な排出を参照してください。

  • RHELワーカープール全体を削除して、ワーカープール単位で移行する。

    ibmcloud ks worker-pool rm --cluster <clusterNameOrID> --worker-pool <workerPoolNameOrID>
    

ステップ 5: RHEL ワーカーノードの削除

RHELワーカーを含むワーカープールを削除する。

RHELワーカープールをスケールダウンし、削除する前に数日間保持することを検討してください。 こうすることで、移行プロセス中にワークロードが中断された場合でも、ワーカープールを簡単にスケールアップすることができます。 ワークロードが安定し、正常に機能することが確認できたら、RHEL ワーカープールを安全に削除できます。

  1. ワーカープールをリストアップし、削除したいワーカープールの名前をメモする。
    ibmcloud oc worker-pool ls --cluster CLUSTER
    
  2. ワーカープールを削除するコマンドを実行する。
    ibmcloud oc worker-pool rm --worker-pool WORKER_POOL --cluster CLUSTER
    

NVIDIA GPUリソースのRHCOSワーカーノードへの移行

NVIDIA GPU オペレータリソースを RHEL 8 GPU ワーカーノードから RHCOS ワーカーノードに移行する方法について、以下の手順を確認してください。

NVIDIA GPUオペレーターは以下のリソースで構成されています:

  • gpu-feature-discovery
  • nvidia-container-toolkit-daemonset
  • nvidia-cuda-validator
  • nvidia-dcgm
  • nvidia-dcgm-exporter
  • nvidia-device-plugin-daemonset
  • nvidia-driver-daemonset
  • nvidia-node-status-exporter
  • nvidia-operator-validator

注目の主成分は nvidia-driver-daemonset。 このコンポーネントはGPUドライバをGPUワーカーノードにインストールする役割を果たします。 これらのドライバは、RHEL 8とRHCOSワーカーノードではインストール方法が異なります。

NVIDIA GPU オペレーターからの公式声明 : NVIDIA GPU Driver コンテナを使用するには、 Kubernetes クラスタ内で GPU ワークロードを実行するすべてのワーカーノードまたはノードグループが同じオペレーティングシステムバージョンを実行している必要があります。 あるいは、 NVIDIA GPU Driverをノードにプリインストールすれば、異なるオペレーティング・システムを実行することができます。 詳細については、 NVIDIA GPU オペレータのインストールを参照してください。

NVIDIA GPUオペレータは、異なるワーカー・ノードのオペレーティング・システム上のドライバのインストールを同時に管理することはできません。 この制限は、GPUドライバのインストールが NVIDIA GPUオペレータによってのみ管理されている場合、ワーカーノードのオペレーティングシステムを変更するときに、ドライバのインストールの完全な移行が必要であることを意味します。

  • RHEL 8ワーカーノードを持つVPC上の Red Hat OpenShift on IBM Cloud バージョン 4.17 を、RHCOSワーカーノードを持つバージョン 4.18 に移行する。
  • バージョン 4.17、RHCOSワーカーノードをサポートしていません。
  • バージョン 4.17 は RHEL 8 および RHEL 9 をサポートしています(除外規定あり)。
  • バージョン 4.18 は RHEL 8 ワーカーノードをサポートしていません。
  • このバージョンはRHCOSとRHEL 9のみをサポートしています。
  • NVIDIA GPUオペレーターはRHEL 9オペレーティングシステムをサポートしていません。

NVIDIA GPU オペレータ・ドライバのインストールを RHEL 8 から RHCOS ワーカー・ノードに移行するには、以下の手順を実行します。 この例では、特に以下のクラスタ構成の移行手順を説明します:

初期環境の詳細

  • Red Hat OpenShift on IBM Cloud 4.17 VPCクラスタ
  • NVIDIA GPUフレーバーを使用するRHEL 8ワーカーノード
  • NVIDIA GPUオペレーター設置
  • NVIDIA GPUオペレーターの ClusterPolicy
  • 演算子、 ClusterPolicy,、オペランド準備完了
  1. nvidia-gpu-operator
    oc get po -n nvidia-gpu-operator -o wide
    
    出力例
    NAME                                       READY   STATUS      RESTARTS   AGE     IP               NODE          NOMINATED NODE   READINESS GATES
    gpu-feature-discovery-ng7zn                1/1     Running     0          6m6s    172.23.145.152   10.240.0.15   <none>           <none>
    gpu-operator-678b489684-7zgkq              1/1     Running     0          45h     172.23.145.135   10.240.0.15   <none>           <none>
    nvidia-container-toolkit-daemonset-j4dzs   1/1     Running     0          6m6s    172.23.145.143   10.240.0.15   <none>           <none>
    nvidia-cuda-validator-l44mz                0/1     Completed   0          2m28s   172.23.145.236   10.240.0.15   <none>           <none>
    nvidia-dcgm-7sfvn                          1/1     Running     0          6m7s    172.23.145.180   10.240.0.15   <none>           <none>
    nvidia-dcgm-exporter-s5k48                 1/1     Running     0          6m6s    172.23.145.172   10.240.0.15   <none>           <none>
    nvidia-device-plugin-daemonset-xhds2       1/1     Running     0          6m6s    172.23.145.191   10.240.0.15   <none>           <none>
    nvidia-driver-daemonset-mjqls              1/1     Running     0          7m1s    172.23.145.145   10.240.0.15   <none>           <none>
    nvidia-node-status-exporter-5kvs4          1/1     Running     0          7m16s   172.23.145.235   10.240.0.15   <none>           <none>
    nvidia-operator-validator-pz7wm            1/1     Running     0          6m7s    172.23.145.153   10.240.0.15   <none>           <none>
    
  2. gpu-cluster-policy の詳細を入手し、それが ready であることを確認する。
    oc get clusterpolicies.nvidia.com gpu-cluster-policy
    
    出力例
    NAME                 STATUS   AGE
    gpu-cluster-policy   ready    2025-03-07T03:07:00Z
    

ステップ1: クラスタ・マスターの更新

以下のコマンドを実行してマスターを更新する。

ibmcloud oc cluster master update --cluster <clusterNameOrID> --version 4.18_openshift

この時点では、作業者ノードを 4.18 にアップグレードする必要はない。 当面は、RHEL 8 のワーカーを 4.17 に置いておく。

ステップ 2: RHCOSクラスタ・ワーカー・プールの作成

  1. 以下のコマンドを実行して、RHCOSワーカー・プールを作成する。

    ibmcloud oc worker-pool create vpc-gen2 \
        --cluster <clusterNameOrID> \
        --name <workerPoolName> \
        --flavor <workerNodeFlavor> \
        --size-per-zone <sizePerZoneCount> \
        --operating-system RHCOS
    

このRHCOSワーカープールにゾーンを追加しないでください。 この労働者プールには労働者はいないはずだ。

ステップ3:RHCOSワーカープールにワーカープールラベルを追加する

RHCOSワーカープールに以下のラベルを追加する。

ワーカープールにラベルを追加することで、ワーカーノードがクラスタ化する前にノードラベルが存在するようになります。 これにより、 NVIDIA GPUリソースが最初から自動的にスケジューリングされることはありません。 ドライバをインストールできないワーカーノードでNVIDA GPUリソースがスケジュールされると、 ClusterPolicy リソースのステータスが低下します。 NVIDIA GPUオペレータがRHEL 8のインストール方法を使用するように設定されているため、ドライバはまだRHCOSワーカーノードにインストールできません。

以下のコマンドを実行して、ワーカー・プールにラベルを追加する。

ibmcloud oc worker-pool label set \
    --cluster <clusterNameOrID> \
    --worker-pool <workerPoolNameOrID> \
    --label nvidia.com/gpu.deploy.operands=false \
    --label nvidia.com/gpu.deploy.driver=false

ステップ4:RHCOSワーカーノードをクラスタに追加する

クラスタに容量を追加して、ワークロードの移行を可能にします。 ワーカープールにゾーンを追加すると、ワーカーノードがプロビジョニングを開始し、クラスタに参加します。 NVIDIA GPUリソースはまだRHCOSワーカーノードにデプロイされていないことに注意してください。

ibmcloud oc zone add vpc-gen2 \
    --cluster <clusterNameOrID> \
    --worker-pool <workerPoolNameOrID> \
    --subnet-id <vpcSubnetID> \
    --zone <vpcZone>

この時点で、RHCOSワーカーノードがクラスタ内で利用可能になり、移行を開始できる。

ステップ 5: RHEL 8 ワーカーノードのドライバーインストーラーをアンマネージドに変更する

nvidia.com/gpu.deploy.driver=false ラベルを RHEL 8 ワーカーノードに追加します。 このラベルは、RHEL 8 ワーカーから既存のドライバーインストーラーポッドのスケジューリングを解除する。 ドライバーはアンインストールされない。 デバイスプラグインを含む他のオペランドは、RHEL 8のワーカーに残っている。 ClusterPolicy の状態は準備完了のままである。 ドライバはインストールされたままであり、デバイスプラグインも実行されているため、GPUワークロードは機能し続けます。

  1. nvidia.com/gpu.deploy.driver=false を RHEL 8 ワーカーノードに追加する。

    個々のワーカーノードにラベルを付ける:

    oc label nodes <nodeName> "nvidia.com/gpu.deploy.driver=false"
    

    ワーカープール全体にラベルを付ける:

    ibmcloud oc worker-pool label set \
        --cluster <clusterNameOrID> \
        --worker-pool <workerPoolNameOrID> \
        --label nvidia.com/gpu.deploy.driver=false
    
  2. ポッドをリストアップしてラベルを確認する。

    oc get po -n nvidia-gpu-operator -o wide
    

    出力例

    NAME                                       READY   STATUS        RESTARTS   AGE     IP               NODE          NOMINATED NODE   READINESS GATES
    gpu-feature-discovery-ng7zn                1/1     Running       0          4h27m   172.23.145.152   10.240.0.15   <none>           <none>
    gpu-operator-678b489684-7zgkq              1/1     Running       0          2d2h    172.23.145.135   10.240.0.15   <none>           <none>
    nvidia-container-toolkit-daemonset-j4dzs   1/1     Running       0          4h27m   172.23.145.143   10.240.0.15   <none>           <none>
    nvidia-cuda-validator-l44mz                0/1     Completed     0          4h24m   172.23.145.236   10.240.0.15   <none>           <none>
    nvidia-dcgm-7sfvn                          1/1     Running       0          4h27m   172.23.145.180   10.240.0.15   <none>           <none>
    nvidia-dcgm-exporter-s5k48                 1/1     Running       0          4h27m   172.23.145.172   10.240.0.15   <none>           <none>
    nvidia-device-plugin-daemonset-xhds2       1/1     Running       0          4h27m   172.23.145.191   10.240.0.15   <none>           <none>
    nvidia-driver-daemonset-mjqls              1/1     Terminating   0          4h28m   172.23.145.145   10.240.0.15   <none>           <none>
    nvidia-node-status-exporter-5kvs4          1/1     Running       0          4h28m   172.23.145.235   10.240.0.15   <none>           <none>
    nvidia-operator-validator-pz7wm            1/1     Running       0          4h27m   172.23.145.153   10.240.0.15   <none>           <none>
    
  3. gpu-cluster-policyready であることを確認する。

    oc get clusterpolicies.nvidia.com gpu-cluster-policy
    

    出力例

    NAME                 STATUS   AGE
    gpu-cluster-policy   ready    2025-03-07T03:07:00Z
    

ステップ6:ドライバインストーラとその他のオペランドをRHCOSワーカーノードにスケジュールする

nvidia.com/gpu.deploy.driver=truenvidia.com/gpu.deploy.operands=true を RHCOS ワーカーに追加する。

これらのラベルを追加することで、ドライバインストーラ、デバイ スプラグイン、その他のオペランドをRHCOSワーカーノードにスケ ジュールしようとする。 ドライバーのインストーラーが失敗したため、ほとんどのポッドが init。 RHEL 8の方法でドライバーをインストールしようとしているため、ドライバーのインストーラーが失敗しています。

label nodes コマンドを実行してラベルを追加する。

個々のワーカーノードにラベルを付ける:

oc label nodes <nodeName> "nvidia.com/gpu.deploy.driver=true"
oc label nodes <nodeName> "nvidia.com/gpu.deploy.operands=true"

ワーカープール全体にラベルを付ける:

ibmcloud oc worker-pool label set \
    --cluster <clusterNameOrID> \
    --worker-pool <workerPoolNameOrID> \
    --label nvidia.com/gpu.deploy.driver=true

ラベルを追加したら、次のステップに進む。

ステップ7:ドライバインストーラをRHEL 8からRHCOSインストール方法に変換する

削除 nvidia-driver-installer DaemonSet. この DaemonSet は RHEL 8 固有のもので、もはや必要ない。 GPUオペレータは、クラスタ内にRHCOSワーカーノードが存在することを照合して検出します。 GPU オペレータはドライバインストーラ DaemonSet, を再作成しますが、今度は OpenShift Driver Toolkit に基づく RHCOS インストール方法を使用します。

  1. 削除 nvidia-driver-installer DaemonSet. DaemonSet, を削除した後は、RHEL 8 GPU ワーカーを追加したり再ロードしたりしないでください。

    oc delete daemonset -n nvidia-gpu-operator nvidia-driver-installer
    
  2. ポッドをリストアップし、GPUドライバがRHCOSワーカーノードにインストールされていることを確認し、残りのオペランドは ready

    oc get po -n nvidia-gpu-operator -o wide
    

    出力例

    NAME                                                  READY   STATUS      RESTARTS      AGE     IP               NODE                                                     NOMINATED NODE   READINESS GATES
    gpu-feature-discovery-h4bhx                           1/1     Running     0             18m     172.23.137.119   test-coajphf20ooqeeg7u9dg-btsstagevpc-gx316x8-000239a8   <none>           <none>
    gpu-feature-discovery-ng7zn                           1/1     Running     0             4h58m   172.23.145.152   10.240.0.15                                              <none>           <none>
    gpu-operator-678b489684-7zgkq                         1/1     Running     0             2d2h    172.23.145.135   10.240.0.15                                              <none>           <none>
    nvidia-container-toolkit-daemonset-79j86              1/1     Running     0             18m     172.23.137.115   test-coajphf20ooqeeg7u9dg-btsstagevpc-gx316x8-000239a8   <none>           <none>
    nvidia-container-toolkit-daemonset-j4dzs              1/1     Running     0             4h58m   172.23.145.143   10.240.0.15                                              <none>           <none>
    nvidia-cuda-validator-l44mz                           0/1     Completed   0             4h55m   172.23.145.236   10.240.0.15                                              <none>           <none>
    nvidia-cuda-validator-xgscz                           0/1     Completed   0             15m     172.23.137.121   test-coajphf20ooqeeg7u9dg-btsstagevpc-gx316x8-000239a8   <none>           <none>
    nvidia-dcgm-7sfvn                                     1/1     Running     0             4h58m   172.23.145.180   10.240.0.15                                              <none>           <none>
    nvidia-dcgm-9rpnz                                     1/1     Running     0             18m     172.23.137.117   test-coajphf20ooqeeg7u9dg-btsstagevpc-gx316x8-000239a8   <none>           <none>
    nvidia-dcgm-exporter-s5k48                            1/1     Running     0             4h58m   172.23.145.172   10.240.0.15                                              <none>           <none>
    nvidia-dcgm-exporter-x8vlc                            1/1     Running     2 (14m ago)   18m     172.23.137.116   test-coajphf20ooqeeg7u9dg-btsstagevpc-gx316x8-000239a8   <none>           <none>
    nvidia-device-plugin-daemonset-7g5hz                  1/1     Running     0             18m     172.23.137.120   test-coajphf20ooqeeg7u9dg-btsstagevpc-gx316x8-000239a8   <none>           <none>
    nvidia-device-plugin-daemonset-xhds2                  1/1     Running     0             4h58m   172.23.145.191   10.240.0.15                                              <none>           <none>
    nvidia-driver-daemonset-416.94.202502260030-0-dkcmh   2/2     Running     0             19m     172.23.137.107   test-coajphf20ooqeeg7u9dg-btsstagevpc-gx316x8-000239a8   <none>           <none>
    nvidia-node-status-exporter-5kvs4                     1/1     Running     0             5h      172.23.145.235   10.240.0.15                                              <none>           <none>
    nvidia-node-status-exporter-94v9f                     1/1     Running     0             19m     172.23.137.110   test-coajphf20ooqeeg7u9dg-btsstagevpc-gx316x8-000239a8   <none>           <none>
    nvidia-operator-validator-4wk6z                       1/1     Running     0             18m     172.23.137.118   test-coajphf20ooqeeg7u9dg-btsstagevpc-gx316x8-000239a8   <none>           <none>
    nvidia-operator-validator-pz7wm                       1/1     Running     0             4h58m   172.23.145.153   10.240.0.15                                              <none>           <none>
    
  3. gpu-cluster-policy の準備ができたことを確認する。

    oc get clusterpolicies.nvidia.com gpu-cluster-policy
    

    出力例

    NAME                 STATUS   AGE
    gpu-cluster-policy   ready    2025-03-07T03:07:00Z
    
  4. ノードを記述し、割り当て可能なGPUを確認します。

    oc describe no
    

    出力例

    ...
    Capacity:
    nvidia.com/gpu:     1
    ...
    Allocatable:
    nvidia.com/gpu:     1
    

ステップ8:GPU依存のワークロードをRHCOSワーカーノードに移行する

RHCOS GPUワーカーノードにGPUドライバがインストールされ、スケジューリングの準備ができたので、GPU依存のワークロードをRHCOSワーカーノードに移行します。

  • ノードをコード化し、個々のポッドを削除することで、ポッドごとに移行する。

    oc adm cordon no/<nodeName>
    oc delete po -n <namespace> <podName>
    
  • Node、ノードの水抜きによって移動する。 詳細については、 ノードの安全な排出を参照してください。

  • RHELワーカープール全体を削除して、ワーカープール単位で移行する。

    ibmcloud oc worker-pool rm --cluster <clusterNameOrID> --worker-pool <workerPoolNameOrID>
    

ステップ 9: RHCOSワーカープールからラベルを削除する

前のステップで追加したワーカープールラベルを削除する。 この削除により、その後にプロビジョニングされる新しいRHCOSワーカーノードにはこれらのラベルが付かず、 NVIDIA GPUコンポーネントが自動的にインストールされるようになります。

ステップ 10:RHEL 8 ワーカープールの縮小または削除

この時点で、 NVIDIA GPUドライバーの移行は完了です。 RHELワーカープールを縮小したり、削除したりすることができます。

ibmcloud oc worker-pool rm --cluster <clusterNameOrID> --worker-pool <workerPoolNameOrID>

Red Hat Enterprise Linux 9への移行

RHEL 9の場合、'/tmp ディレクトリは、'nosuid、'noexec、'nodev オプションが設定された別のパーティションである。 アプリを「/tmp ディレクトリ以下にインストールし、スクリプトやバイナリを実行すると、失敗する可能性があります。 一時的なスクリプトやバイナリを実行するために、「/tmp ディレクトリの代わりに「/var/tmp ディレクトリを使用するようにアプリを更新する。

デフォルトの cgroup 実装は cgroup v2。 RHEL 9では、 cgroup v1。 Kubernetes 移住に関する書類 cgroup v2 を確認し、お客様のアプリケーションが cgroup v2 を完全にサポートしていることをご確認ください。 Java の旧バージョンには、ワークロードでメモリ不足(OOM)の問題を引き起こす可能性がある既知の問題があります。

  1. ワーカープールのオペレーティングシステムを確認し、移行が必要なプールを見つけます。

    ibmcloud ks worker-pools -c CLUSTER
    
  2. ワーカー・プールの RHEL_9_64 バージョンを指定する。

    ibmcloud oc worker-pool operating-system set --cluster CLUSTER --worker-pool POOL --operating-system RHEL_9_64
    
  3. Classicクラスタの場合は ibmcloud oc worker update VPCクラスタの場合は ibmcloud oc worker replace を実行して、ワーカー・プールの各ワーカー・ノードを更新します。

    該当するワーカーノードを更新または交換する間、ワークロードをサポートするのに十分なワーカーノードがあることを確認してください。 詳細については、VPCワーカーノード の更新または クラシックワーカーノード の更新を参照してください。

    Classicワーカーノードを更新するコマンド例

    ibmcloud oc worker update --cluster CLUSTER --worker WORKER1_ID [--worker WORKER2_ID]
    

    VPCワーカーノードを置き換えるコマンド例。

    ibmcloud oc worker replace --cluster CLUSTER --worker WORKER_ID
    
  4. 労働者プールと労働者の詳細を取得します。 出力で、ワーカーノードが RHEL_9_64 オペレーティングシステムを実行していることを確認する。

    ワーカープールの詳細を取得する。

    ibmcloud oc worker-pools -c CLUSTER
    

    ワーカー・ノードの詳細を取得します。

    ibmcloud oc worker get --cluster CLUSTER --worker WORKER_NODE_ID