IBM Cloud Docs
更新使用 OpenShift Data Foundation 的经典工作程序节点

更新使用 OpenShift Data Foundation 的经典工作程序节点

经典基础结构

对于具有存储解决方案 (例如,OpenShift Data Foundation) 的经典集群,必须按顺序对每个工作程序节点进行警戒,排水和更换。 如果已将 OpenShift Data Foundation 部署到集群中的工作程序节点子集,那么在替换工作程序节点之后,必须编辑 ocscluster 资源以包含新的工作程序节点。

以下教程涵盖主要和次要工作程序节点更新。

主要更新
完成带有此标签的步骤以应用主要更新,例如,如果要将工作程序节点更新为新的主要版本 (例如,从 4.114.12 以及从 4.114.12 的 OpenShift Data Foundation)。
次要更新
完成带有此标签的步骤以应用补丁更新,例如,如果要在保持 OpenShift Data Foundation 为 V 4.12 的情况下从 4.12.15_1542_openshift 更新到 4.12.16_1544_openshift

不支持在升级期间跳过版本,例如从 4.8 到 4.12。

登录您的账户。 如果适用,请将相应的资源组设定为目标。 设置集群的上下文。

在更新工作程序节点之前,请确保备份应用程序数据。 此外,计划一次完成一个工作程序节点的以下步骤。 对每个要更新的工作节点重复上述步骤。

更新集群主节点

主要更新

  1. 如果要将工作程序节点更新到新的主版本 (例如,从 4.114.12),请首先更新集群主节点。
    ibmcloud oc cluster master update --cluster CLUSTER [--version MAJOR.MINOR.PATCH] [--force-update] [-f] [-q]
    
    示例命令:
    ibmcloud oc cluster master update --cluster mycluster --version 4.17.28 --force-update
    
  2. 等待主更新完成。

确定要更新的工作程序节点

主要更新 次要更新

  1. 使用 oc get nodes 命令列出工作程序节点,并确定要更新的工作程序节点。

    oc get nodes
    

    示例输出

    NAME           STATUS   ROLES           AGE    VERSION
    10.241.0.4     Ready    master,worker   106s   v1.21.6+4b61f94
    10.241.128.4   Ready    master,worker   22d    v1.21.6+bb8d50a
    10.241.64.4    Ready    master,worker   22d    v1.21.6+bb8d50a
    

缩减 OpenShift Data Foundation

主要更新 次要更新

  1. 对于在上一步中找到的每个工作程序节点,查找 rook-ceph-monrook-ceph-osd 部署。
    oc get pods -n openshift-storage -o wide | grep -i <node_name>
    
  2. 缩减在上一步中找到的部署。
    oc scale deployment rook-ceph-mon-c --replicas=0 -n openshift-storage
    
    oc scale deployment rook-ceph-osd-2 --replicas=0 -n openshift-storage
    
    oc scale deployment --selector=app=rook-ceph-crashcollector,node_name=NODE-NAME --replicas=0 -n openshift-storage
    

封锁并排出工作程序节点

主要更新 次要更新

  1. 节点上的警戒线。 封锁节点将阻止在此节点上调度任何 Pod。

    oc adm cordon NODE_NAME
    

    示例输出

    node/10.241.0.4 cordoned
    
  2. 清空节点以除去所有 pod。 在排出工作程序节点时,pod 会移至其他工作程序节点,以确保没有停机时间。 排水还可确保不会中断 pod 中断预算。

    oc adm drain NODE_NAME --force --delete-emptydir-data --ignore-daemonsets
    

    示例输出

    evicting pod "managed-storage-validation-webhooks-7fd79bc9f7-pdpv6"
    evicting pod "calico-kube-controllers-647dbbd685-fmrp9"
    evicting pod "certified-operators-2v852"
    evicting pod "csi-snapshot-controller-77fbf474df-47ddt"
    evicting pod "calico-typha-8574d89b8c-7f2cc"
    evicting pod "dns-operator-6d48cbff67-vrrsw"
    evicting pod "router-default-6fc798b98b-9m6kh"
    evicting pod "prometheus-adapter-5b77ffdd5f-hzqrp"
    evicting pod "alertmanager-main-1"
    evicting pod "prometheus-k8s-0"
    evicting pod "network-check-source-66c7fbb86-2r78z"
    
  3. 等待直到排水完成,然后完成以下步骤以更换工作程序节点。

更新工作程序节点

主要更新 次要更新

  1. 使用 ibmcloud oc worker ls 列出工作程序节点,并在上一步中找到已封锁并排出的工作程序节点。

    ibmcloud oc worker ls -c CLUSTER
    

    示例输出

    ID                                                 Primary IP     Flavor     State    Status   Zone        Version   
    kube-c85ra07w091uv4nid9ug-vpcoc-default-000001c1   10.241.128.4   bx2.4x16   normal   Ready    us-east-3   4.8.29_1544_openshift*   
    kube-c85ra07w091uv4nid9ug-vpcoc-default-00000288   10.241.0.4     bx2.4x16   normal   Ready    us-east-1   4.8.29_1544_openshift*   
    kube-c85ra07w091uv4nid9ug-vpcoc-default-00000352   10.241.64.4    bx2.4x16   normal   Ready    us-east-2   4.8.29_1544_openshift*
    
  2. 更新工作程序节点。

    ibmcloud oc worker update -c CLUSTER --worker kube-***
    

    示例输出

    The replacement worker node is created in the same zone with the same flavor, but gets new public or private IP addresses. During the replacement, all pods might be rescheduled onto other worker nodes and data is deleted if not stored outside the pod. To avoid downtime, ensure that you have enough worker nodes to handle your workload while the selected worker nodes are being replaced.
    Replace worker node kube-c85ra07w091uv4nid9ug-cluster-default-00000288? [y/N]> y
    Deleting worker node kube-c85ra07w091uv4nid9ug-cluster-default-00000288 and creating a new worker node in cluster
    
  3. 等待供应替换节点,然后列出工作程序节点。 请注意,此过程可能需要 20 分钟或更长时间。

    oc get nodes
    

    示例输出

    NAME           STATUS   ROLES           AGE   VERSION
    10.241.0.4     Ready    master,worker   22d   v1.21.6+bb8d50a
    10.241.128.4   Ready    master,worker   22d   v1.21.6+bb8d50a
    10.241.64.4    Ready    master,worker   22d   v1.21.6+bb8d50a
    

从旧节点清除资源

主要更新 次要更新

  1. 浏览至 openshift-storage 项目。

    oc project openshift-storage
    
  2. 从集群中除去发生故障的 OSD。 如果需要,可以指定多个失败的 OSD:

    oc process -n openshift-storage ocs-osd-removal -p FAILED_OSD_IDS=<failed_osd_id> -p FORCE_OSD_REMOVAL=true | oc create -f -
    

    FAILED_osd_id 值是紧跟在 rook-ceph-osd 前缀之后的 pod 名称中的整数。 在只有三个 OSD 的集群中,必须将 FORCE_OSD_REMOVAL 值更改为 true,或者在除去 OSD 之后,空间不足的集群无法复原所有三个数据副本。

  3. 通过检查 ocs-osd-removed-job pod 的状态,验证 OSD 是否已成功移除。

    oc get pod -l job-name=ocs-osd-removal-job -n openshift-storage
    
  4. 验证 OSD 移除是否已完成。

    oc logs -l job-name=ocs-osd-removal-job -n openshift-storage --tail=-1 | egrep -i 'completed removal'
    

    示例输出

    2023-03-10 06:50:04.501511 I | cephosd: completed removal of OSD 0
    
  5. 从旧节点标识与持久卷声明 (PVC) 关联的持久卷 (PV):

    oc get pv -L kubernetes.io/hostname | grep localblock | grep Released
    

    如果存在处于“已发布”状态的 PV,请将其删除:

    oc delete pv <persistent_volume>
    

添加新的存储节点

主要更新 次要更新

  1. 等待 OpenShift Data Foundation pod 部署到新的工作程序。 验证是否已创建 OSD 持久卷,并且所有 pod 都处于 Running 状态。
    oc get pv
    oc get ocscluster
    oc get pods -n openshift-storage
    
  2. 验证所有其他必需的 OpenShift Data Foundation pod 是否处于“正在运行”状态。
    oc get pod -n openshift-storage | grep mon
    
    示例输出:
    rook-ceph-mon-a-cd575c89b-b6k66         2/2     Running
    0          38m
    rook-ceph-mon-b-6776bc469b-tzzt8        2/2     Running
    0          38m
    rook-ceph-mon-d-5ff5d488b5-7v8xh        2/2     Running
    0          4m8s
    
  3. 验证新的 OSD pod 是否正在更换节点上运行:
    oc get pods -o wide -n openshift-storage| egrep -i <new_node_name> | egrep osd
    
  4. 标识 crashcollector pod 部署。
    oc get deployment --selector=app=rook-ceph-crashcollector,node_name=NODE-NAME -n openshift-storage
    
  5. 如果存在现有 crashcollector 部署,请将其删除。
    oc delete deployment --selector=app=rook-ceph-crashcollector,node_name=NODE-NAME -n openshift-storage
    
  6. 删除 ocs-osd-delete-job。
    oc delete -n openshift-storage job ocs-osd-removal-job
    
    示例输出:
    job.batch "ocs-osd-removal-job" deleted
    

更新 OpenShift Data Foundation 附加组件

主要更新

  1. 请检查现有版本。
    ibmcloud oc cluster addon ls --cluster CLUSTER
    
  2. 更新附加组件。
    ibmcloud oc cluster addon update openshift-data-foundation --cluster CLUSTER --version VERSION
    
  3. 验证是否更新了附加组件。
    ibmcloud oc cluster addon ls --cluster CLUSTER
    

更新集群资源

主要更新

  1. 获取 ocscluster 资源的名称。

    oc get ocscluster
    

    示例输出

    NAME             AGE
    ocscluster-vpc   19d
    
  2. 运行以下命令编辑 ocscluster 资源。

    oc edit ocscluster OCS-CLUSTER-NAME
    
  3. ocsUpgrade 参数设置为 true

    ...
    spec:
        billingType: hourly
    monSize: 20Gi
    autoDiscoverDevices: true
    numOfOsd: 1
    ocsUpgrade: true
    osdSize: 250Gi
    status:
        storageClusterStatus: Decreasing the capacity not allowed
    
  4. 保存并关闭该文件。

  5. 等待更新完成。

  6. 验证是否正确部署了 storageclustercephcluster 资源。

    oc get storagecluster -n openshift-storage
    NAME                 AGE   PHASE   EXTERNAL   CREATED AT             VERSION
    ocs-storagecluster   43h   Ready              2023-06-21T09:22:00Z   4.11.0
    
    oc get cephcluster -n openshift-storage
    NAME                             DATADIRHOSTPATH   MONCOUNT   AGE   PHASE   MESSAGE                        HEALTH      EXTERNAL
    ocs-storagecluster-cephcluster   /var/lib/rook     3          43h   Ready   Cluster created successfully   HEALTH_OK   
    
    oc get csv -n openshift-storage
    NAME                              DISPLAY                       VERSION   REPLACES                          PHASE
    mcg-operator.v4.11.8              NooBaa Operator               4.11.8    mcg-operator.v4.11.7              Succeeded
    ocs-operator.v4.11.8              OpenShift Container Storage   4.11.8    ocs-operator.v4.11.7              Succeeded
    odf-csi-addons-operator.v4.11.8   CSI Addons                    4.11.8    odf-csi-addons-operator.v4.11.7   Succeeded
    odf-operator.v4.11.8              OpenShift Data Foundation     4.11.8    odf-operator.v4.11.7              Succeeded