IBM Cloud Docs
调试 Portworx 故障

调试 Portworx 故障

查看用于调试 Portworx 的选项,并查找任何故障的根本原因。

检查存储实例的容器是否成功部署

执行以下步骤以查看与 pod 部署相关的任何错误消息。

  1. 列出集群中的 pod。 如果 pod 显示的状态为 Running,说明 pod 已成功供应。

    oc get pods
    
  2. 获取您的Pod的详细信息,并查看CLI输出中 “事件”部分显示的错误消息。

    oc describe pod <pod_name>
    
  3. 检索 pod 的日志并查看任何错误消息。

    oc logs <pod_name>
    
  4. 查看 Portworx 故障诊断文档以了解解决常见错误的步骤

重新启动应用程序 pod

可以通过重新启动并重新部署 pod 来解决某些问题。 执行以下步骤以重新部署特定 pod。

  1. 如果您的 pod 是部署的一部分,请删除该 pod 并让部署重新构建该 pod。 如果 pod 不是部署的一部分,请删除 pod 并重新应用 pod 配置文件。

    1. 删除 pod。
      oc delete pod <pod_name>
      
      示例输出
      pod "nginx" deleted
      
    2. 重新应用配置文件以重新部署 pod。
      oc apply -f <app.yaml>
      
      示例输出
      pod/nginx created
      
  2. 如果重新启动 pod 无法解决问题,请 重新装入工作程序节点

  3. 验证是否使用的是最新的 IBM Cloud 和 IBM Cloud Kubernetes Service 插件版本。

    ibmcloud update
    
    ibmcloud plugin repo-plugins
    
    ibmcloud plugin update
    

确认 Portworx 存储驱动程序和插件显示为运行中状态

执行以下步骤以检查存储驱动程序和插件 pod 的状态,并查看任何错误消息。

  1. 列出 kube-system 项目中的 pod。
    oc get pods -n kube-system | grep `portworx\|stork`
    
    示例输出:
    portworx-594rw                          1/1       Running     0          20h
    portworx-rn6wk                          1/1       Running     0          20h
    portworx-rx9vf                          1/1       Running     0          20h
    stork-6b99cf5579-5q6x4                  1/1       Running     0          20h
    stork-6b99cf5579-slqlr                  1/1       Running     0          20h
    stork-6b99cf5579-vz9j4                  1/1       Running     0          20h
    stork-scheduler-7dd8799cc-bl75b         1/1       Running     0          20h
    stork-scheduler-7dd8799cc-j4rc9         1/1       Running     0          20h
    stork-scheduler-7dd8799cc-knjwt         1/1       Running     0          20h
    
  2. 如果存储驱动程序和插件 pod 未显示 正在运行 状态,请获取 pod 的更多详细信息以查找根本原因。 根据您的Pod状态,您可能无法执行以下所有命令。
    1. 获取在驱动程序 pod 中运行的容器的名称。
      kubectl describe pod <pod_name> -n kube-system
      
    2. 将日志从驱动程序 pod 导出到本地机器上的 logs.txt 文件。
      oc logs <pod_name> -n kube-system > logs.txt
      
    3. 查看日志文件。
      cat logs.txt
      
  3. 请检查最新日志以获取任何错误消息。 查看 Portworx 故障诊断文档以了解解决常见错误的步骤

检查和更新 oc CLI 版本

如果您使用的 oc CLI版本与集群的 major.minor 版本不匹配,可能会出现意外结果。 例如,Kubernetes 不支持与服务端版本相差2个或以上版本的 oc 客户端(n +/- 2)。

  1. 请确认您本地机器上运行的 oc CLI版本与集群中安装的 Kubernetes 版本一致。 显示集群和本地计算机上安装的 oc CLI版本。

    oc version
    

    示例输出:

    Client Version: version.Info{Major:"1", Minor:"23", GitVersion:"v1.32", GitCommit:"641856db18352033a0d96dbc99153fa3b27298e5", GitTreeState:"clean", BuildDate:"2019-03-25T15:53:57Z", GoVersion:"go1.12.1", Compiler:"gc", Platform:"darwin/amd64"}
    Server Version: version.Info{Major:"1", Minor:"23", GitVersion:"v1.32+IKS", GitCommit:"e15454c2216a73b59e9a059fd2def4e6712a7cf0", GitTreeState:"clean", BuildDate:"2019-04-01T10:08:07Z", GoVersion:"go1.11.5", Compiler:"gc", Platform:"linux/amd64"}
    

    如果在 GitVersion 中看到客户机和服务器的版本相同,说明 CLI 版本匹配。 可以忽略服务器版本中的 +IKS 部分。

  2. 如果本地机器和集群上的 oc CLI版本不匹配,请更新集群或 在本地机器上安装其他CLI版本

更新 Helm Chart

  1. 查找 最新的 Helm Chart 版本

  2. 列出集群中已安装的 Helm 图表,并将已安装的版本与最新版本进行比较。

    helm list --all-namespaces
    
  3. 如果有更新的版本,请安装新版本。 有关指示信息,请参阅更新集群中的 Portworx