位置错误消息
缺省情况下,IBM Cloud Satellite 会监视位置的运行状况,并尝试自动为您解决问题。 对于无法自动解决的问题,您可以通过查看提供的运行状况信息来调试位置。
查看错误消息和日志
-
在控制台中查看位置或在 CLI 中列出位置,然后查看 状态。 如果状态不健康,请继续下一步。 有关更多信息,请参阅 查看位置运行状况。
ibmcloud sat location ls
示例输出
Name ID Status Ready Created Hosts (used/total) Managed From Port-North aaaaa1a11aaaaaa111aa action required no 6 days ago 3 / 5 Washington DC
-
查找位置的详细信息,并查看 State,Ready for deployment 和 Message 部分。 在控制台中,您可以单击位置,并将鼠标悬停在标题中具有位置名称和运行状况的工具提示上。
ibmcloud sat location get --location <location_name_or_ID>
示例输出:
Name: Port-NewYork ID: aaaaa1a11aaaaaa111aa Created: 2020-06-05 13:50:58 -0400 (6 days ago) Creator: name@email.com Managed From: Washington DC State: action required Ready for deployments: no Message: R0015: Could not assign hosts because no hosts are available. Attach more hosts to the location and try again. For more information, see the docs: 'http://ibm.biz/sat-loc'
-
通过 设置 IBM Cloud Logs 查看 Satellite 位置日志, 查找有关错误信息和受影响组件的更多详细信息。
-
请查看位置状态和消息以了解解决问题的步骤。 有关位置状态的描述,请参阅 Red Hat OpenShift on IBM Cloud 文档中的 集群状态。 有关位置消息的描述,请查看以下部分。 如果您的位置状态为
warning
或critical
,并且 该位置已准备好进行部署,请 开具支持凭单。
R0001: 就绪位置
- 位置消息
- Satellite 网站已准备就绪。
- 解决步骤
- Satellite 位置没有紧急警报,位置控制平面中的 IBM 监视组件正在监视您位置的运行状况。 您可能仍会看到一些警告消息,指示您可以执行哪些操作来改善位置中资源 (例如主机) 的状态。
R0002,R0018,R0020,R0029,R0037,R0039,R0042: 等待位置就绪
- 位置消息
- R0002: Satellite 位置存在 IBM Cloud 支持人员正在努力解决的问题。 请稍后再核查。
- R0018: Satellite 正在尝试恢复。
- R0020: 等待 完成恢复操作。Satellite
- R0029: 已成功启动恢复操作。
- R0037: Satellite 位置具有处于失败状态的集群。IBM Cloud 支持人员正在进行解析。 请稍后再核查。
- R0039: Satellite 位置控制平面当前运行状况不佳。IBM Cloud 支持人员正在进行解析。 请稍后再核查。
- R0042: IBM Cloud 支持人员正在解决链接 API 故障。 请稍后再核查。 如果问题仍然存在,请提交支持案例。
- 解决步骤
- 稍后再检查以查看问题是否已解决。 如果问题持续了一段时间,您可以 打开支持案例。
要查找有关您问题的更多详细信息,请为 Satellite 位置设置 IBM Cloud Logs。
- 为 Satellite 定位平台日志设置 IBM Cloud Logs。
- 在平台日志中搜索错误代码以获取更多详细信息,例如,由于许可权错误而失败的 API 方法。
- 如果详细信息指示许可权错误:
- 以帐户管理员身份登录到 IBM Cloud CLI,并将该位置所在的资源组和区域作为目标。
ibmcloud login -g <resource_group> -r <region>
- 重置用于许可权的 API 密钥。
ibmcloud ks api-key reset
- 以帐户管理员身份登录到 IBM Cloud CLI,并将该位置所在的资源组和区域作为目标。
R0009: 无法恢复
- 位置消息
- R0009: Satellite 无法从问题中恢复。
- 解决步骤
- Satellite 尝试自动解决问题失败。 查看任何其他消息以进一步进行故障诊断,例如向该位置添加更多主机。 如果问题持续了一段时间,您可以 打开支持案例。
R0010,R0030,R0031,R0032: 控制平面需要主机
- 位置消息
- R0010: 为位置控制平面分配更多主机,或替换不健康的主机。
- R0030: Satellite 定位控制平面的一个区域已达到临界容量。 如果达到临界容量,那么无法再向该位置添加更多集群。 请向该控制面板区域添加更多主机,或者替换不正常的主机。
- R0031: Satellite 定位控制平面的一个区域已达到警告容量。 请向该控制面板区域添加更多主机,或者替换不正常的主机。
- R0032: 手动为所有 3 个区域的控制平面分配主机。
- 解决步骤
- 您的位置没有可供 Satellite 自动分配给位置控制平面的可用主机,并且可能达到容量限制。 可以从以下选项中进行选择。
R0011,R0040和 R0041: 控制平面主机的问题
- 位置消息
- R0011: 确保 所在位置的所有主机都处于正常状态。Satellite 如果仍有问题,请联系 IBM Cloud 支持部门,并附上您的 Satellite 位置 ID。
- R0040: Satellite 定位数据平面目前不健康。 要调试该主机,请访问“http://ibm.biz/sat-host-debug”。 如果仍有问题,请联系 IBM Cloud 支持部门,并附上您的 Satellite 位置 ID。
- R0041: Satellite 定位控制平面主机检测到未知问题。 请确保主机满足最低要求(请访问 http://ibm.biz/sat-host-reqs)。 如果仍有问题,请联系 IBM Cloud 支持部门,并附上您的 Satellite 位置 ID。
- 解决步骤
R0012: 所有 3 区域中都需要主机
- 位置消息
- R0012: 定位控制平面在所有 3 个区域都没有主机。 请向您的位置控制面板添加可用主机。
- 解决步骤
- 如果您刚刚将主机分配到控制平面,请稍等片刻等待引导过程完成。 否则,分配 至少一个主机到该位置本身的三个区域中的每个区域,以运行控制平面操作。
R0013: 不可用区域
R0014: 控制平面的 DNS 记录
- 位置消息
- R0014: 验证 位置是否有 DNS 记录,用于负载平衡对位置控制平面的请求。Satellite
- 解决步骤
-
- 通过运行
ibmcloud sat host ls --location <location_ID_or_name>
验证 Satellite 控制平面中的所有主机是否显示 状态assigned
和 状态Ready
。 - 如果所有主机都显示正确的状态和状态,那么尚未创建您所在位置的 DNS 记录。 成功将所有主机分配到您的位置后,此过程可能需要最多 30 分钟才能完成。
- 如果一个或多个主机未显示正确的状态或状态,请参阅 调试主机运行状况。
- 通过运行
R0015,R0016: 主机问题
- 位置消息
- R0015: 无法分配主机,因为没有可用主机。 请将更多主机连接到该位置,然后重试。 有关更多信息,请参阅以下文档:“http://ibm.biz/sat-loc”。
- R0016: 分配主机后出现意外错误。 要调试该主机,请访问“http://ibm.biz/sat-host-debug”。 如果仍有问题,请联系 IBM Cloud 支持部门,并附上您的 Satellite 位置 ID。
- 解决步骤
- 连接更多主机 到该位置。 如果连接的主机未显示为可用,请参阅 调试主机运行状况。
R0023,R0101: 等待位置就绪
- 位置消息
- R0023: 在 设置位置控制平面时等待。Satellite
- R0101: Satellite 所在地的集群正在运行中。 请等待它们运行完毕,稍后再核查。
- 解决步骤
- 等待位置控制平面完成设置,稍后再进行检查。
R0024,R0025: 集群问题
- 位置消息
- R0024: Satellite 位置具有警告运行状况中的 Red Hat OpenShift 集群。
- R0025: Satellite 位置在关键运行状况中具有 Red Hat OpenShift 集群。
- 解决步骤
-
- 请等待以查看是否返回了另一条消息,例如有关主机容量的消息。
- 如果返回了主机消息,请尝试 调试主机。
- 如果未返回更多消息,请尝试 调试 Red Hat OpenShift on IBM Cloud 集群。
R0026: 主机磁盘空间
- 位置消息
- R0026: 位置控制平面中的主机磁盘空间耗尽。 为位置控制平面分配更多主机,或重新加载存在磁盘空间问题的主机。
- 解决步骤
-
- 列出分配给控制平面的主机。通过运行
ibmcloud sat host ls --location <location_name_or_ID> | grep infrastructure
。 - 通过运行
ibmcloud sat host get --host <host_ID> --location <location_name_or_ID>
来检查主机的详细信息。 - 在主机的基础结构提供程序中,检查主机的磁盘空间。 确保每个主机都满足 最低要求。 除去 并 重新连接主机。
- 如果调试和重新连接主机无法解决问题,那么位置控制平面需要更多计算资源才能继续运行。 向位置控制平面分配更多主机。
- 列出分配给控制平面的主机。通过运行
R0033,R0034,R0035: 控制平面容量问题
- 位置消息
- R0033: 位置控制平面中的主机存在严重的内存使用问题。 请向该位置控制面板添加更多主机,然后等待该位置恢复正常。
- R0034: 位置控制平面中的主机存在严重的 CPU 使用问题。 请向该位置控制面板添加更多主机,然后等待该位置恢复正常。
- R0035: 位置控制平面已达到最大容量,无法支持更多工作负载。 请向每个区域添加主机,然后等待该位置恢复正常。
- 解决步骤
-
- 在每个区域中,检查主机的 CPU 和内存大小。 - 在区域中的所有主机上,必须至少有 3 个 CPU 总计可用。 - 在区域中的所有主机上,必须至少有 4 GB 内存总量可用。
- 将 3 更多主机连接到位置。
- 分配 至少一个主机到三个区域中的每个区域,以添加用于控制平面操作的容量。 请记住,当您向上扩展位置控制平面时,请按 3 的倍数均匀扩展,并在区域之间均匀分配主机。
- 运行
ibmcloud ks cluster master refresh --cluster <cluster-id>
命令刷新群集。
R0036: 位置子域流量路由
- 位置消息
- R0036: 位置子域无法将流量正确路由到控制平面主机。 使用
ibmcloud sat location dns
命令验证位置子域是否为控制平面主机注册了正确的 IP 地址。 - 解决步骤
- 请参阅 为什么位置子域不将流量路由到控制平面主机?。
R0038,R0101: 位置正在进行集群操作
- 位置消息
- R0038: Satellite 所在地的集群正在运行中。 请等待它们运行完毕,稍后再核查。
- R0101: Satellite 所在地的集群正在运行中。 请等待它们运行完毕,稍后再核查。
- 解决步骤
- 等待集群完成其操作,稍后再进行检查。
R0043: 层 3 连接
- 位置消息
- R0043: 位置不符合以下要求:主机必须为跨主机的所有端口提供 TCP/UDP/ICMP 第 3 层连接。 如果仍有问题,请联系 IBM Cloud 支持部门,并附上您的 Satellite 位置 ID。
- 解决步骤
- 主机之间的所有端口都必须具有 TCP/UDP/ICMP 层 3 连接。 您无法阻止对可能阻止主机间通信的特定端口的访问。 查看 主机网络需求,并取消阻止基础结构提供程序中主机上的端口。 此错误还可能意味着主机未安装必需的 RHEL 软件包,或者打开了必需的 CPU,内存,磁盘空间和防火墙端口。 验证主机是否满足所有需求后,请查看平台日志。
要测试主机间所有端口的 TCP/UDP/ICMP 层 3 连接,
-
通过 SSH 连接到连接到您所在位置但未分配给任何资源的主机。
如果未将主机分配给集群,或者分配失败,那么只能通过 SSH 登录到机器。 否则,Satellite 将禁止出于安全目的通过 SSH 登录到主机。 您可以 除去主机 并重新装入操作系统,以将 SSH 功能复原到机器中。
-
要检查 TCP 连接,请验证
netcat
是否从端口10250
上的所有其他主机接收响应。 如果操作超时,请查看 主机网络需求 以取消阻止基础结构提供程序中主机上的端口。nc -zv <host_IP> 10250
-
要检查 ICMP 连接,请验证对所有其他主机执行 ping 操作是否成功。 对连接到您所在位置的主机的每个 IP 地址重复此步骤。 如果 ping 超时,请查看 主机网络需求 以取消阻止基础结构提供程序中主机上的端口。
ping <host_IP>
-
如果 TCP 和 ICMP 连接检查未显示任何问题,请通过一次重新引导一个主机来重新引导所有控制平面主机。 请勿同时重新引导控制平面主机,这会阻止 etcd 在控制平面主机上运行。
R0044: DNS 问题
- 位置消息
- R0044: 在一台或多台主机上检测到 DNS 问题。 验证 DNS 解决方案是否按预期运行。 如果仍有问题,请联系 IBM Cloud 支持部门,并附上您的 Satellite 位置 ID。
- 解决步骤
- 位置中的一个或多个主机无法解析 DNS 查询,或者搜索域导致意外问题。 验证 DNS 解决方案是否按预期工作,以及所有主机是否满足 网络主机需求。
要测试 DNS 解析,
-
通过 SSH 连接到连接到您所在位置但未分配给任何资源的主机。
如果未将主机分配给集群,或者分配失败,那么只能通过 SSH 登录到机器。 否则,Satellite 将禁止出于安全目的通过 SSH 登录到主机。 您可以 除去主机 并重新装入操作系统,以将 SSH 功能复原到机器中。
-
确保 DNS 解析正常工作。
dig +short +timeout=5 +nocookie cloud.ibm.com
-
请确保在 DNS 配置中具有任何附加搜索域的
localhost
未解析为任何内容,或者仅解析为127.0.0.1
。 在管理每个主机的 DNS 解析的/etc/resolv.conf
文件中,可能会列出多个搜索域,例如search ibm.com
。 Calico 每个主机上的 Typha pod 都会运行使用localhost
分辨率的运行状况检查。 但是,当运行状况检查尝试解析localhost
时,可能会追加某些搜索域,这会导致运行状况检查失败。 要确保运行状况检查能够正确运行,请确保在附加到localhost
时,列出的搜索域都不会解析为除127.0.0.1
IP 地址以外的任何内容。
R0045: 主机只读文件系统问题
- 位置消息
- R0045: 在一台或多台主机上检测到只读文件系统。 更换受影响的主机。
- 解决步骤
-
- 为 Satellite 位置平台日志设置 IBM Cloud Logs,以 获取有关哪些主机受影响的更多信息。
- 除去 受影响的主机并 重新连接新主机。
- 如果仍存在问题,请 打开支持案例,并包含 Satellite 位置标识。
R0046: NTP 问题
- 位置消息
- R0046: 在一台或多台主机上检测到 NTP 问题。 验证 NTP 解决方案是否按预期运行。
- 解决步骤
- 您所在位置的一个或多个主机具有必须解决的网络时间协议 (NTP) 问题。
要在主机上测试 NTP,
-
通过 SSH 连接到连接到您所在位置但未分配给任何资源的主机。
如果未将主机分配给集群,或者分配失败,那么只能通过 SSH 登录到机器。 否则,Satellite 将禁止出于安全目的通过 SSH 登录到主机。 您可以 除去主机 并重新装入操作系统,以将 SSH 功能复原到机器中。
-
确保主机报告的时间与实际时间相差不超过 3 分钟。 如果时间相差超过 3 分钟,请向基础架构提供者验证 NTP 解决方案。
date +%s
-
重复这些步骤以识别存在 NTP 问题的任何主机。
R0047: 位置运行状况检查
- 位置消息
- R0047: IBM Cloud 无法使用运行状况检查端点来检查位置的运行状况。
- 解决步骤
- 请参阅 为什么 IBM Cloud 无法检查我所在位置的运行状况?。
R0048: etcd 备份失败
- 位置消息
- R0048: 您所在位置的集群的 etcd 备份未能在过去一天内完成。
- 解决步骤
- etcd 数据每 8 小时从 Satellite 位置控制平面备份到 IBM Cloud Object Storage 实例中的存储区。 如果此备份在 24 小时内连续失败 3 次,那么可能与 Object Storage 存储区或服务实例存在问题,或者与 Satellite 位置与 Object Storage 实例的连接存在问题。
要确定问题的存在位置,
-
确保分配给位置控制平面的主机能够访问从中管理位置的 IBM Cloud 区域的 IBM Cloud Object Storage 端点。 例如,在主机防火墙中,必须允许从控制平面主机到以下端点的出站连接。
主机与Object Storage端点的必要出站连接 区域 Object Storage 端点 wdc
s3.us.cloud-object-storage.appdomain.cloud
lon
s3.eu.cloud-object-storage.appdomain.cloud
-
验证用于备份 etcd 数据的 Object Storage 服务实例和存储区可用且未删除。
- 在 Satellite 控制台中,单击您所在位置的名称。
- 在位置概述的详细信息部分中,复制 Object Storage 存储区的名称。
- 在 IBM Cloud 控制台中,浏览至 IBM Cloud 资源列表。
- 展开“存储器”行。
- 查找创建存储区的 Object Storage 实例。 如果在位置创建期间未指定存储区名称,请检查每个 Object Storage 实例,直到找到位置的自动生成存储区为止。
- 单击实例的名称。 此时将打开“存储区”列表页面。
- 验证控制平面 etcd 备份的存储区是否存在。
- 如果已删除服务实例或存储区,请 打开支持案例 并包含 Satellite 位置标识。
-
如果控制平面主机可以访问 Object Storage 端点,并且存在 Object Storage 服务实例和存储区,打开支持案例 以调查备份失败并包含您的 Satellite 位置标识。
R0049: Satellite 链接 IAM API 密钥问题
- 位置消息
-
链路隧道客户机迂到认证问题。 请联系 IBM Cloud 支持人员,并包含您的 Satellite 位置标识。
-
报告此错误的原因是,为位置所在的区域或资源组设置的 IAM API 密钥在 Satellite 或 Kubernetes Service中没有必需的许可权,通常是因为 API 密钥所有者的许可权已更改或 API 所有者不再存在于帐户中。
- 解决步骤
-
如果您在 Satellite 位置具有 Red Hat OpenShift 集群,并且您是帐户所有者或具有所有 Satellite 组件管理员许可权的用户,那么可以通过重置 API 密钥来解决此问题。 请注意,重置 API 密钥时,将删除旧密钥。 请确保检查其他服务是否正在使用此 API 密钥。
-
- 登录到 IBM Cloud:
ibmcloud login
。 - 将位置所管理的区域作为目标:
ibmcloud target -r <region>
。 - 将位置所在的资源组作为目标:
ibmcloud target -g <resource-group>
。 - 重置该区域或资源组的 IAM API 密钥:
ibmcloud ks api-key reset --region <region>
。 - 查看 API 密钥已设置:
ibmcloud ks api-key info --cluster <roks_cluster_in_location>
。 - 打开支持案例,并询问包含要刷新的集群的位置。 包含您的位置标识,您可以通过运行
ibmcloud sat location ls
命令来找到该标识。
- 登录到 IBM Cloud:
-
如果您的位置没有任何集群,那么您无法自行重置 API 密钥。 而是 打开支持案例 并请求刷新您的位置。 包含您的位置标识,您可以通过运行
ibmcloud sat location ls
命令来找到该标识。
R0050,R0051: Satellite 链接连接器问题
- 位置消息
- 链路隧道客户机迂到令牌认证问题。 请联系 IBM Cloud 支持人员,并包含您的 Satellite 位置标识。
- 链接隧道客户机无法检索位置标识。 请联系 IBM Cloud 支持人员,并包含您的 Satellite 位置标识。
- 解决步骤
- 打开支持案例 并包含您的 Satellite 位置标识。
R0052: Ingress 证书生成问题
- 位置消息
- 尚未为位置端点生成入口证书。
- 解决步骤
- IBM Cloud 将通知支持人员并正在努力解决问题。 请稍后重试。
R0056: Pod 状态卡在 terminating
中
- 位置消息
- Pod 在位置控制平面节点上处于终止状态已超过一个小时。
- 解决步骤
- 处于终止状态一小时或更长时间的 pod 指示位置控制平面不正常。 重新启动位置控制平面主机并查看问题是否已解决。 如果问题仍然存在,请执行以下步骤来更换位置控制平面主机。
更新或更换控制平面主机时,请勿同时分配或移除多个主机,因为这样做可能会破坏控制平面。 必须先等待主机分配或除去操作完成,然后再分配或除去另一个主机。 为避免可能的服务中断,请确保在卸下任何主机之前连接其他主机并将其分配给控制平面。
- 对于要从控制平面中除去的每个主机,请 连接其他主机。
- 分配连接的主机 到您的位置。 确保一次只分配一个主机,并且在分配另一个主机之前完成每个分配。
- 从 Satellite 位置除去原始主机。 请确保一次只除去一个主机,并且每次除去都在除去另一个主机之前完成。
有关受影响组件的更多信息,请 设置 IBM Cloud Logs 并查看 R0056
错误日志。
R0057: 到 IAM 的出站流量失败
- 位置消息
- 到 IBM Cloud IAM 的出站流量失败。 要确保满足所有主机需求,请参阅 主机系统需求。 更多信息请参阅 IBM Cloud Platform Logs。 如果问题仍然存在,请联系 IBM Cloud 支持人员并包含您的 Satellite 位置标识。
- 解决步骤
- 检查运行状态并确保满足主机系统需求。
-
运行以下命令检查健康状态。
curl https://iam.cloud.ibm.com/healthz
-
如果上一步的输出指示发生故障,请检查主机是否满足所有 系统需求。
-
如果您已满足所有系统需求并且问题仍然存在,请 打开支持案例 并包含您的 Satellite 位置标识。 您可以通过运行
ibmcloud sat location ls
命令来查找您的位置标识。
有关受影响组件的更多信息,请 设置 IBM Cloud Logs 并查看 R0057
错误日志。
R0058: DNS 注册失败
- 位置消息
- 最近删除了具有此名称的位置。 如果要复用最近删除的位置的位置名,那么 DNS 注册可能需要一周时间才能完成。
- 解决步骤
- 如果不需要复用此位置名,请删除此位置并创建具有唯一名称的位置。 如果问题仍然存在,请 打开支持案例,并包含您的 Satellite 位置标识。
R0059: IBM Cloud Container Registry的出站流量失败。
- 位置消息
- 到 IBM Cloud Container Registry 的出站流量失败。 要确保满足所有主机需求,请参阅 主机系统需求。 更多信息请参阅 IBM Cloud Platform Logs。 如果问题仍然存在,请联系 IBM Cloud 支持人员并包含您的 Satellite 位置标识。
- 解决步骤
- 检查运行状态并确保满足主机系统需求。
-
运行以下命令检查健康状态。
curl https://iam.cloud.ibm.com/healthz
-
如果上一步的输出指示发生故障,请检查主机是否满足所有 系统需求。
-
如果您已满足所有系统需求并且问题仍然存在,请 打开支持案例 并包含您的 Satellite 位置标识。 您可以通过运行
ibmcloud sat location ls
命令来查找您的位置标识。
有关受影响组件的更多信息,请 设置 IBM Cloud Logs 并查看 R0059
错误日志。
R0061: 无法从 IBM Cloud访问 Satellite 集群 API 服务器。
- 位置消息
- 无法从 IBM Cloud访问 Satellite 集群 API 服务器。 有关更多信息,请参阅 IBM Cloud 平台日志。 如果问题仍然存在,请联系 IBM Cloud 支持人员并包含您的 Satellite 位置标识。
- 解决步骤
- 采取以下步骤解决此问题。
-
请查看 IBM Cloud 平台日志以获取更多详细信息。 更多信息,请参阅 设置 IBM Cloud Logs 并查看
R0061
错误日志。 -
检查主机是否满足所有 系统需求,特别是用于连接到 IBM 和链路隧道客户机的出站连接。
-
如果您已满足所有系统需求并且问题仍然存在,请 打开支持案例 并包含您的 Satellite 位置标识。 您可以通过运行
ibmcloud sat location ls
命令来查找您的位置标识。