故障诊断
营销结束:自 2025 年 10 月 31 日起,不再向新客户提供 VMware Solutions 产品的新部署。 现有客户仍可在 IBM Cloud® 上使用和扩展其活动 VMware® 工作负载。 欲了解更多信息,请参阅 IBM Cloud 上的 VMware 营销结束。
查看以下信息以排除 VMware Cloud Foundation for Classic - Automated 实例问题。 系统管理员必须识别问题的症状,确定哪些解决方案组件受到影响,研究并提出修复或变通方法,并测试修复方法。
- 识别症状。 导致实例性能不佳或失效的潜在原因有很多。 高效故障诊断的第一步是准确识别出发生了什么问题。 这些症状可能来自 VMware vSphere® 事件和警报、IBM Cloud® 中的运行管理,或来自服务台的某个用户报告。
 - 隔离受影响的组件。 确定问题的症状后,必须确定受影响的软件或硬件组件。 确定它们是否可能导致问题,以及那些与问题无关的组件。 IBM Cloud 中的 vCenter Operations Management 等工具可帮助您执行此步骤。
 - 提出修复或变通办法。 在了解症状并隔离组件后,您可以研究可能的修复和变通方法。 系统管理员还可使用 IBM Cloud 门户网站(其中包含本文档中的故障诊断场景)以及 IBM ServiceNow 和 VMware Knowledge Base。 此外,您还可以找到许多可能对您有帮助的维基和博客。 为了更快速地解决问题,IBM Cloud 中的 Operations Management 包含针对已识别的问题的一些修复措施。
 - 测试可能的解决方案。 在了解了症状、涉及的组件以及修复或解决方法后,系统管理员会系统地测试解决方案,直到问题得到解决。
 
vSphere 包含用户可配置的事件和警报子系统,用于跟踪在整个 vSphere 环境中发生的事件,并将数据存储在日志文件和 vCenter 数据库中。 此子系统还支持系统管理员指定触发警报的条件。 系统条件发生更改时,警报会将状态从警告更改为更严重的警报,并且可以触发自动警报操作,例如向系统管理员团队发送电子邮件。 当特定清单对象或对象组发生某些事件或出现某些情况时,如果您想获得通知或立即采取行动,该功能非常有用。
其他工具(例如,合并到 Operations Management on IBM Cloud 体系结构中的工具)可在以下方面提供更多帮助:识别症状,隔离受影响的组件以及建议修复或变通方法。
准则
以下指南被认为是 IBM Cloud for VMware Solutions 问题故障排除的最佳实践。
- 系统地处理故障诊断并解决问题。
 - 症状是否与可用性、使用或配置有关:
              
- 可用性 - 这些症状与硬件和软件组件的可用性相关,典型特点是无响应。 通常情况下,高可用性(HA)设计会掩盖这些问题,从而不会直接影响工作负载和用户。
 - 使用情况 - 这些症状与容量和性能有关,主要表现为运行缓慢或无法加载。 主动管理容量可显著减少这些问题。
 - 配置 - 这些问题通常是在提供新服务或应用变更时发现的。 不正确的设置可能表现为可用性或使用症状。 例如,不正确的 IP 地址会显示为可用性问题,而虚拟机 (VM) 内存设置过低则会导致使用症状。
 
 - 尝试将问题隔离到环境中的组件。
 - 进行记录,以便可以跟踪各个步骤。
 - 了解并记录软件版本。
 - 记录子网和 IP 地址的使用情况,包括 VIP 地址和 NAT 地址。
 - 获取网络图。 您需要一些显示物理(底层)和逻辑(覆盖)层的图。
 - 了解最近对环境所做的任何更改。
 - 研究修复的影响;不要将自己锁定在任何管理界面之外。
 - 确保拥有所有关键组件的备份,以便可根据需要重装或重置这些组件。
 - 不要一次更改多项。
 - 记录每个更改及其结果。
 - 提出支持请求时,请确保仔细记录并提供相关信息。 请将您看到的症状描述清楚,并确定您认为发生故障的组件。 确保使用正确的术语。 尽量减少在选择用词方面产生的任何混淆或含糊之处。
 - vSphere ESXi 和 VMware vCenter® 配置文件控制着系统的行为。 大多数配置文件设置是在安装期间设置的,但在安装后可以进行修改。
 - 日志文件捕获内核和不同子系统及服务生成的信息。vSphere ESXi 和 vCenter 服务维护单独的日志文件。 请了解这些文件的位置以及可以如何对其进行访问。
 - 了解如何使用常用系统管理工具来获取诊断帮助。
 
使用日志文件进行故障诊断
日志文件是对问题进行故障诊断的绝佳信息来源。 然而,日志文件的数量和每个日志中的大量条目使诊断变得十分困难。 VMware 产品的日志文件位置(1021806) 详细说明了这些日志文件在 VMware 环境中的位置。 由于日志文件的数量以及每个日志中的大量条目,可以考虑使用 IBM Cloud 上的运行管理工具来帮助捕获和分析事件日志。
常见场景故障诊断
为帮助隔离受影响的组件,本文档将常见故障排除情况分为以下几类。
- 虚拟机 - 这些故障诊断主题提供有关 VM 上潜在问题的指导信息。
 - 主机 - 故障排除主题,提供有关 vSphere ESXi 主机问题的指导。
 - 存储 - 故障排除主题,为解决 vSAN 和 NFS 存储问题提供指导。
 - 网络 - 故障排除主题,为解决网络问题提供指导。
 - vCenter- 故障排除主题,为解决 vCenter 问题提供指导。
 - 许可证 - 故障排除主题,为解决许可证问题提供指导,通常与拥有 IBM Cloud 许可证的客户有关。
 
| 标题 | 描述 | 
|---|---|
| 通用 VM 故障诊断 | 更多信息,请参阅 虚拟机故障排除。 | 
| VM 性能问题 | 您可以排除虚拟机性能问题的症状,包括客户操作系统启动缓慢、应用程序性能不佳、应用程序启动时间过长或应用程序反应迟钝。 | 
| 恢复孤立 VM | 孤儿虚拟机是指存在于 vCenter 数据库中,但未被 vSphere ESXi 主机识别的虚拟机。 有关恢复孤儿虚拟机的详细信息,请参阅 恢复孤儿虚拟机。 | 
| VM 的电源无法打开 | 有关更多信息,请参见 虚拟机无法开机的故障排除(2001005)。 | 
| 在通过模板克隆或部署后,VM 的电源无法打开 | 部署虚拟机主要研究克隆或部署模板后影响虚拟机的问题。 | 
| 旧 VM 网络设备 | 对于没有及时更新的虚拟机网络设备,网络性能和应用程序性能可能会受到影响。 有关部署新虚拟网络设备和驱动程序的详细信息,请参阅 为虚拟机选择网络适配器(1001805)。 | 
| 虚拟机内存限制 | 内存限制会经常使用。 不过,如果客户操作系统无法访问所需的内存,那么客户操作系统内的应用程序可能会表现不佳。 有关解决问题的更多信息,请参阅 配置资源分配设置。 | 
| VM 快照 | 虽然快照很有用,但 VM 快照的数量和寿命会直接影响 VM 的性能。 有关解决问题的详细信息,请参阅 合并快照。 | 
| VM 日志记录 | 如果未正确配置日志记录,数据存储的容量可能会受到不利影响。 有关解决问题的更多信息,请参阅 为来宾操作系统配置日志记录级别。 | 
| 对网络连接问题进行故障诊断 | 症状可能包括 VM 无法连接到网络,或者无法与单个 VM 建立进出网络连接。 有关解决问题的详细信息,请参阅 排除虚拟机网络连接问题(1003893)。 | 
| 确定多个虚拟 CPU 是否导致性能问题 | 这些问题可能包括向虚拟机复制数据或从虚拟机复制数据时传输速度差、备份作业超时或速度慢或虚拟机性能差。 | 
| VM 已关闭电源或重新启动 | 有关详细信息,请参见 确定虚拟机关闭或重新启动的原因(1019064)。 | 
| 一个或多个 VM 的响应时间不佳 | 性能问题可能是由于 CPU 约束、内存超配、存储器等待时间或网络等待时间而导致的。 | 
| 标题 | 描述 | 
|---|---|
| ESXi 命令 | 有关 vSphere, 中的命令行界面、ESXi Shell 命令和 vCLI ( VMware® vSphere Command-Line Interface) 命令的概述,请参阅 ESXCLI 入门。 | 
| vSphere HA 主机状态 | 如果 vCenter 报告的 vSphere HA 主机状态表明主机上存在错误情况,则必须修复这些问题。 这些问题可能导致 vSphere HA 无法在故障后重新启动虚拟机。 更多信息,请参阅 故障排除 vSphere HA主机状态。 | 
| vSphere ESXi 主机处于无响应状态 | 无响应状态包括 Not Responding、Disconnected 或主机上的虚拟机在 vCenter 中显示为 Unavailable。 有关对处于无响应状态的 vSphere ESXi 主机进行故障排除的详细信息,请参阅 ESX/ESXi 主机无响应且显示为灰色(1019082)。 | 
              
启动虚拟机时,会出现 File not found 错误 | 
                有关详细信息,请搜索 Broadcom 支持门户。 | 
| VM 性能问题 | 性能问题可能是由于 CPU 约束、内存超配、存储器等待时间或网络等待时间而导致的。 | 
| 裸机服务器停止运行 | 当运行 vSphere ESXi 的裸机服务器反应迟钝或宕机时,请登录 IBM Cloud 管理用户界面或控制台检查状态。 如果需要,请打开案例以获取有关裸机服务器的帮助。 有关详细信息,请参阅 管理您的支持案例。 | 
| vSphere ESXi 主机处于断开连接状态或无响应状态 | 有关更多信息,请参阅 对处于无响应状态的 ESXi/ESX 主机进行故障排除(1003409)。 | 
| 紫色诊断屏幕 | 紫屏错误可能是内核崩溃的信号。 vSphere ESXi 内核 vmkernel 会在出现无法恢复的事件或错误时触发此安全措施。 无法恢复的错误意味着继续运行会给服务和虚拟机带来高风险。 当发生恐慌和 vSphere ESXi 主机崩溃时,它将结束在其上运行的所有服务和托管的所有虚拟机。 VM 不是正常关闭,而是相当突然地关闭电源。 如果主机是集群的一部分,并且已配置 HA,那么会在集群中的其他主机上重新启动这些 VM。 有关详细信息,请搜索
                  Broadcom 支持门户。 | 
              
| 标题 | 描述 | 
|---|---|
| 存储器故障诊断 | 问题可能由性能缓慢、不可预测的故障、磁盘损坏或虚拟机损坏引起。 | 
| vSAN 故障诊断 | 更多信息,请参阅 vSAN 中的故障处理。 | 
| vSAN 磁盘故障 | 有关如何在 vSAN 重复数据删除群集中识别特定磁盘故障的详细信息,请参阅 在 vSAN 重复数据删除群集中识别特定磁盘故障(2149067)。 | 
| 清除 vSAN 运行状况问题 | 在 vSphere Web Client Monitor 页面,您可能会看到与 vSAN Health 问题相关的警报和警告。 有关清除这些问题的详细信息,请参阅 Virtual SAN 健康警报和警告。 | 
| vSAN 重新均衡 | 如果磁盘在健康检查中报告错误,表明群集不平衡,磁盘空间使用率高,而其他磁盘空间使用率低,则必须运行主动重新平衡。 开始对 vSAN 集群中的对象进行手动启动的重新平衡。 有关 vSAN 主动再平衡以及何时适用的更多信息,请参阅 vSAN 主动再平衡(2149809)。 | 
| 启动 vSAN 运行状况测试 | 如果怀疑 vSAN, 存在问题,可以启动健康测试,以验证群集组件是否按预期运行。 运行 VM 创建测试会在集群中的每个主机上创建 VM,然后将其删除。 如果这些任务成功,说明集群组件在按预期工作,并且集群在正常运行。 然后,网络性能测试用于检测和诊断连接问题,并确保主机之间有足够的网络带宽。 有关更多信息,请参阅 主动测试。 | 
| 监视 vSAN 性能 | 更多信息,请参阅 监控 vSAN 性能。 性能图表可用于集群、主机、物理磁盘、VM 和虚拟盘。 | 
| vSAN 故障诊断 | 更多信息,请参阅 《故障处理与故障排除》 vSAN。 | 
| 标题 | 描述 | 
|---|---|
NSX Edge /var/log 正在全面进入活动边缘 | 
                有关详细信息,请参阅 故障排除磁盘空间相关问题:NSX for vSphere 节点。 | 
| 测试 HCX 带宽 | 当您认为 HCX 存在网络带宽问题时,请使用 perftest 查找 HCX 通道内的可用带宽。 有关详细信息,请参阅 在 HCX 中运行 perftest 的步骤(56211)。 对每个 perftest                  都会执行双向测试。 对于这对网关,一个位于源数据中心(内部),另一个位于 IBM Cloud。 对吞吐量执行 perftest 的工作方式是让发送方尝试以链路可维持的最快速度执行发送。 因此,对于每个测试,都会看到“发送方”速率高于“接收方”速率。 您可以将“接收方”速率值视为单向吞吐量结果。 | 
              
| HCX 故障诊断 | 有关更多信息,请参阅 HCX 故障诊断。 | 
| HCX 同步状态的进度为 0%,字节数为 0,并且状态为“错误” | HCX - 健康检查和最佳做法。 | 
| VM 网络性能不佳 | 复查 VM 虚拟 NIC 设置。 VMware 推荐使用 VMXNET 3 虚拟网卡,因为它是专为提高性能而设计的最新一代准虚拟化网卡。 使用 VMware 兼容性列表来检查 VMXNET 3 的兼容性,如果支持,请更改虚拟 NIC 以获取额外的网络性能。 有关更多信息,请参阅 网络故障排除。 | 
| 标题 | 描述 | 
|---|---|
| 虚拟机控制台访问 | 有关详细信息,请参阅 使用虚拟机控制台。 | 
| 新 vCenter Server 证书似乎未装入 | 更换默认 vCenter 证书后,新证书可能无法加载。 更多信息,请参阅 新 vCenter 服务器证书似乎无法加载。 | 
| vCenter Server 无法连接到受管主机 | 更换默认 vCenter 证书并重新启动系统后,VMware vCenter® Server Appliance (VCSA) 无法连接受管主机。 更多信息,请访问 vCenter 服务器无法连接到托管主机。 | 
| 使用定制 SSL 证书时无法配置 vSphere HA | 安装自定义 SSL 证书后,尝试启用 vSphere HA 失败。 有关详细信息,请参阅 使用自定义 SSL 证书时无法配置 vSphere HA。 | 
| 标题 | 描述 | 
|---|---|
| 许可证配置不兼容或不正确 | 更多信息,请参阅 主机授权疑难解答。 | 
| VM 的电源无法打开 | 如果无法启动 vSphere ESXi 主机上的虚拟机,并且收到 The 60-day evaluation period of the host is expired or the license of the host is expired 消息,则可能存在许可证问题。 更多信息,请参阅 无法启动虚拟机。 | 
              
| 功能不可用或无法更改配置 | 更多信息,请参阅 无法配置或使用某项功能。 |