IBM Cloud Docs
故障诊断

故障诊断

查看以下信息以排除 VMware Cloud Foundation for Classic - Automated 实例问题。 您的系统管理员必须识别问题的症状,确定受影响的解决方案组件,进行研究并提出修复或变通方案,并测试修复效果。

  • 识别症状。 可能导致实例性能低下或无法运行的原因有很多。 高效故障诊断的第一步是准确识别出发生了什么问题。 这些症状可能来自 VMware vSphere® 事件和警报、IBM Cloud® 中的运营管理,也可能来自您的服务台或您的某个用户。
  • 隔离受影响的组件。 确定问题的症状后,必须确定受影响的软件或硬件组件。 确定它们是否可能导致问题,以及那些与问题无关的组件。 IBM Cloud 中的 vCenter Operations Management 等工具可帮助您执行此步骤。
  • 提出修复或变通办法。 在了解症状并隔离组件后,您可以研究可能的修复和变通方法。 系统管理员还可使用 IBM Cloud 门户网站(其中包含本文档中的故障诊断场景)以及 IBM ServiceNow 和 VMware Knowledge Base。 此外,您还可以找到许多可能对您有帮助的维基和博客。 为了更快速地解决问题,IBM Cloud 中的 Operations Management 包含针对已识别的问题的一些修复措施。
  • 测试可能的解决方案。 在了解了症状、涉及的组件以及修复或解决方法后,系统管理员会系统地测试解决方案,直到问题得到解决。

vSphere 包含用户可配置的事件和警报子系统,用于跟踪在整个 vSphere 环境中发生的事件,并将数据存储在日志文件和 vCenter 数据库中。 此子系统还支持系统管理员指定触发警报的条件。 系统条件发生更改时,警报会将状态从警告更改为更严重的警报,并且可以触发自动警报操作,例如向系统管理员团队发送电子邮件。 当特定库存物品或物品组发生特定事件或条件时,如果您想了解情况或立即采取行动,此功能非常有用。

其他工具(例如,合并到 Operations Management on IBM Cloud 体系结构中的工具)可在以下方面提供更多帮助:识别症状,隔离受影响的组件以及建议修复或变通方法。

准则

以下指南是解决 IBM Cloud for VMware Solutions 问题的最佳实践。

  • 系统地处理故障诊断并解决问题。
  • 症状是否与可用性、使用或配置有关:
    • 可用性 - 这些症状与硬件和软件组件的可用性相关,典型特点是无响应。 通常情况下,高可用性(HA)设计可以掩盖这些问题,从而避免它们直接影响到您的工作负载和用户。
    • 使用情况——这些症状与容量和性能有关,典型表现为运行缓慢或无法加载。 主动管理容量可显著减少这些问题。
    • 配置——这些问题通常出现在新服务提供过程中或应用变更后。 不正确的设置可能会导致可用性或使用方面的症状。 例如,错误的IP地址会显示为可用性问题,而虚拟机(VM)内存设置过低会导致使用问题。
  • 尝试将问题隔离到环境中的组件。
  • 进行记录,以便可以跟踪各个步骤。
  • 了解并记录软件版本。
  • 记录您的子网和IP地址使用情况,包括VIP和NAT地址。
  • 获取网络图。 您需要一些显示物理(底层)和逻辑(覆盖)层的图。
  • 了解最近对环境所做的任何更改。
  • 研究修复的影响;不要将自己排除在任何管理界面之外。
  • 确保拥有所有关键组件的备份,以便可根据需要重装或重置这些组件。
  • 不要一次更改多项。
  • 记录每个更改及其结果。
  • 提出支持请求时,请确保仔细记录并提供相关信息。 请将您看到的症状描述清楚,并确定您认为发生故障的组件。 确保使用正确的术语。 尽量减少在选择用词方面产生的任何混淆或含糊之处。
  • vSphere ESXi 和 VMware vCenter® 配置文件控制着系统的行为。 大多数配置文件设置是在安装期间设置的,但在安装后可以进行修改。
  • 日志文件捕获内核和不同子系统及服务生成的信息。vSphere ESXi 和 vCenter 服务维护单独的日志文件。 请了解这些文件的位置以及可以如何对其进行访问。
  • 了解如何使用常用系统管理工具来获取诊断帮助。

使用日志文件进行故障诊断

日志文件是对问题进行故障诊断的绝佳信息来源。 然而,日志文件的数量和每个日志中大量的条目使得诊断变得困难。 VMware 产品的日志文件位置(1021806) 详细说明了这些日志文件在 VMware 环境中的位置。 由于日志文件的数量和每个日志中的大量条目,请考虑使用 IBM Cloud 上的运营管理工具来帮助捕获和分析事件日志。

常见场景故障诊断

为了帮助隔离受影响的组件,这份关于常见故障排除情况的文档分为以下几类。

  • 虚拟机 - 这些故障诊断主题提供有关 VM 上潜在问题的指导信息。
  • 主机——故障排除主题,为 vSphere ESXi主机问题提供指导。
  • 存储——故障排除主题,提供解决 vSAN 和 NFS 存储问题的指导。
  • 网络——故障排除主题,提供解决网络问题的指导。
  • vCenter- 故障排除主题,提供解决 vCenter 问题的指导。
  • 许可证 - 故障排除主题,为解决许可证问题提供指导,通常与拥有 IBM Cloud 许可证的客户有关。
虚拟机故障排除
标题 描述
通用 VM 故障诊断 更多信息,请参阅 虚拟机故障排除
VM 性能问题 您可以排除虚拟机性能问题的症状,包括客户操作系统启动缓慢、应用程序性能不佳、应用程序启动时间过长或应用程序反应迟钝。
恢复孤立 VM 孤儿虚拟机是指存在于 vCenter 数据库中,但未被 vSphere ESXi 主机识别的虚拟机。 有关恢复孤儿虚拟机的详细信息,请参阅 恢复孤儿虚拟机
VM 的电源无法打开 更多信息,请参阅 《无法启动的虚拟机的故障排除》(2001005 )。
在通过模板克隆或部署后,VM 的电源无法打开 部署虚拟机主要研究克隆或部署模板后影响虚拟机的问题。
旧 VM 网络设备 对于未及时更新的VM网络设备,网络性能和应用程序性能可能会受到影响。 有关部署新的虚拟网络设备和驱动程序的更多信息,请参阅 为您的虚拟机选择网络适配器(1001805 )。
虚拟机内存限制 内存限制会经常使用。 然而,如果客户操作系统无法访问所需的内存,客户操作系统中的应用程序可能会运行缓慢。 有关解决问题的更多信息,请参阅 配置资源分配设置
VM 快照 虽然快照很有用,但 VM 快照的数量和寿命会直接影响 VM 的性能。 有关解决问题的详细信息,请参阅 合并快照
VM 日志记录 如果未正确配置日志记录,数据存储器的容量可能会受到不利影响。 有关解决问题的更多信息,请参阅 为来宾操作系统配置日志记录级别
对网络连接问题进行故障诊断 症状可能包括 VM 无法连接到网络,或者无法与单个 VM 建立进出网络连接。 有关解决此问题的更多信息,请参阅 “虚拟机网络连接问题故障排除”(1003893 )。
确定多个虚拟 CPU 是否导致性能问题 这些问题可能包括:在向虚拟机复制数据或从虚拟机复制数据时传输速度慢、备份任务超时或速度慢,或者虚拟机性能不佳。
VM 已关闭电源或重新启动 有关详细信息,请参见 确定虚拟机关闭或重新启动的原因(1019064)
一个或多个 VM 的响应时间不佳 性能问题可能是由于 CPU 约束、内存超配、存储器等待时间或网络等待时间而导致的。
典型vSphereESXi 主机故障排除
标题 描述
ESXi 命令 如需了解 vSphere, 中的命令行界面、ESXi Shell命令以及 vCLI ( VMware® vSphere 命令行界面)命令的概览,请参 阅 vSphere 命令行界面入门
vSphere HA 主机状态 如果 vCenter 报告的 vSphere HA 主机状态表明主机上存在错误情况,则必须修复这些问题。 这些问题可能导致 vSphere HA 无法在故障后重新启动虚拟机。 更多信息,请参阅 故障排除 vSphere HA主机状态
vSphere ESXi主机处于无响应状态 无响应状态包括 Not RespondingDisconnected 或主机上的虚拟机在 vCenter 中显示为 Unavailable。 有关对处于无响应状态的 vSphere ESXi 主机进行故障排除的详细信息,请参阅 ESX/ESXi 主机无响应且显示为灰色(1019082)
当您启动虚拟机时,会看到 File not found 错误 有关详细信息,请搜索 Broadcom 支持门户
VM 性能问题 性能问题可能是由于 CPU 约束、内存超配、存储器等待时间或网络等待时间而导致的。
裸机服务器停止运行 当运行 vSphere ESXi的裸机服务器无响应或宕机时,请登录 IBM Cloud 管理界面或控制台检查状态。 如果需要,请打开案例以获取有关裸机服务器的帮助。 有关详细信息,请参阅 管理您的支持案例
vSphere ESXi 主机处于断开连接状态或无响应状态 更多信息,请参阅 《ESXi/ESX主机故障排除》(1003409 )。
紫色诊断屏幕 紫屏错误可能是内核崩溃的信号。 vSphere ESXi 内核 vmkernel 会在出现无法恢复的事件或错误时触发此安全措施。 无法恢复的错误意味着继续运行会给服务和虚拟机带来高风险。 当恐慌发生且 vSphere ESXi主机崩溃时,它就会终止所有在其上运行的服务以及托管的所有虚拟机。 VM 不是正常关闭,而是相当突然地关闭电源。 如果主机是集群的一部分,并且已配置 HA,那么会在集群中的其他主机上重新启动这些 VM。 有关详细信息,请搜索 Broadcom 支持门户
标题 描述
存储器故障诊断 问题可能由性能缓慢、不可预测的故障、磁盘损坏或虚拟机损坏引起。
vSAN 故障诊断 更多信息,请参阅 vSAN 中的故障处理
vSAN 磁盘故障 有关如何在 vSAN 重复数据删除群集中识别特定磁盘故障的详细信息,请参阅 在 vSAN 重复数据删除群集中识别特定磁盘故障(2149067)
清除 vSAN 运行状况问题 在 VMware vSphere Web Client 的“监视”页面上,可能会看到与 vSAN 运行状况问题相关的警报和警告。 有关清除这些问题的更多信息,请参阅 虚拟SAN健康警报和警告
vSAN 重新均衡 如果磁盘在运行状况检查中报告错误,表明群集不平衡,并且磁盘空间使用率很高,而其他磁盘空间使用率很低,则必须主动进行重新平衡。 开始对 vSAN 集群中的对象进行手动启动的重新平衡。 如需了解有关 vSAN 主动再平衡的更多信息以及适用条件,请参阅 vSAN 主动再平衡(2149809 )。
启动 vSAN 运行状况测试 如果您怀疑 vSAN, 存在问题,可以启动健康测试,以验证仪表板组件是否按预期工作。 运行 VM 创建测试会在集群中的每个主机上创建 VM,然后将其删除。 如果这些任务成功,说明集群组件在按预期工作,并且集群在正常运行。 然后,网络性能测试用于检测和诊断连接问题,并确保主机之间的网络带宽足够。 有关更多信息,请参阅 主动测试
监视 vSAN 性能 更多信息,请参阅 监控 vSAN 性能。 性能图表可用于集群、主机、物理磁盘、VM 和虚拟盘。
vSAN 故障诊断 更多信息,请参阅 《故障处理与故障排除》 vSAN
典型的网络故障排除
标题 描述
NSX Edge /var/log 正在全面启用Edge 有关详细信息,请参阅 故障排除磁盘空间相关问题:NSX for vSphere 节点
测试 HCX 带宽 当您认为 HCX 存在网络带宽问题时,请使用 perftest 查找 HCX 通道内的可用带宽。 有关详细信息,请参阅 在 HCX 中运行 perftest 的步骤(56211)。 对每个 perftest 都会执行双向测试。 对于一对网关,一个位于源数据中心(本地),另一个位于 IBM Cloud。 对吞吐量执行 perftest 的工作方式是让发送方尝试以链路可维持的最快速度执行发送。 因此,对于每个测试,都会看到“发送方”速率高于“接收方”速率。 您可以将“接收方”速率值视为单向吞吐量结果。
HCX 故障诊断 有关更多信息,请参阅 HCX 故障诊断
HCX 同步状态的进度为 0%,字节数为 0,并且状态为“错误” HCX - 健康检查和最佳做法
VM 网络性能不佳 复查 VM 虚拟 NIC 设置。 VMware 推荐VMXNET 3虚拟网卡用于虚拟机,因为它是最新一代的准虚拟化网卡,专为提升性能而设计。 使用 VMware 兼容性列表来检查 VMXNET 3 的兼容性,如果支持,请更改虚拟 NIC 以获取额外的网络性能。 有关更多信息,请参阅 网络故障排除
典型的vCenter故障排除
标题 描述
虚拟机控制台访问 有关详细信息,请参阅 使用虚拟机控制台
新 vCenter Server 证书似乎未装入 在替换默认的 vCenter 证书后,新证书可能无法加载。 更多信息,请参阅 新 vCenter 服务器证书似乎无法加载
vCenter Server 无法连接到受管主机 在替换默认的 vCenter 证书并重启系统后,VMware vCenter® 服务器设备(VCSA)无法连接到托管主机。 更多信息,请访问 vCenter 服务器无法连接到托管主机
使用定制 SSL 证书时无法配置 vSphere HA 在安装自定义SSL证书后,启用 vSphere HA的尝试会失败。 有关详细信息,请参阅 使用自定义 SSL 证书时无法配置 vSphere HA
典型的许可证故障排除
标题 描述
许可证配置不兼容或不正确 更多信息,请参阅 主机授权疑难解答
VM 的电源无法打开 如果您无法启动 vSphere ESXi主机上的虚拟机,并收到 The 60-day evaluation period of the host is expired or the license of the host is expired 消息,则可能存在许可证问题。 更多信息,请参阅 无法启动虚拟机
功能不可用或无法更改配置 更多信息,请参阅 无法配置或使用某项功能