故障诊断
查看以下信息以排除 VMware Cloud Foundation for Classic - Automated 实例问题。 您的系统管理员必须识别问题的症状,确定受影响的解决方案组件,进行研究并提出修复或变通方案,并测试修复效果。
- 识别症状。 可能导致实例性能低下或无法运行的原因有很多。 高效故障诊断的第一步是准确识别出发生了什么问题。 这些症状可能来自 VMware vSphere® 事件和警报、IBM Cloud® 中的运营管理,也可能来自您的服务台或您的某个用户。
- 隔离受影响的组件。 确定问题的症状后,必须确定受影响的软件或硬件组件。 确定它们是否可能导致问题,以及那些与问题无关的组件。 IBM Cloud 中的 vCenter Operations Management 等工具可帮助您执行此步骤。
- 提出修复或变通办法。 在了解症状并隔离组件后,您可以研究可能的修复和变通方法。 系统管理员还可使用 IBM Cloud 门户网站(其中包含本文档中的故障诊断场景)以及 IBM ServiceNow 和 VMware Knowledge Base。 此外,您还可以找到许多可能对您有帮助的维基和博客。 为了更快速地解决问题,IBM Cloud 中的 Operations Management 包含针对已识别的问题的一些修复措施。
- 测试可能的解决方案。 在了解了症状、涉及的组件以及修复或解决方法后,系统管理员会系统地测试解决方案,直到问题得到解决。
vSphere 包含用户可配置的事件和警报子系统,用于跟踪在整个 vSphere 环境中发生的事件,并将数据存储在日志文件和 vCenter 数据库中。 此子系统还支持系统管理员指定触发警报的条件。 系统条件发生更改时,警报会将状态从警告更改为更严重的警报,并且可以触发自动警报操作,例如向系统管理员团队发送电子邮件。 当特定库存物品或物品组发生特定事件或条件时,如果您想了解情况或立即采取行动,此功能非常有用。
其他工具(例如,合并到 Operations Management on IBM Cloud 体系结构中的工具)可在以下方面提供更多帮助:识别症状,隔离受影响的组件以及建议修复或变通方法。
准则
以下指南是解决 IBM Cloud for VMware Solutions 问题的最佳实践。
- 系统地处理故障诊断并解决问题。
- 症状是否与可用性、使用或配置有关:
- 可用性 - 这些症状与硬件和软件组件的可用性相关,典型特点是无响应。 通常情况下,高可用性(HA)设计可以掩盖这些问题,从而避免它们直接影响到您的工作负载和用户。
- 使用情况——这些症状与容量和性能有关,典型表现为运行缓慢或无法加载。 主动管理容量可显著减少这些问题。
- 配置——这些问题通常出现在新服务提供过程中或应用变更后。 不正确的设置可能会导致可用性或使用方面的症状。 例如,错误的IP地址会显示为可用性问题,而虚拟机(VM)内存设置过低会导致使用问题。
- 尝试将问题隔离到环境中的组件。
- 进行记录,以便可以跟踪各个步骤。
- 了解并记录软件版本。
- 记录您的子网和IP地址使用情况,包括VIP和NAT地址。
- 获取网络图。 您需要一些显示物理(底层)和逻辑(覆盖)层的图。
- 了解最近对环境所做的任何更改。
- 研究修复的影响;不要将自己排除在任何管理界面之外。
- 确保拥有所有关键组件的备份,以便可根据需要重装或重置这些组件。
- 不要一次更改多项。
- 记录每个更改及其结果。
- 提出支持请求时,请确保仔细记录并提供相关信息。 请将您看到的症状描述清楚,并确定您认为发生故障的组件。 确保使用正确的术语。 尽量减少在选择用词方面产生的任何混淆或含糊之处。
- vSphere ESXi 和 VMware vCenter® 配置文件控制着系统的行为。 大多数配置文件设置是在安装期间设置的,但在安装后可以进行修改。
- 日志文件捕获内核和不同子系统及服务生成的信息。vSphere ESXi 和 vCenter 服务维护单独的日志文件。 请了解这些文件的位置以及可以如何对其进行访问。
- 了解如何使用常用系统管理工具来获取诊断帮助。
使用日志文件进行故障诊断
日志文件是对问题进行故障诊断的绝佳信息来源。 然而,日志文件的数量和每个日志中大量的条目使得诊断变得困难。 VMware 产品的日志文件位置(1021806) 详细说明了这些日志文件在 VMware 环境中的位置。 由于日志文件的数量和每个日志中的大量条目,请考虑使用 IBM Cloud 上的运营管理工具来帮助捕获和分析事件日志。
常见场景故障诊断
为了帮助隔离受影响的组件,这份关于常见故障排除情况的文档分为以下几类。
- 虚拟机 - 这些故障诊断主题提供有关 VM 上潜在问题的指导信息。
- 主机——故障排除主题,为 vSphere ESXi主机问题提供指导。
- 存储——故障排除主题,提供解决 vSAN 和 NFS 存储问题的指导。
- 网络——故障排除主题,提供解决网络问题的指导。
- vCenter- 故障排除主题,提供解决 vCenter 问题的指导。
- 许可证 - 故障排除主题,为解决许可证问题提供指导,通常与拥有 IBM Cloud 许可证的客户有关。
标题 | 描述 |
---|---|
通用 VM 故障诊断 | 更多信息,请参阅 虚拟机故障排除。 |
VM 性能问题 | 您可以排除虚拟机性能问题的症状,包括客户操作系统启动缓慢、应用程序性能不佳、应用程序启动时间过长或应用程序反应迟钝。 |
恢复孤立 VM | 孤儿虚拟机是指存在于 vCenter 数据库中,但未被 vSphere ESXi 主机识别的虚拟机。 有关恢复孤儿虚拟机的详细信息,请参阅 恢复孤儿虚拟机。 |
VM 的电源无法打开 | 更多信息,请参阅 《无法启动的虚拟机的故障排除》(2001005 )。 |
在通过模板克隆或部署后,VM 的电源无法打开 | 部署虚拟机主要研究克隆或部署模板后影响虚拟机的问题。 |
旧 VM 网络设备 | 对于未及时更新的VM网络设备,网络性能和应用程序性能可能会受到影响。 有关部署新的虚拟网络设备和驱动程序的更多信息,请参阅 为您的虚拟机选择网络适配器(1001805 )。 |
虚拟机内存限制 | 内存限制会经常使用。 然而,如果客户操作系统无法访问所需的内存,客户操作系统中的应用程序可能会运行缓慢。 有关解决问题的更多信息,请参阅 配置资源分配设置。 |
VM 快照 | 虽然快照很有用,但 VM 快照的数量和寿命会直接影响 VM 的性能。 有关解决问题的详细信息,请参阅 合并快照。 |
VM 日志记录 | 如果未正确配置日志记录,数据存储器的容量可能会受到不利影响。 有关解决问题的更多信息,请参阅 为来宾操作系统配置日志记录级别。 |
对网络连接问题进行故障诊断 | 症状可能包括 VM 无法连接到网络,或者无法与单个 VM 建立进出网络连接。 有关解决此问题的更多信息,请参阅 “虚拟机网络连接问题故障排除”(1003893 )。 |
确定多个虚拟 CPU 是否导致性能问题 | 这些问题可能包括:在向虚拟机复制数据或从虚拟机复制数据时传输速度慢、备份任务超时或速度慢,或者虚拟机性能不佳。 |
VM 已关闭电源或重新启动 | 有关详细信息,请参见 确定虚拟机关闭或重新启动的原因(1019064)。 |
一个或多个 VM 的响应时间不佳 | 性能问题可能是由于 CPU 约束、内存超配、存储器等待时间或网络等待时间而导致的。 |
标题 | 描述 |
---|---|
ESXi 命令 | 如需了解 vSphere, 中的命令行界面、ESXi Shell命令以及 vCLI ( VMware® vSphere 命令行界面)命令的概览,请参 阅 vSphere 命令行界面入门。 |
vSphere HA 主机状态 | 如果 vCenter 报告的 vSphere HA 主机状态表明主机上存在错误情况,则必须修复这些问题。 这些问题可能导致 vSphere HA 无法在故障后重新启动虚拟机。 更多信息,请参阅 故障排除 vSphere HA主机状态。 |
vSphere ESXi主机处于无响应状态 | 无响应状态包括 Not Responding 、Disconnected 或主机上的虚拟机在 vCenter 中显示为 Unavailable 。 有关对处于无响应状态的 vSphere ESXi 主机进行故障排除的详细信息,请参阅 ESX/ESXi 主机无响应且显示为灰色(1019082)。 |
当您启动虚拟机时,会看到 File not found 错误 |
有关详细信息,请搜索 Broadcom 支持门户。 |
VM 性能问题 | 性能问题可能是由于 CPU 约束、内存超配、存储器等待时间或网络等待时间而导致的。 |
裸机服务器停止运行 | 当运行 vSphere ESXi的裸机服务器无响应或宕机时,请登录 IBM Cloud 管理界面或控制台检查状态。 如果需要,请打开案例以获取有关裸机服务器的帮助。 有关详细信息,请参阅 管理您的支持案例。 |
vSphere ESXi 主机处于断开连接状态或无响应状态 | 更多信息,请参阅 《ESXi/ESX主机故障排除》(1003409 )。 |
紫色诊断屏幕 | 紫屏错误可能是内核崩溃的信号。 vSphere ESXi 内核 vmkernel 会在出现无法恢复的事件或错误时触发此安全措施。 无法恢复的错误意味着继续运行会给服务和虚拟机带来高风险。 当恐慌发生且 vSphere ESXi主机崩溃时,它就会终止所有在其上运行的服务以及托管的所有虚拟机。 VM 不是正常关闭,而是相当突然地关闭电源。 如果主机是集群的一部分,并且已配置 HA,那么会在集群中的其他主机上重新启动这些 VM。 有关详细信息,请搜索
Broadcom 支持门户。 |
标题 | 描述 |
---|---|
存储器故障诊断 | 问题可能由性能缓慢、不可预测的故障、磁盘损坏或虚拟机损坏引起。 |
vSAN 故障诊断 | 更多信息,请参阅 vSAN 中的故障处理。 |
vSAN 磁盘故障 | 有关如何在 vSAN 重复数据删除群集中识别特定磁盘故障的详细信息,请参阅 在 vSAN 重复数据删除群集中识别特定磁盘故障(2149067)。 |
清除 vSAN 运行状况问题 | 在 VMware vSphere Web Client 的“监视”页面上,可能会看到与 vSAN 运行状况问题相关的警报和警告。 有关清除这些问题的更多信息,请参阅 虚拟SAN健康警报和警告。 |
vSAN 重新均衡 | 如果磁盘在运行状况检查中报告错误,表明群集不平衡,并且磁盘空间使用率很高,而其他磁盘空间使用率很低,则必须主动进行重新平衡。 开始对 vSAN 集群中的对象进行手动启动的重新平衡。 如需了解有关 vSAN 主动再平衡的更多信息以及适用条件,请参阅 vSAN 主动再平衡(2149809 )。 |
启动 vSAN 运行状况测试 | 如果您怀疑 vSAN, 存在问题,可以启动健康测试,以验证仪表板组件是否按预期工作。 运行 VM 创建测试会在集群中的每个主机上创建 VM,然后将其删除。 如果这些任务成功,说明集群组件在按预期工作,并且集群在正常运行。 然后,网络性能测试用于检测和诊断连接问题,并确保主机之间的网络带宽足够。 有关更多信息,请参阅 主动测试。 |
监视 vSAN 性能 | 更多信息,请参阅 监控 vSAN 性能。 性能图表可用于集群、主机、物理磁盘、VM 和虚拟盘。 |
vSAN 故障诊断 | 更多信息,请参阅 《故障处理与故障排除》 vSAN。 |
标题 | 描述 |
---|---|
NSX Edge /var/log 正在全面启用Edge |
有关详细信息,请参阅 故障排除磁盘空间相关问题:NSX for vSphere 节点。 |
测试 HCX 带宽 | 当您认为 HCX 存在网络带宽问题时,请使用 perftest 查找 HCX 通道内的可用带宽。 有关详细信息,请参阅 在 HCX 中运行 perftest 的步骤(56211)。 对每个 perftest 都会执行双向测试。 对于一对网关,一个位于源数据中心(本地),另一个位于 IBM Cloud。 对吞吐量执行 perftest 的工作方式是让发送方尝试以链路可维持的最快速度执行发送。 因此,对于每个测试,都会看到“发送方”速率高于“接收方”速率。 您可以将“接收方”速率值视为单向吞吐量结果。 |
HCX 故障诊断 | 有关更多信息,请参阅 HCX 故障诊断。 |
HCX 同步状态的进度为 0%,字节数为 0,并且状态为“错误” | HCX - 健康检查和最佳做法。 |
VM 网络性能不佳 | 复查 VM 虚拟 NIC 设置。 VMware 推荐VMXNET 3虚拟网卡用于虚拟机,因为它是最新一代的准虚拟化网卡,专为提升性能而设计。 使用 VMware 兼容性列表来检查 VMXNET 3 的兼容性,如果支持,请更改虚拟 NIC 以获取额外的网络性能。 有关更多信息,请参阅 网络故障排除。 |
标题 | 描述 |
---|---|
虚拟机控制台访问 | 有关详细信息,请参阅 使用虚拟机控制台。 |
新 vCenter Server 证书似乎未装入 | 在替换默认的 vCenter 证书后,新证书可能无法加载。 更多信息,请参阅 新 vCenter 服务器证书似乎无法加载。 |
vCenter Server 无法连接到受管主机 | 在替换默认的 vCenter 证书并重启系统后,VMware vCenter® 服务器设备(VCSA)无法连接到托管主机。 更多信息,请访问 vCenter 服务器无法连接到托管主机。 |
使用定制 SSL 证书时无法配置 vSphere HA | 在安装自定义SSL证书后,启用 vSphere HA的尝试会失败。 有关详细信息,请参阅 使用自定义 SSL 证书时无法配置 vSphere HA。 |
标题 | 描述 |
---|---|
许可证配置不兼容或不正确 | 更多信息,请参阅 主机授权疑难解答。 |
VM 的电源无法打开 | 如果您无法启动 vSphere ESXi主机上的虚拟机,并收到 The 60-day evaluation period of the host is expired or the license of the host is expired 消息,则可能存在许可证问题。 更多信息,请参阅 无法启动虚拟机。 |
功能不可用或无法更改配置 | 更多信息,请参阅 无法配置或使用某项功能。 |