主动任务
这些主动检查的目的是使系统管理员能够将 VMware Cloud Foundation for Classic - Automated 实例保持在健康状态。 如果每天执行,就能防止许多与使用、容量和性能问题有关的常见问题影响工作负载。 这些主动检查可分为以下几种结构。
- 运行状况 - 这些检查指示当前影响环境运行状况,并需要立即关注以最大限度降低影响的问题,即硬件故障。
- 风险 - 检查是否存在非直接威胁但必须尽快解决的问题。 例如,容量问题。
- 效率 - 这些检查指示可提高性能或回收资源的方面。 例如,正确调整虚拟机 (VM) 和集群的大小。
通过 IBM Cloud® 上的运营管理功能,许多主动任务都可以变得更加简单,并减少管理时间。
了解自己的“基线”非常重要。 此基线反映的是环境中的正常运行情况。 所有客户都有不同的基线,基线由客户的标准实践、在 VCF for Classic - Automated 实例上运行的工作负载等因素决定。 然后,这些主动检查将最近的容量/性能/利用率与此基线进行比较。 这些主动式使用检查可以回答以下四个问题。
- 目前的是否利用过度?
- 容量是否很快会不足?
- 对于预期峰值使用时间段,集群的大小是否不足?
- 是否可以回收虚拟基础架构中未使用的资源?
准则
以下准则可帮助您主动维护稳定的环境:
- 通过为计划运行的所有 VM 分配足够的资源,规划 VM 部署。 不要忘记为 vSphere ESXi™ 本身预留资源。
- 正确调整 VM 的大小,并仅向每个 VM 分配其所需的虚拟资源量。 向 VM 供应超过其需求的资源会降低该 VM 以及同一主机上其他 VM 的性能。
- 一般来说,80% 的主机 CPU 使用率是一个合理的上限,而 90% 则是 CPU 接近过载状态的警告。 如果主机的 CPU 占用率接近 80%,请配置更多主机。
- 一般来说,80% 的主机内存使用率是一个合理的上限,而 90% 的主机内存使用率则是一个警告,表明主机已被完全使用。 如果主机的内存使用率接近 80%,请配置更多主机。
- 务必不要分配过少的内存,通过分配足够的内存来容纳计划在 VM 中运行的应用程序的工作集,可最大限度地减少系统颠簸。 系统颠簸会显著影响应用程序性能。 不过,也要避免过多分配内存。
- 仅在环境中需要时使用资源设置、保留、共享和限制。 如果预期会对总可用资源进行频繁更改,请使用共享(而非保留)在 VM 之间公平分配资源。 只有当存在资源争用时,共享才会生效。
- 如果需要使用保留,请将其配置为指定最低可接受的 CPU 量或内存量,而不是指定您希望可用的量。
- 对于委派的资源管理,请使用资源池;要完全隔离资源池,请将资源池类型设置为“固定”,并使用保留和限制。
- 将多层服务的虚拟机分组到资源池中,以便为整个服务分配资源。 请仔细选择用于 VM 的资源设置(即,保留、共享和限制)。 预留设置过高会导致群集中未预留的资源很少,从而限制 DRS 必须平衡负载的选项。
- 将限制设置得太低可能会使 VM 无法使用集群中可用的额外资源来提高其性能。
- 在资源使用率不超过 80% 的情况下运行集群,以允许使用 VMware Update Manager 来修复主机。 当群集以最多 80% 的使用率运行时,群集修复最有可能成功。
- 存储的精简配置增加了维护环境的管理工作量,因为你需要在容量管理过程中小心谨慎。
- 分析 VM 增长情况并了解如何耗尽了基础架构以支持此增长,订购更多容量来促进此增长。
- 使用可用容量,即考虑高可用性和缓冲区,而非总可用容量。
- 确保运行的是系统可用的当前版本 BIOS。
- 确保您正在运行已安装产品(包括虚拟机硬件和虚拟机工具)的当前 VMware 更新。
任务列表
标题 | 描述 |
---|---|
运行状况 | 使用 vCenter 来检查所有主机和 VM 对象的运行状况。 有条不紊地检查群集、主机、数据存储、虚拟机和网络,查找警报。 |
警报和通知检查 | 查看以确认 vCenter 中没有任何您不知道的活动警报。 缺省情况下,vCenter 在安装时已定义多个警报。 这些警报可能会提醒您注意问题。 但是,默认情况下,这些警报仅在 VMware vSphere® Web Client 中发出警告或警报。 可以将这些警报配置为通知,例如电子邮件。 在检查主机和虚拟机对象的健康状况时,查看警报,决定是否需要通知,并根据需要进行配置。 只有最重要或最关键的问题才需要通知您。 请考虑以下情况:我希望在凌晨 2 点收到有关此问题的通知,还是可以等到正常工作时间? 太多的通知会被视为“噪声”,而人的本性就是会忽略所有警报。 |
群集 CPU 和内存容量及利用率检查 | 查看群集 CPU 和内存的容量和利用率指标。 使用 vCenter 依次导航到每个群集,然后选择监控器,再选择性能。 复查图形和统计信息,以确保集群有足够的资源来满足需求。 您必须将需求建立在保持足够容量的基础上,以便虚拟机在需要时突发、vSphere ESXi 主机发生故障以及根据已知服务请求添加虚拟机。 |
数据存储容量和利用率检查 | 审查数据存储的容量和利用率指标。 使用 vCenter 依次导航到每个数据存储,然后选择监控、性能、空间。 复查图形和统计信息,以确保数据存储有足够的空间来满足需求。 需求应基于维持足够的容量,以便 vSphere ESXi 主机发生故障(对于 vSAN™ 集群),并根据已知的服务请求添加虚拟机。 |
数据存储性能检查 | 查看数据存储的性能指标。 使用 vCenter 依次导航到每个数据存储并选择:监控、性能、性能、实时。 复查图形和统计信息,以确保数据存储性能基线与预期相符,并且任何变化都有合理的解释。 调查任何异常情况。 |
裸机服务器固件 | 最佳实践建议为裸机服务器主机安装最新的固件更新。 使用 IBM Cloud 门户中的更新固件选项,检查裸机服务器主机上的固件更新。 在显示的页面上,查看系统板和硬盘驱动器的当前版本和更新版本,并查看是否有可用的更新。 如果是,请计划在下一个维护窗口更新固件。 更多信息,请参阅 常见问题解答:裸机服务器。 |
vSphere ESXi 修补 | 有关检查 vSphere ESXi 修补程序可用性的详细信息,请参阅 创建基线并附加到清单对象。 |
VM 硬件更新 | 有关检查虚拟机硬件更新可用性的更多信息,请参阅 创建基线并附加到清单对象。 |
VM Tools 更新 | 有关更多信息,请参阅创建基线并连接到清单对象。 |
vSphere vSAN 修补 | 有关检查 vSphere vSAN 补丁可用性和补丁程序的更多信息,请参阅 更新 vSAN 群集。 |
VMware vCenter® 补丁 | 有关检查 vCenter 补丁可用性和应用更新的更多信息,请参阅 VCSA 更新和 SSO 链接 vCenters。 |
更新 NSX | 有关检查 NSX 补丁可用性并应用升级的更多信息,请参阅 NSX 修补。 |
检查没有安装 VM Tools 的 VM | 最好安装 VM Tools,因为这将支持加强与操作系统的交互,例如正常关闭 VM 的电源。 您可以使用 vCenter 检查哪些虚拟机没有安装虚拟机工具。 转至集群,选择相关对象 > VM,然后在表中启用 VM Tools 运行和 VM Tools 版本的列。 复查列表并根据需要安装 VM Tools。 |
使用快照的 VM | 有关使用快照时的最佳实践的更多信息,请参阅 在 vSphere 环境中使用快照的最佳实践(1025279)。 识别使用快照的 VM 是否存在非常重要,因为单个快照的使用时间超过 72 小时后,会创建一个快照文件,该文件的大小会持续增长,可能导致快照存储位置空间不足,并影响系统性能。 要查看带有快照的虚拟机,请使用 Web Client 连接到 vCenter,选择 vCenter 并转到“相关对象”选项卡。 右键单击列标题,进入显示/隐藏列列表。 从列列表中选择“需求合并”选项。 此列会显示当前正在运行的所有 VM 的摘要。 |
AD/DNS 操作系统修补 | Microsoft® Active Directory™ (AD) / 域名服务器 (DNS) 会自动设置为只下载更新。 有关更多信息,请参阅更多限制和注意事项,以获取进一步的更新建议。 |
检查存储器等待时间 | 检查存储器等待时间可了解访问数据存储的 vSphere ESXi 主机的任何变化。 等待时间过长会导致在 VM 中托管的应用程序的速度变慢。 在 vCenter, 转到性能选项卡。 在每个数据存储上,查看每个虚拟机的平均写入延迟。 |
复查使用虚拟设备的 VM | 虚拟设备(例如,CD 或软盘驱动器)会生成开销,因此,请除去 VM 不需要的任何设备。 |
vSAN 容量建议 | 当群集中的任何容量设备达到 80% 满载时,vSAN 会自动重新平衡群集,直到所有容量设备上的可用空间低于阈值。 以下操作可能会导致磁盘容量使用率达到 80%,并启动集群重新均衡:硬件故障;通过“转移所有数据”选项,将 vSAN 主机置于维护模式;或者在分配有 PFTT=0 的对象位于 vSAN 主机上时,通过“确保数据可访问性”,将 vSAN 主机置于维护模式。 要提供足够的空间用于维护和重新保护,并尽可能减少 vSAN 集群中的自动重新均衡事件,请考虑始终保持 30% 的可用容量。 |
集群利用率检查 | 使用 vCenter, 查看每个群集,确定哪些群集的 CPU 和 RAM 利用率达到或超过 50%。选择 50% 作为警告级别,是为了重点关注该群集可能通过更多主机或群集进行扩展的情况。 50% 的利用率与最高 80% - 90% 的利用率之间的差别,就是您因服务请求而需要更多虚拟机的空间。 在达到 50% 的限制时,应该考虑不久的将来的请求,并预测何时需要添加更多资源。 |
集群合并复查 | 使用 vCenter, 查看每个群集,确定哪些群集的 CPU 和 RAM 利用率为 30% 或更低。选择 30% 作为警告级别,是为了通过移除主机或移除该群集并将虚拟机移至另一个群集,集中关注该群集的潜在合理规模。 |
对过大的 VM 正确调整大小 | 使用简单方法将大小过大的 VM 调整为正确大小:对需求趋势进行识别、剖析和调优以及监视。 使用 vCenter 可识别有潜力进行正确大小设置的大型 VM。 导航至“监视”>“性能”,随时间推移对工作负载的平均 CPU 和 RAM 需求概要信息进行剖析,并调整虚拟资源。 最后,继续监视工作负载,以查看性能是否可接受。 理想情况下,VM 的耗用内存应该接近于访客操作系统使用的内存加上运行 VM 的开销。 |
对过小的 VM 正确调整大小 | 使用简单的方法来调整大小不足的虚拟机。 首先,确定需求,然后进行剖析和调整,最后监控需求趋势。 确定需要正确调整大小的小型 VM。 随时间推移对工作负载的平均 CPU 和 RAM 需求概要信息进行剖析,并调整虚拟资源。 最后,继续监视工作负载,以查看性能是否可接受。 理想情况下,VM 的耗用内存应该接近于访客操作系统使用的内存加上运行 VM 的开销。 |
检查 VM 硬件设备兼容性 | 使用 VMware 硬件兼容性在线资源,检查虚拟机的硬件资源(如网络和存储设备)是否支持该操作系统。 如果不支持,请更换为支持的设备,以提高可靠性和性能。 |