主动任务
这些主动检查的目的是让系统管理员能够保持其 VMware Cloud Foundation for Classic - Automated 实例处于健康状态。 如果每天进行维护,可以防止许多与使用、容量和性能问题相关的常见问题影响您的工作。 这些主动检查可分为以下结构。
- 运行状况 - 这些检查指示当前影响环境运行状况,并需要立即关注以最大限度降低影响的问题,即硬件故障。
- 风险——检查表明存在非直接威胁但必须尽快解决的问题。 例如,容量问题。
- 效率 - 这些检查指示可提高性能或回收资源的方面。 例如,正确调整虚拟机 (VM) 和集群的大小。
通过 IBM Cloud® 上的运营管理,许多主动任务可以变得更加简单,从而减少管理时间。
了解自己的“基准”非常重要。 此基线反映的是环境中的正常运行情况。 所有客户都有不同的基线,基线由客户的标准实践、在 VCF for Classic - Automated 实例上运行的工作负载等因素决定。 然后,这些主动检查将最近的容量/性能/利用率与此基线进行比较。 这些主动式使用检查可以回答以下四个问题。
- 目前的是否利用过度?
- 容量是否很快会不足?
- 对于预期峰值使用时间段,集群的大小是否不足?
- 是否可以回收虚拟基础架构中未使用的资源?
准则
以下准则可帮助您主动维护稳定的环境:
- 通过为计划运行的所有 VM 分配足够的资源,规划 VM 部署。 不要忘记为 vSphere ESXi™本身分配资源。
- 正确调整 VM 的大小,并仅向每个 VM 分配其所需的虚拟资源量。 向 VM 供应超过其需求的资源会降低该 VM 以及同一主机上其他 VM 的性能。
- 一般来说,80%的CPU使用率是合理的上限,90%则表明CPU接近超载状态。 如果主机使用率接近80%,请准备更多的主机。
- 一般来说,主机内存使用率80%是合理的上限,90%则表明主机已满负荷运行。 如果主机内存使用率接近80%,请准备更多的主机。
- 务必不要分配过少的内存,通过分配足够的内存来容纳计划在 VM 中运行的应用程序的工作集,可最大限度地减少系统颠簸。 系统颠簸会显著影响应用程序性能。 但是,也要避免内存分配过多。
- 仅在环境中需要时使用资源设置、保留、共享和限制。 如果预期会对总可用资源进行频繁更改,请使用共享(而非保留)在 VM 之间公平分配资源。 只有当存在资源争用时,共享才会生效。
- 如果需要使用保留,请将其配置为指定最低可接受的 CPU 量或内存量,而不是指定您希望可用的量。
- 对于委派的资源管理,请使用资源池;要完全隔离资源池,请将资源池类型设置为“固定”,并使用保留和限制。
- 将多层服务的虚拟机分组到资源池中,以便为整个服务分配资源。 请仔细选择用于 VM 的资源设置(即,保留、共享和限制)。 如果将保留量设置得太高,集群中可供使用的资源就会很少,从而限制了DRS平衡负载的选项。
- 将限制设置得太低可能会使 VM 无法使用集群中可用的额外资源来提高其性能。
- 在资源使用率不超过 80% 的情况下运行集群,以允许使用 VMware Update Manager 来修复主机。 当集群的使用率最高为80%时,集群修复最有可能成功。
- 存储的精简配置增加了维护环境的管理工作量,因为您需要在容量管理过程中谨慎行事。
- 分析 VM 增长情况并了解如何耗尽了基础架构以支持此增长,订购更多容量来促进此增长。
- 使用可用容量,即考虑高可用性和缓冲区,而非总可用容量。
- 请确保您正在运行适用于您系统的当前版本BIOS。
- 确保您正在运行已安装产品的最新 VMware 更新,包括VM硬件和VM工具。
任务列表
标题 | 描述 |
---|---|
运行状况 | 使用 vCenter 来检查所有主机和 VM 对象的运行状况。 有条不紊地逐一检查群集、主机、数据存储、虚拟机和网络,寻找警报。 |
警报和通知检查 | 查看以确认 vCenter 中没有任何您不知道的活动警报。 缺省情况下,vCenter 在安装时已定义多个警报。 这些警报可能会提醒您注意问题。 但是,默认情况下,这些警报仅在 VMware vSphere® Web Client 中发出警告或警报。 可以将这些警报配置为通知,例如电子邮件。 在检查主机和虚拟机对象的健康状况、查看警报、决定是否需要通知以及根据需要进行配置时。 您只需要在遇到最重要或最关键的问题时收到通知。 请考虑以下情况:我希望在凌晨 2 点收到有关此问题的通知,还是可以等到正常工作时间? 太多的通知会被视为“噪声”,而人的本性就是会忽略所有警报。 |
群集 CPU 和内存容量及利用率检查 | 查看群集 CPU 和内存的容量和利用率指标。 使用 vCenter 依次导航到每个群集,然后选择监控器,再选择性能。 复查图形和统计信息,以确保集群有足够的资源来满足需求。 您必须根据以下需求来确定容量:在需要时为虚拟机提供足够的容量,以应对 vSphere ESXi主机故障,以及根据已知的服务请求添加虚拟机。 |
数据存储容量和利用率检查 | 审查数据存储的容量和利用率指标。 使用 vCenter 依次导航到每个数据存储,然后选择监控、性能、空间。 复查图形和统计信息,以确保数据存储有足够的空间来满足需求。 需求应基于为 vSphere ESXi主机故障(对于 vSAN™ 集群)和根据已知服务请求添加虚拟机保留足够的容量。 |
数据存储性能检查 | 查看数据存储的性能指标。 使用 vCenter 依次导航到每个数据存储并选择:监控、性能、性能、实时。 复查图形和统计信息,以确保数据存储性能基线与预期相符,并且任何变化都有合理的解释。 调查任何异常情况。 |
裸机服务器固件 | 最佳实践建议为裸机服务器主机安装最新的固件更新。 使用 IBM Cloud 门户中的更新固件选项,检查裸机服务器主机上的固件更新。 在显示的页面上,查看当前和更新的系统板和硬盘驱动器版本,并查看是否有可用更新。 如果是,请计划在下一个维护窗口更新固件。 更多信息,请参阅 常见问题解答:裸机服务器。 |
vSphere ESXi 修补 | 有关检查 vSphere ESXi补丁可用性的更多信息,请参阅 创建基准并附加到清单对象。 |
VM 硬件更新 | 有关检查VM硬件更新可用性的更多信息,请参阅 创建基准并附加到库存对象。 |
VM Tools 更新 | 有关更多信息,请参阅创建基线并连接到清单对象。 |
vSphere vSAN 修补 | 如需了解有关检查 vSphere vSAN 补丁可用性和补丁过程的更多信息,请参阅 更新 vSAN 集群。 |
VMware vCenter® 补丁 | 如需了解有关检查 vCenter 补丁可用性和应用更新的更多信息,请参阅 VCSA更新和SSO链接的 vCenters。 |
更新 NSX | 有关检查 NSX 补丁可用性并应用升级的更多信息,请参阅 NSX 修补。 |
检查没有安装 VM Tools 的 VM | 最好安装 VM Tools,因为这将支持加强与操作系统的交互,例如正常关闭 VM 的电源。 您可以使用 vCenter 检查哪些虚拟机没有安装虚拟机工具。 转至集群,选择相关对象 > VM,然后在表中启用 VM Tools 运行和 VM Tools 版本的列。 复查列表并根据需要安装 VM Tools。 |
使用快照的 VM | 如需了解使用快照的最佳实践,请参阅 《 vSphere 环境中使用快照的最佳实践》(1025279 )。 识别使用快照的 VM 是否存在非常重要,因为单个快照的使用时间超过 72 小时后,会创建一个快照文件,该文件的大小会持续增长,可能导致快照存储位置空间不足,并影响系统性能。 要使用快照查看虚拟机,请使用Web客户端连接到 vCenter,选择 vCenter,然后转到“相关对象”选项卡。 右键单击列标题,然后转到“显示/隐藏列”列表。 从列列表中选择 “需要合并” 选项。 此列会显示当前正在运行的所有 VM 的摘要。 |
AD/DNS 操作系统修补 | Microsoft® Active Directory™ (AD) / 域名服务器 (DNS) 会被自动设置为仅下载更新。 有关更多信息,请参阅更多限制和注意事项,以获取进一步的更新建议。 |
检查存储器等待时间 | 检查存储器等待时间可了解访问数据存储的 vSphere ESXi 主机的任何变化。 等待时间过长会导致在 VM 中托管的应用程序的速度变慢。 在 vCenter, 转到性能选项卡。 在每个数据存储上,查看每个虚拟机的平均写入延迟。 |
复查使用虚拟设备的 VM | 虚拟设备(例如,CD 或软盘驱动器)会生成开销,因此,请除去 VM 不需要的任何设备。 |
vSAN 容量建议 | 当集群中的任何容量设备达到80%时,vSAN 会自动重新平衡集群,直到所有容量设备的可用空间都低于阈值。 以下操作可能会导致磁盘容量使用率达到 80%,并启动集群重新均衡:硬件故障;通过“转移所有数据”选项,将 vSAN 主机置于维护模式;或者在分配有 PFTT=0 的对象位于 vSAN 主机上时,通过“确保数据可访问性”,将 vSAN 主机置于维护模式。 要提供足够的空间用于维护和重新保护,并尽可能减少 vSAN 集群中的自动重新均衡事件,请考虑始终保持 30% 的可用容量。 |
集群利用率检查 | 使用 vCenter, 查看每个群集,确定哪些群集的 CPU 和 RAM 利用率达到或超过 50%。选择 50% 作为警告级别,是为了重点关注该群集可能通过更多主机或群集进行扩展的情况。 50%的利用率与最高80-90%的利用率之间的差异,就是您因服务请求而增加虚拟机的空间。 在达到 50% 的限制时,应该考虑不久的将来的请求,并预测何时需要添加更多资源。 |
集群合并复查 | 使用 vCenter, 查看每个群集,确定哪些群集的 CPU 和 RAM 利用率为 30% 或更低。选择 30% 作为警告级别,是为了通过移除主机或移除该群集并将虚拟机移至另一个群集,集中关注该群集的潜在合理规模。 |
对过大的 VM 正确调整大小 | 使用简单方法将大小过大的 VM 调整为正确大小:对需求趋势进行识别、剖析和调优以及监视。 使用 vCenter 可识别有潜力进行正确大小设置的大型 VM。 导航至“监视”>“性能”,随时间推移对工作负载的平均 CPU 和 RAM 需求概要信息进行剖析,并调整虚拟资源。 最后,继续监视工作负载,以查看性能是否可接受。 理想情况下,VM 的耗用内存应该接近于访客操作系统使用的内存加上运行 VM 的开销。 |
对过小的 VM 正确调整大小 | 使用简单的方法来调整过小的虚拟机的大小。 首先,确定需求,然后进行剖析和调整,最后监控需求趋势。 确定需要正确调整大小的小型 VM。 随时间推移对工作负载的平均 CPU 和 RAM 需求概要信息进行剖析,并调整虚拟资源。 最后,继续监视工作负载,以查看性能是否可接受。 理想情况下,VM 的耗用内存应该接近于访客操作系统使用的内存加上运行 VM 的开销。 |
检查 VM 硬件设备兼容性 | 使用 VMware 硬件兼容性在线资源,检查您的虚拟机的硬件资源(如网络和存储设备)是否受该操作系统支持。 如果不支持,请更换为支持的设备,以提高可靠性和性能。 |