主动任务

这些主动检查的目的是使系统管理员能够将 VMware Cloud Foundation for Classic - Automated 实例保持在健康状态。如果每天执行，就能防止许多与使用、容量和性能问题有关的常见问题影响工作负载。这些主动检查可分为以下几种结构。

运行状况 - 这些检查指示当前影响环境运行状况，并需要立即关注以最大限度降低影响的问题，即硬件故障。
风险 - 检查是否存在非直接威胁但必须尽快解决的问题。例如，容量问题。
效率 - 这些检查指示可提高性能或回收资源的方面。例如，正确调整虚拟机 (VM) 和集群的大小。

通过 IBM Cloud® 上的运营管理功能，许多主动任务都可以变得更加简单，并减少管理时间。

了解自己的“基线”非常重要。此基线反映的是环境中的正常运行情况。所有客户都有不同的基线，基线由客户的标准实践、在 VCF for Classic - Automated 实例上运行的工作负载等因素决定。然后，这些主动检查将最近的容量/性能/利用率与此基线进行比较。这些主动式使用检查可以回答以下四个问题。

目前的是否利用过度？
容量是否很快会不足？
对于预期峰值使用时间段，集群的大小是否不足？
是否可以回收虚拟基础架构中未使用的资源？

准则

以下准则可帮助您主动维护稳定的环境：

通过为计划运行的所有 VM 分配足够的资源，规划 VM 部署。不要忘记为 vSphere ESXi™ 本身预留资源。
正确调整 VM 的大小，并仅向每个 VM 分配其所需的虚拟资源量。向 VM 供应超过其需求的资源会降低该 VM 以及同一主机上其他 VM 的性能。
一般来说，80% 的主机 CPU 使用率是一个合理的上限，而 90% 则是 CPU 接近过载状态的警告。如果主机的 CPU 占用率接近 80%，请配置更多主机。
一般来说，80% 的主机内存使用率是一个合理的上限，而 90% 的主机内存使用率则是一个警告，表明主机已被完全使用。如果主机的内存使用率接近 80%，请配置更多主机。
务必不要分配过少的内存，通过分配足够的内存来容纳计划在 VM 中运行的应用程序的工作集，可最大限度地减少系统颠簸。系统颠簸会显著影响应用程序性能。不过，也要避免过多分配内存。
仅在环境中需要时使用资源设置、保留、共享和限制。如果预期会对总可用资源进行频繁更改，请使用共享（而非保留）在 VM 之间公平分配资源。只有当存在资源争用时，共享才会生效。
如果需要使用保留，请将其配置为指定最低可接受的 CPU 量或内存量，而不是指定您希望可用的量。
对于委派的资源管理，请使用资源池；要完全隔离资源池，请将资源池类型设置为“固定”，并使用保留和限制。
将多层服务的虚拟机分组到资源池中，以便为整个服务分配资源。请仔细选择用于 VM 的资源设置（即，保留、共享和限制）。预留设置过高会导致群集中未预留的资源很少，从而限制 DRS 必须平衡负载的选项。
将限制设置得太低可能会使 VM 无法使用集群中可用的额外资源来提高其性能。
在资源使用率不超过 80% 的情况下运行集群，以允许使用 VMware Update Manager 来修复主机。当群集以最多 80% 的使用率运行时，群集修复最有可能成功。
存储的精简配置增加了维护环境的管理工作量，因为你需要在容量管理过程中小心谨慎。
分析 VM 增长情况并了解如何耗尽了基础架构以支持此增长，订购更多容量来促进此增长。
使用可用容量，即考虑高可用性和缓冲区，而非总可用容量。
确保运行的是系统可用的当前版本 BIOS。
确保您正在运行已安装产品（包括虚拟机硬件和虚拟机工具）的当前 VMware 更新。

任务列表

主动任务
标题	描述
运行状况	使用 vCenter 来检查所有主机和 VM 对象的运行状况。有条不紊地检查群集、主机、数据存储、虚拟机和网络，查找警报。
警报和通知检查	查看以确认 vCenter 中没有任何您不知道的活动警报。缺省情况下，vCenter 在安装时已定义多个警报。这些警报可能会提醒您注意问题。但是，默认情况下，这些警报仅在 VMware vSphere® Web Client 中发出警告或警报。可以将这些警报配置为通知，例如电子邮件。在检查主机和虚拟机对象的健康状况时，查看警报，决定是否需要通知，并根据需要进行配置。只有最重要或最关键的问题才需要通知您。请考虑以下情况：我希望在凌晨 2 点收到有关此问题的通知，还是可以等到正常工作时间？太多的通知会被视为“噪声”，而人的本性就是会忽略所有警报。
群集 CPU 和内存容量及利用率检查	查看群集 CPU 和内存的容量和利用率指标。使用 vCenter 依次导航到每个群集，然后选择监控器，再选择性能。复查图形和统计信息，以确保集群有足够的资源来满足需求。您必须将需求建立在保持足够容量的基础上，以便虚拟机在需要时突发、vSphere ESXi 主机发生故障以及根据已知服务请求添加虚拟机。
数据存储容量和利用率检查	审查数据存储的容量和利用率指标。使用 vCenter 依次导航到每个数据存储，然后选择监控、性能、空间。复查图形和统计信息，以确保数据存储有足够的空间来满足需求。需求应基于维持足够的容量，以便 vSphere ESXi 主机发生故障（对于 vSAN™ 集群），并根据已知的服务请求添加虚拟机。
数据存储性能检查	查看数据存储的性能指标。使用 vCenter 依次导航到每个数据存储并选择：监控、性能、性能、实时。复查图形和统计信息，以确保数据存储性能基线与预期相符，并且任何变化都有合理的解释。调查任何异常情况。
裸机服务器固件	最佳实践建议为裸机服务器主机安装最新的固件更新。使用 IBM Cloud 门户中的更新固件选项，检查裸机服务器主机上的固件更新。在显示的页面上，查看系统板和硬盘驱动器的当前版本和更新版本，并查看是否有可用的更新。如果是，请计划在下一个维护窗口更新固件。更多信息，请参阅常见问题解答：裸机服务器。
vSphere ESXi 修补	有关检查 vSphere ESXi 修补程序可用性的详细信息，请参阅创建基线并附加到清单对象。
VM 硬件更新	有关检查虚拟机硬件更新可用性的更多信息，请参阅创建基线并附加到清单对象。
VM Tools 更新	有关更多信息，请参阅创建基线并连接到清单对象。
vSphere vSAN 修补	有关检查 vSphere vSAN 补丁可用性和补丁程序的更多信息，请参阅更新 vSAN 群集。
VMware vCenter® 补丁	有关检查 vCenter 补丁可用性和应用更新的更多信息，请参阅 VCSA 更新和 SSO 链接 vCenters。
更新 NSX	有关检查 NSX 补丁可用性并应用升级的更多信息，请参阅 NSX 修补。
检查没有安装 VM Tools 的 VM	最好安装 VM Tools，因为这将支持加强与操作系统的交互，例如正常关闭 VM 的电源。您可以使用 vCenter 检查哪些虚拟机没有安装虚拟机工具。转至集群，选择相关对象 > VM，然后在表中启用 VM Tools 运行和 VM Tools 版本的列。复查列表并根据需要安装 VM Tools。
使用快照的 VM	有关使用快照时的最佳实践的更多信息，请参阅在 vSphere 环境中使用快照的最佳实践(1025279)。识别使用快照的 VM 是否存在非常重要，因为单个快照的使用时间超过 72 小时后，会创建一个快照文件，该文件的大小会持续增长，可能导致快照存储位置空间不足，并影响系统性能。要查看带有快照的虚拟机，请使用 Web Client 连接到 vCenter，选择 vCenter 并转到“相关对象”选项卡。右键单击列标题，进入显示/隐藏列列表。从列列表中选择“需求合并”选项。此列会显示当前正在运行的所有 VM 的摘要。
AD/DNS 操作系统修补	Microsoft® Active Directory™ (AD) / 域名服务器 (DNS) 会自动设置为只下载更新。有关更多信息，请参阅更多限制和注意事项，以获取进一步的更新建议。
检查存储器等待时间	检查存储器等待时间可了解访问数据存储的 vSphere ESXi 主机的任何变化。等待时间过长会导致在 VM 中托管的应用程序的速度变慢。在 vCenter, 转到性能选项卡。在每个数据存储上，查看每个虚拟机的平均写入延迟。
复查使用虚拟设备的 VM	虚拟设备（例如，CD 或软盘驱动器）会生成开销，因此，请除去 VM 不需要的任何设备。
vSAN 容量建议	当群集中的任何容量设备达到 80% 满载时，vSAN 会自动重新平衡群集，直到所有容量设备上的可用空间低于阈值。以下操作可能会导致磁盘容量使用率达到 80%，并启动集群重新均衡：硬件故障；通过“转移所有数据”选项，将 vSAN 主机置于维护模式；或者在分配有 PFTT=0 的对象位于 vSAN 主机上时，通过“确保数据可访问性”，将 vSAN 主机置于维护模式。要提供足够的空间用于维护和重新保护，并尽可能减少 vSAN 集群中的自动重新均衡事件，请考虑始终保持 30% 的可用容量。
集群利用率检查	使用 vCenter, 查看每个群集，确定哪些群集的 CPU 和 RAM 利用率达到或超过 50%。选择 50% 作为警告级别，是为了重点关注该群集可能通过更多主机或群集进行扩展的情况。 50% 的利用率与最高 80% - 90% 的利用率之间的差别，就是您因服务请求而需要更多虚拟机的空间。在达到 50% 的限制时，应该考虑不久的将来的请求，并预测何时需要添加更多资源。
集群合并复查	使用 vCenter, 查看每个群集，确定哪些群集的 CPU 和 RAM 利用率为 30% 或更低。选择 30% 作为警告级别，是为了通过移除主机或移除该群集并将虚拟机移至另一个群集，集中关注该群集的潜在合理规模。
对过大的 VM 正确调整大小	使用简单方法将大小过大的 VM 调整为正确大小：对需求趋势进行识别、剖析和调优以及监视。使用 vCenter 可识别有潜力进行正确大小设置的大型 VM。导航至“监视”>“性能”，随时间推移对工作负载的平均 CPU 和 RAM 需求概要信息进行剖析，并调整虚拟资源。最后，继续监视工作负载，以查看性能是否可接受。理想情况下，VM 的耗用内存应该接近于访客操作系统使用的内存加上运行 VM 的开销。
对过小的 VM 正确调整大小	使用简单的方法来调整大小不足的虚拟机。首先，确定需求，然后进行剖析和调整，最后监控需求趋势。确定需要正确调整大小的小型 VM。随时间推移对工作负载的平均 CPU 和 RAM 需求概要信息进行剖析，并调整虚拟资源。最后，继续监视工作负载，以查看性能是否可接受。理想情况下，VM 的耗用内存应该接近于访客操作系统使用的内存加上运行 VM 的开销。
检查 VM 硬件设备兼容性	使用 VMware 硬件兼容性在线资源，检查虚拟机的硬件资源（如网络和存储设备）是否支持该操作系统。如果不支持，请更换为支持的设备，以提高可靠性和性能。

主动任务

准则

任务列表

相关链接