IBM Cloud Docs
疑難排解

疑難排解

查看以下資訊來排查您的VMware Cloud Foundation for Classic - Automated實例問題。 您的系統管理員必須找出問題的症狀、確定哪些解決方案元件受到影響、研究並提出修復或解決方案,以及測試修復方案。

  • 識別症狀。 有許多潛在原因可能會導致您的實體效能不足或無法執行。 有效疑難排解的第一個步驟是確切識別出了什麼錯誤。 這些症狀可能來自 VMware vSphere® 事件和警報、IBM Cloud® 中的作業管理,或來自您服務台的某位使用者的報告。
  • 隔離受影響的組件。 確定問題的症狀後,您必須確定受影響的軟體或硬體組件。 確定它們是否可能導致問題以及那些不涉及的組件。 IBM Cloud 中的 vCenter Operations Management 這類工具可協助您執行此步驟。
  • 提出修復或解決方法。 了解症狀並隔離組件後,您可以研究可能的修復和解決方法。 系統管理者還可使用 IBM Cloud 入口網站(其中包含本文件中的疑難排解情境)以及 IBM ServiceNow 和 VMware Knowledge Base。 此外,您還可以找到許多可能有幫助的 wiki 和部落格。 為了更快速地解決,IBM Cloud 中的 Operations Management 包括一些識別問題的補救方式。
  • 測試可能的解決方案。 當您了解症狀、涉及的組件並找到修復或解決方法後,系統管理員會系統地測試解決方案,直到問題解決為止。

vSphere 包括使用者可配置的事件及警示子系統,它會追蹤在整個 vSphere 環境中發生的事件,並將資料儲存在日誌檔和 vCenter 資料庫中。 此子系統也可讓系統管理者指定觸發警示的條件。 系統條件變更時,警示會將狀態從警告變更為更嚴重的警示,而且可以觸發自動化警示動作,例如,將電子郵件寄送給系統管理者團隊。 當您想要在特定庫存物件或物件群組發生特定事件或情況時,獲得通知或立即採取行動時,此功能非常有用。

其他工具(例如納入 Operations Management on IBM Cloud 架構的工具)可提供更高的協助:識別症狀、隔離受影響的元件,並提出修正程式或暫行解決方法。

準則

下列指引被視為 IBM Cloud for VMware Solutions 疑難排解的最佳做法。

  • 系統性地進行疑難排解和問題解決。
  • 症狀是否與可用性、使用或組態有關:
    • 可用性 - 這些症狀與軟硬體元件的可用性相關,並以「沒有回應」表示。 通常高可用性 (HA) 設計會掩蓋這些問題,使其不會直接影響您的工作負載和使用者。
    • 使用情況 - 這些症狀與容量和效能有關,主要表現為執行緩慢或無法載入。 主動管理容量會大幅降低這些問題。
    • 組態 - 這些問題通常是在提供新服務或應用變更時發現的。 不正確的設定可能會表現為可用性或使用症狀。 例如,不正確的 IP 位址會顯示為可用性問題,而虛擬機 (VM) RAM 設定不足則會造成使用症狀。
  • 嘗試將問題隔離到環境中的某個元件。
  • 請記錄,以追蹤您的步驟。
  • 瞭解及記載軟體版本。
  • 記錄您的子網路和 IP 位址使用情況,包括 VIP 和 NAT 位址。
  • 具有網路的圖表。 您需要一些圖表來顯示實體(基礎)和邏輯(層疊)層。
  • 瞭解環境的所有最新變更。
  • 研究修復的影響;不要將自己鎖在任何管理介面之外。
  • 確定您有所有重要元件的備份;以防需要重新載入或重設它們。
  • 一次不要變更多個事項。
  • 記載每項變更及其結果。
  • 提出支援要求時,請確保仔細記錄並提供相關資訊。 請將您看到的症狀描述清楚,並確認您認為發生故障的元件。 確保使用正確的術語。 在您選擇的字組中,儘可能減少任何混淆或語義不明確。
  • vSphere ESXi 和VMware vCenter®設定檔控制系統的行為。 大部分配置檔設定都是在安裝期間設定,但在安裝之後可以進行修改。
  • 日誌檔案捕獲由核心以及不同子系統和服務產生的訊息。vSphere ESXi 和vCenter服務維護單獨的日誌檔案。 請瞭解這些文件的位置以及可以如何對其進行存取。
  • 瞭解如何使用熱門系統管理工具,以協助進行診斷。

日誌檔疑難排解

日誌檔是疑難排解問題的絕佳資訊來源。 但是,由於日誌檔案的數量以及每個日誌中龐大的項目數量,使得診斷變得困難。 Location of log files for VMware products(1021806)詳細說明了這些記錄檔在VMware環境中的位置。 由於日誌檔案的數量以及每個日誌中的大量項目,請考慮 IBM Cloud 上的作業管理中的工具,以協助擷取和分析事件日誌。

一般情境疑難排解

為了協助隔離受影響的元件,本文件將常見的疑難排解情況分類為下列幾類。

  • 虛擬機器 - 這些疑難排解主題提供有關 VM 潛在問題的指引。
  • 主機 - 疑難排解主題,提供 vSphere ESXi 主機問題的指導。
  • 儲存 - 疑難排解主題,提供解決 vSAN 和 NFS 儲存問題的指引。
  • 網路 - 疑難排解主題,提供解決網路問題的指引。
  • vCenter- 疑難排解主題提供解決 vCenter 問題的指引。
  • 許可證 - 提供有關解決許可證問題的指導的疑難排解主題,通常與擁有自己的IBM Cloud許可證的客戶相關。
虛擬機器故障排除
標題 說明
一般 VM 疑難排解 如需詳細資訊,請參閱 疑難排解虛擬機
VM 效能問題 您可以對虛擬機器效能問題的症狀進行故障排除,包括來賓作業系統啟動緩慢、應用程式效能不佳、應用程式啟動時間較長或應用程式無回應。
回復孤立的 VM 孤立虛擬機器是指存在於vCenter資料庫中但vSphere ESXi 主機無法辨識的虛擬機器。 有關恢復孤立虛擬機器的詳細信息,請參閱 恢復孤立虛擬機器
未開啟 VM 電源 如需詳細資訊,請參閱 虛擬機器無法開機的疑難排解(2001005)
從範本複製或部署之後,未開啟 VM 電源 部署虛擬機器」檢視虛擬機器從範本複製或部署後會影響虛擬機器的問題。
舊 VM 網路裝置 對於未保持更新的 VM 網路裝置,網路效能和應用程式效能可能會受到影響。 如需部署新虛擬網路裝置和驅動程式的詳細資訊,請參閱 為您的虛擬機器選擇網路介面卡(1001805)
虛擬機器記憶體限制 記憶體限制會經常使用。 但是,如果客體作業系統無法存取所需的記憶體,客體作業系統內的應用程式可能會表現不佳。 有關解決問題的詳細資訊,請參閱 設定資源分配設定
VM Snapshot 雖然 Snapshot 很有用,但 VM Snapshot 的數量和壽命會直接影響 VM 的效能。 有關解決該問題的更多信息,請參閱 合併快照
VM 記載 如果未正確設定記錄,資料存放區的容量可能會受到不利影響。 如需解決問題的詳細資訊,請參閱 設定 guest OS 的記錄層級
網路連線問題疑難排解 症狀可能包括 VM 無法連接至網路,或沒有與單一 VM 之間的網路連線。 有關解決問題的詳細資訊,請參閱解決 虛擬機器網路連線問題(1003893)
確定多個虛擬個 CPU 是否導致效能問題 這些問題可能包括當他們複製資料到虛擬機器或從虛擬機器複製資料時傳輸速度不佳,如果備份工作超時或緩慢,或虛擬機器表現不佳。
已關閉 VM 的電源或將其重新啟動 有關詳細信息,請參閱 確定虛擬機器關閉或重新啟動的原因(1019064)
一個以上 VM 回應時間不佳 效能問題可能是 CPU 限制、記憶體過度確定、儲存空間延遲或網路延遲所造成。
典型vSphere ESXi 主機故障排除
標題 說明
EXI 指令 有關 vSphere, ESXi Shell 命令和 vCLI ( VMware® vSphere 命令列介面)命令的概述,請參閱 vSphere 命令列介面入門
vSphere HA 主機狀態 如果vCenter報告vSphere HA 主機狀態顯示主機上有錯誤情況,則必須修正這些問題。 這些問題可能會阻止vSphere HA 在發生故障後重新啟動虛擬機器。 如需詳細資訊,請參閱 疑難排解 vSphere HA 主機狀態
vSphere ESXi 主機處於無回應狀態 無回應狀態包括 Not RespondingDisconnected 或主機上的虛擬機器在vCenter中顯示為 Unavailable。 有關對處於無回應狀態的vSphere ESXi 主機進行故障排除的詳細信息,請參閱 ESX/ESXi 主機不回應且呈灰色(1019082)
開啟虛擬機器時,您會看到 File not found 錯誤 欲了解更多信息,請搜尋 Broadcom 支援門戶
VM 效能問題 效能問題可能是 CPU 限制、記憶體過度確定、儲存空間延遲或網路延遲所造成。
Bare Metal Server 已關閉 當執行 vSphere ESXi 的裸機伺服器無反應或當機時,請登入 IBM Cloud 管理 UI 或主控台並檢查狀態。 必要時,請開啟案例,以取得 Bare Metal Server 的協助。 有關更多信息,請參閱 管理您的支援案例
vSphere ESXi 主機處於已中斷連線或未回應狀態 如需詳細資訊,請參閱 疑難排解 ESXi/ESX 主機的非回應狀態(1003409)
紫色診斷屏 紫屏錯誤可能表示內核崩潰。 vSphere ESXi 核心 vmkernel 觸發此安全措施以回應不可恢復的事件或錯誤。 不可恢復的錯誤意味著繼續運作會為服務和虛擬機器帶來高風險。 當發生恐慌且 vSphere ESXi 主機崩潰時,它會終止在其上執行的所有服務以及託管的所有虛擬機器。 VM 不是正常關閉,而是相當突然地關閉電源。 如果主機是叢集的一部分,並且已配置 HA,則會在叢集裡的其他主機上重新啟動這些 VM。 欲了解更多信息,請搜尋 Broadcom 支援門戶
標題 說明
儲存空間疑難排解 問題可能是由於緩慢的效能、不可預測的故障、磁碟損毀或虛擬機器損毀。
vSAN 疑難排解 如需詳細資訊,請參閱 vSAN 中的故障處理
vSAN 磁碟故障 有關如何識別vSAN重複資料 刪除叢集中的特定磁碟故障的詳細信息,請參閱Identifying certain disk failure in a vSAN Deduplication cluster(2149067)
清除 vSAN 性能問題 在 VMware vSphere Web Client 的「監視」頁面中,您可能會看到與「vSAN 性能」問題相關的警示和警告。 如需清除這些問題的詳細資訊,請參閱 Virtual SAN 健康警示和警告
vSAN 重新平衡 如果磁碟在健康檢查中報告錯誤,顯示群集不平衡,磁碟的空間使用率高,而其他磁碟的空間使用率低,而且您必須執行主動重新平衡。 開始手動啟動vSAN叢集中物件的重新平衡。 如需有關 vSAN 主動再平衡以及何時適用的詳細資訊,請參閱 vSAN 主動再平衡(2149809)
起始 vSAN 性能測試 如果您懷疑 vSAN, 有問題,您可以啟動健康測試,以驗證群集元件是否如預期般運作。 執行 VM 建立測試會在叢集的每個主機上建立 VM,然後刪除 VM。 如果這些作業順利完成,則叢集元件會如預期運作,且叢集可運作。 然後,網路效能測試可用於偵測和診斷連線問題,並確保主機間的網路頻寬充足。 有關更多信息,請參閱 主動測試
監視 vSAN 效能 如需詳細資訊,請參閱 監控 vSAN 效能。 效能圖表適用於叢集、主機、實體磁碟、VM 及虛擬磁碟。
vSAN 疑難排解 如需詳細資訊,請參閱 故障處理與疑難排解 vSAN
典型網路故障排除
標題 說明
NSX Edge /var/log 滿足主動式 Edge 的需求 有關詳細信息,請參閱 對磁碟空間相關問題進行故障排除:NSX for vSphere 節點
測試 HCX 頻寬 當您認為 HCX 有網路頻寬問題時,請使用 perftest 尋找 HCX 隧道內的可用頻寬。 有關詳細信息,請參閱 在 HCX 中運行 perftest 的步驟(56211)。 對每個 perftest 都會執行雙向測試。 對於這對閘道,一個在來源資料中心 (內部) 內,另一個在 IBM Cloud。 perftest 傳輸量的運作方式是讓傳送端嘗試在鏈結可以承受時快速傳送。 因此,針對每個測試,您會看到「傳送端」速率高於「接收端」速率。 您可以將「接收端」速率值視為單向傳輸量結果。
HCX 疑難排解 如需相關資訊,請參閱 HCX 疑難排解
具有 0% 進度和 0 位元組且狀態為「錯誤」的 HCX 同步狀態 HCX - 健康檢查和最佳實踐
VM 網路效能不佳 檢閱 VM 虛擬 NIC 設定。 VMware 推薦使用 VMXNET 3 虛擬網卡,因為它是專為效能設計的最新一代准虛擬化網卡。 使用 VMware 相容性清單檢查 VMXNET 3 相容性,如果支援,請變更虛擬 NIC 以獲得額外的網路效能。 有關詳細信息,請參閱 網路故障排除
典型的vCenter故障排除
標題 說明
虛擬機器主控台存取 有關詳細信息,請參閱 使用虛擬機器控制台
似乎未載入新 vCenter Server 憑證 更換預設的 vCenter 憑證後,可能會出現無法載入新憑證的情況。 如需詳細資訊,請參閱 New vCenter Server certificate does not appear to load
vCenter Server 無法連接至受管理主機 更換預設 vCenter 證書並重新啟動系統後,VMware vCenter® Server Appliance (VCSA) 無法連線到受管的主機。 如需詳細資訊,請參閱 vCenter Server 無法連線到管理的主機
使用自訂 SSL 憑證時無法配置 vSphere HA 安裝自訂 SSL 憑證後,嘗試啟用 vSphere HA 失敗。 有關詳細信息,請參閱 使用自訂 SSL 憑證時無法設定vSphere HA
典型的許可證故障排除
標題 說明
不相容或不正確的授權配置 如需詳細資訊,請參閱 主機授權疑難排解
未開啟 VM 電源 如果您無法啟動 vSphere ESXi 主機上的虛擬機器,並且收到 The 60-day evaluation period of the host is expired or the license of the host is expired 訊息,則可能存在授權問題。 如需詳細資訊,請參閱 無法啟動虛擬機器
特性無法使用,或無法變更配置 如需詳細資訊,請參閱 無法設定或使用功能