トラブルシューティング
VMware Cloud Foundation for Classic - Automated インスタンスの問題をトラブルシューティングするには、以下の情報を確認してください。 システム管理者は、問題の症状を特定し、影響を受けているソリューションのコンポーネントを判別し、解決策または回避策を調査して提案し、解決策をテストする必要があります。
- 症状の特定。 インスタンスのパフォーマンス不足や不具合の原因となり得る要因は数多くあります。 効率的なトラブルシューティングの第 1 段階は、症状を正確に見極めることです。 このような症状は、VMware vSphere® のイベントとアラームや IBM Cloud® の Operations Management から報告されたり、ユーザーの 1 人からサービス・デスクを介して報告されたりする場合があります。
- 影響を受けているコンポーネントの切り分け。 問題の症状を特定したら、影響を受けているソフトウェアまたはハードウェアのコンポーネントを特定する必要があります。 問題の原因である可能性があるものや、関係のないコンポーネントを特定する必要があります。 IBM Cloud の vCenter Operations Management などのツールが、この段階の役に立ちます。
- 解決策または回避策の提案。 症状を把握してコンポーネントを切り分けたら、実行可能な解決策や回避策を調査することができます。 また、システム管理者は、この資料のトラブルシューティング・シナリオを含む IBM Cloud ポータル、IBM ServiceNow、および VMware ナレッジベースを利用します。 さらに、役に立つ可能性がある多数の Wiki やブログも調べることができます。 非常に迅速な解決策として、IBM Cloud の Operations Management には、特定された問題への対処策が含まれています。
- 候補となる解決策のテスト。 症状や関係するコンポーネントを理解し、解決策や回避策を考えたら、問題が解決するまでその解決策を体系的にシステム管理者にテストしてもらいます。
vSphere にはユーザーが構成できるイベントとアラームのサブシステムが含まれており、このサブシステムは vSphere 環境全体の発生イベントを追跡してログ・ファイルと vCenter データベースにデータを保管します。 このサブシステムでは、システム管理者がアラームのトリガー条件を指定することもできます。 アラームの状態は、システムの状態の変化に応じて「警告」からさらに重大な「アラート」に変わります。また、アラームの状態によって、システム管理者チームに E メールを送信するなどの自動化されたアラーム・アクションをトリガーできます。 この機能は、インベントリーの特定のオブジェクトまたはオブジェクト・グループに特定のイベントや状態が発生した場合に通知が必要であったり、そのような状況にすぐに対処しなければならなかったりする場合に便利です。
Operations Management on IBM Cloud アーキテクチャーの組み込みツールなどの追加のツールを使用すると、症状の見極め、影響を受けているコンポーネントの切り分け、解決策または回避策の提案に非常に役立ちます。
ガイドライン
以下のガイドラインは、IBM Cloud for VMware Solutions の問題をトラブルシューティングするためのベスト・プラクティスと見なされています。
- トラブルシューティングと問題解決に体系的に取り組みます。
- 状態、使用率、または構成のどれに関連する症状なのかを見極めます。
- 状態 - これはハードウェアとソフトウェアのコンポーネントの状態に関する症状であり、代表的な症状は「応答なし」です。 高可用性(HA)設計により、これらの問題が覆い隠されることがよくあり、それにより、ワークロードやユーザーに直接的な影響が及ばないようになっています。
- 使用率 - これは容量とパフォーマンスに関する症状であり、代表的な症状は「実行速度が遅い」や「ロードできない」です。 プロアクティブに容量を管理することで、これらの問題は大幅に削減できます。
- 構成 - これらの問題は、通常、新しいサービスの提供時、または変更を適用した結果として発見されます。 誤った設定が、状態に関する症状または使用率に関する症状として表面化します。 例えば、IP アドレスが誤っていると状態に関する問題が現れますが、仮想マシン (VM) の RAM 設定が低いと使用率に関する症状が出ます。
- 環境内の 1 つのコンポーネントを特定するまで問題を切り分けます。
- どのような段階を踏んだのか遡れるようにメモします。
- ソフトウェアのバージョンを確認し、文書で記録します。
- VIPアドレスやNATアドレスを含め、サブネットとIPアドレスの使用状況を記録してください。
- ネットワーク図を用意します。 物理 (アンダーレイ) 層と論理 (オーバーレイ) 層を示す複数の図が必要です。
- 最近の環境変更を確認します。
- 修正の影響を調査し、管理インターフェースから締め出されないようにする。
- 再ロードまたはリセットが必要になった場合に備えて、重要なコンポーネントをすべて確実にバックアップしておきます。
- 一度に複数の変更を加えないでください。
- 各変更とその結果を文書に記録します。
- サポート・リクエストを作成する場合は、細かく記入して、適切な情報を提供してください。 目に見える症状を明確にし、障害のあると思われるコンポーネントを特定します。 必ず正しい用語を使用してください。 できる限り勘違いしない単語、あいまいでない単語を選択してください。
- vSphere ESXiと の構成ファイルは、システムの動作を制御します。 VMware vCenter® 構成ファイルのほとんどの設定はインストール時に設定しますが、インストール後も変更できます。
- ログ・ファイルは、カーネルおよびさまざまなサブシステムとサービスによって生成されるメッセージをキャプチャーします。vSphere ESXi および vCenter サービスは、別々のログ・ファイルを維持します。 各ログ・ファイルの場所と取得方法を確認します。
- 診断に役立つ一般的なシステム管理ツールの使用法について理解します。
ログ・ファイルを使用したトラブルシューティング
ログ・ファイルは問題のトラブルシューティングの役に立つ優れた情報源です。 ただし、ログ・ファイルの数と、各ログ内の膨大な項目数により、診断が困難になります。 VMware 製品(1021806)のログファイルの場所の詳細 VMware 環境におけるこれらのログファイルの場所。 ログ・ファイルの数と、各ログ内の膨大な項目数の理由から、Operations Management on IBM Cloud のツールを利用してイベント・ログの収集と分析を行うことを検討してください。
一般的なシナリオのトラブルシューティング
影響を受けているコンポーネントを切り分けられるように、ここでは、一般的なシナリオのトラブルシューティングについて、以下のカテゴリーに分類して説明します。
- 仮想マシン - このトラブルシューティングのトピックでは、VM の問題である可能性がある場合の手順を説明します。
- ホスト - vSphere ESXi ホストの問題に関するガイダンスを提供するトラブルシューティングのトピックです。
- ストレージ - vSAN と NFS のストレージの問題を解決する方法に関するガイダンスを提供するトラブルシューティングのトピックです。
- ネットワーク - ネットワークの問題を解決する方法に関するガイダンスを提供するトラブルシューティングのトピックです。
- vCenter - vCenter の問題を解決する方法に関するガイダンスを提供するトラブルシューティングのトピックです。
- ライセンス - ライセンスの問題、特に IBM Cloud に自分のライセンスがあるお客様に関連した問題の解決に関するガイダンスを提供するトラブルシューティングのトピックです。
タイトル | 説明 |
---|---|
一般的な VM のトラブルシューティング | 詳細については 、「仮想マシンのトラブルシューティング 」を参照してください。 |
VM のパフォーマンスの問題 | ゲスト OS の始動が遅い、アプリケーションのパフォーマンスが低い、アプリケーションの始動に長い時間がかかる、アプリケーションが応答しなくなったなど、VM のパフォーマンスの問題の症状をトラブルシューティングすることができます。 |
孤立した VM のリカバリー | 孤立した VM とは、vCenter データベース内に存在するのに vSphere ESXi ホストで認識されない VM のことです。 孤立したVMの復旧に関する詳細は 、「孤立した仮想マシンの復旧」 を参照してください。 |
VM がパワーオンにならない | 詳細については 、「電源をオンにできない仮想マシンのトラブルシューティング(2001005 )」を参照してください。 |
複製した VM またはテンプレートからデプロイした VM がパワーオンにならない | 仮想マシンの展開では、テンプレートからクローン作成または展開された後のVMに影響する問題について説明します。 |
VM ネットワーク・デバイスが古い | 最新の状態に保たれていない VM ネットワーク・デバイスでは、ネットワークのパフォーマンスとアプリケーションのパフォーマンスに影響する可能性があります。 新しい仮想ネットワークデバイスとドライバーの展開に関する詳細は 、「仮想マシン用のネットワークアダプターの選択(1001805 )」を参照してください。 |
仮想マシンのメモリー制限 | メモリー制限は一般的に使用されます。 しかし、必要なメモリーをゲスト OS が利用できなかった場合、ゲスト OS 内のアプリケーションのパフォーマンスが低くなる可能性があります。 問題の解決方法の詳細については 、「リソース割り当て設定の構成」 を参照してください。 |
VM のスナップショット | スナップショットは便利ですが、VM のスナップショットの数量と存続期間は VM のパフォーマンスに直接影響します。 問題の解決方法の詳細については 、「スナップショットの統合」 を参照してください。 |
VM のロギング | ロギングが正しく構成されていないと、データ・ストアの容量に悪影響が及ぶ可能性があります。 問題の解決方法の詳細については 、「ゲスト OS のログレベルの設定」 を参照してください。 |
ネットワーク接続の問題のトラブルシューティング | 症状としては、VM がネットワークに接続できない、単一の VM とのネットワーク接続がないなどがあります。 問題の解決方法の詳細については 、「仮想マシンのネットワーク接続の問題のトラブルシューティング(1003893 )」を参照してください。 |
複数の仮想 CPU がパフォーマンスの問題の原因かどうかを調べる | これらの問題には、VM との間でデータをコピーする際の転送速度が遅い、バックアップ・ジョブがタイムアウトになる、あるいは非常に遅い、VM のパフォーマンスが低いなどの問題があります。 |
VM がパワーオフまたは再起動された | 詳細については 、「仮想マシンがパワーオフまたは再起動された理由の特定(1019064 )」を参照してください。 |
1 つ以上の VM の応答時間が遅い | パフォーマンスの問題は、 CPU の制約、メモリーのオーバー・コミットメント、ストレージ待ち時間、またはネットワーク待ち時間が原因で発生する可能性があります。 |
タイトル | 説明 |
---|---|
ESXI コマンド | vSphere, のESXiシェルコマンド、および vCLI ( VMware® vSphere コマンドラインインターフェイス)コマンドの概要については 、「 vSphere コマンドラインインターフェイスの使用を開始する」を参照してください。 |
vSphere HA ホストの状態 | vSphere HA ホストのエラー状態を示すホスト状態が vCenter から報告された場合は、問題を解決する必要があります。 この問題があると、vSphere HA で障害が発生した場合に VM を再始動することができないからです。 詳細については 、 vSphere HA ホストの状態のトラブルシューティングを参照してください。 |
vSphere ESXi ホストが応答しない状態です | 応答しない状態には、 Not Responding 、 Disconnected 、または Unavailable として表示されるホスト上のVM( vCenter )が含まれます。 応答しない状態の vSphere ESXi ホストのトラブルシューティングの詳細については 、「ESX/ESXi ホストが応答せず、グレー表示される(1019082)」 を参照してください。 |
VM のパワーオン時にFile not found というエラーが表示される |
詳細については、Broadcom Support Portal を検索してください。 |
VM のパフォーマンスの問題 | パフォーマンスの問題は、 CPU の制約、メモリーのオーバー・コミットメント、ストレージ待ち時間、またはネットワーク待ち時間が原因で発生する可能性があります。 |
ベアメタル・サーバーがダウンする | vSphere ESXi を実行しているベアメタル・サーバーが応答しないまたはダウンしている場合は、IBM Cloud 管理 UI またはコンソールにログインし、状況を確認します。 必要に応じて、Case をオープンしてベアメタル・サーバーに関する支援を求めます。 詳しくは、サポート Case の管理を参照してください。 |
vSphere ESXi ホストが切断状態または無応答状態である | 詳細については 、「応答しない状態のESXi/ESXホストのトラブルシューティング(1003409 )」を参照してください。 |
パープル診断スクリーン | パープル・スクリーン・エラーは、カーネル・パニックを示している可能性があります。 vSphere ESXi カーネル vmkernel は、回復不可能なイベントやエラーが発生した場合に、この安全対策を発動します。 復旧不能エラーとは、実行し続けるとサービスや VM に高いリスクが及ぶことを意味します。 このパニックが発生して vSphere ESXi ホストがクラッシュすると、そのホスト上で実行中のすべてのサービスが終了し、ホストされているすべての
VM も一緒に終了します。 VM は正常にシャットダウンされないどころか、突然パワーオフされます。 ホストがクラスターの一部であり、HA を構成している場合は、それらの VM はクラスター内の他のホスト上で再起動します。 詳細については、Broadcom Support Portal を検索してください。 |
タイトル | 説明 |
---|---|
ストレージのトラブルシューティング | 問題は、パフォーマンスの低下、予測不能な障害、ディスクの破損、またはVMの破損によって引き起こされる可能性があります。 |
vSAN のトラブルシューティング | 詳細は 、 vSAN の「障害処理」 を参照してください。 |
vSAN のディスク障害 | vSAN 重複排除クラスタ内の特定のディスク障害を識別する方法の詳細については、 「 vSAN 重複排除クラスタ内の特定のディスク障害の識別(2149067)」を参照してください。 |
vSAN 健全性の問題の除去 | VMware vSphere Web Client の「監視」ページに、SAN の健全性の問題に関するアラートや警告が表示されることがあります。 これらの問題の解決方法の詳細については 、「Virtual SAN の健全性に関する警告」 を参照してください。 |
vSAN のリバランス | ディスクの健全性チェックで、クラスターのバランスに偏りがあり、スペース使用量が多いディスクと低いディスクがあるというエラーが報告された場合は、プロアクティブ・リバランスを実行する必要があります。 vSAN クラスター内のオブジェクトの手動開始リバランス作業が開始します。 vSAN プロアクティブ・リバランスおよび適用可能な場合の詳細については、 vSAN プロアクティブ・リバランス(2149809) を参照してください。 |
vSAN 健全性テストの開始 | vSAN に問題があると疑われる場合は、健全性テストを開始して、クラスター・コンポーネントが想定どおりに機能しているか検証できます。 VM 作成テストを実行すると、クラスター内の各ホスト上で VM が作成され、その後、削除されます。 これらのタスクに成功した場合は、クラスター・コンポーネントが想定どおりに機能しており、クラスターは正常です。 次に、ネットワークパフォーマンステストを使用して、ホスト間のネットワーク帯域幅が適切であることを確認し、接続性の問題を検出および診断します。 詳しくは プロアクティブテストをご覧ください。 |
vSAN のパフォーマンスの監視 | 詳細については 、「 vSAN のパフォーマンスの監視」 を参照してください。 クラスター、ホスト、物理ディスク、VM、仮想ディスクのパフォーマンス・グラフを利用できます。 |
vSAN のトラブルシューティング | 詳細については 、「エラー処理とトラブルシューティング」 vSAN をご覧ください。 |
タイトル | 説明 |
---|---|
アクティブな NSX Edge 上で Edge の /var/log がいっぱいになっている |
詳細は ディスク容量に関する問題のトラブルシューティング:NSX for vSphere ノード を参照。 |
HCX 帯域幅のテスト | HCX にネットワーク帯域幅の問題があると思われる場合は、perftest を使用して HCX トンネル内の使用可能な帯域幅を調べてください。 詳細は、 HCX(56211)でのperftestの実行手順を参照してください。
perftest ごとに双方向のテストが実行されます。 ゲートウェイのペアについては、一方はソース・データ・センター (オンプレミス) 内にあり、もう一方は IBM Cloud 内にあります。 perftest のスループットでは、リンクが耐えられる最大速度で送信側が送信しようとします。 したがって、どのテストでも、「送信側」の速度が「受信側」の速度より高くなります。 そのため、「受信側」の速度は片方向のスループットの結果の数値と見なすことができます。 |
HCX のトラブルシューティング | 詳しくは、HCX のトラブルシューティング を参照してください。 |
HCX の同期状態の進行状況が 0%、0 バイトでエラー・ステータスが返される | HCX - 健康診断とベストプラクティス。 |
VM ネットワークのパフォーマンスが低い | VM の仮想 NIC の設定を確認してください。 VMware では、VM 用に VMXNET 3 仮想 NIC を推奨しています。パフォーマンスを目的として設計されている準仮想化 NIC の最新世代であるからです。 VMware 互換性リストを使用して VMXNET 3 の互換性を確認し、サポートされている場合は、ネットワーク・パフォーマンスの向上のために仮想 NIC を変更してください。 詳細については、ネットワークのトラブルシューティングを参照してください。 |
タイトル | 説明 |
---|---|
仮想マシンのコンソール・アクセス | 詳細については、仮想マシンコンソールの使用を参照してください。 |
新しい vCenter Server 証明書がロードされていないように見える | デフォルトの vCenter 証明書の置き換え後、新しい証明書が読み込まれていないように見える場合があります。 詳細については、 「新しい vCenter Server 証明書がロードされない」 を参照してください。 |
vCenter Server が管理対象ホストに接続できない | デフォルトの vCenter 証明書の置き換えとシステムの再起動後、 VMware vCenter® サーバーアプライアンス(VCSA)が管理対象ホストに接続できなくなります。 詳細については、 vCenter Server が管理対象ホストに接続できない」 を参照してください。 |
カスタム SSL 証明書の使用時に vSphere HA を構成できない | カスタムSSL証明書のインストール後、 vSphere HAを有効にしようとしても失敗します。 詳細は 、「カスタム SSL 証明書を使用すると、 vSphere HA を構成できない 」を参照してください。 |
タイトル | 説明 |
---|---|
ライセンス構成に互換性がないまたは正しくない | 詳細については 、「ホストライセンスのトラブルシューティング 」を参照してください。 |
VM がパワーオンにならない | vSphere ESXi ホストで VM の電源をオンにできず、The 60-day evaluation period of the host is expired or the license of the host is expired メッセージを受け取った場合は、ライセンスの問題が存在する可能性があります。 詳細については 、「仮想マシンを起動できない 」を参照してください。 |
機能を使用できない、または構成を変更できない | 詳細については 、「機能の設定または使用ができない 」を参照してください。 |