GPUクラスタのトラブルシューティング:一般的な問題と解決プレイブック

液冷障害がインシデントカテゴリの首位に—CDU問題、冷却液汚染、エアロック。NVIDIA DCGM 3.3+がH100/H200の診断カバレッジを改善。XIDエラーコードがBlackwellアーキテクチャ向けに更新。メモリエラーパターン(ECC訂正、行リマッピング)が予測的障害検出に活用される傾向...

GPUクラスタのトラブルシューティング:一般的な問題と解決プレイブック

GPUクラスタのトラブルシューティング:一般的な問題と解決プレイブック

2025年12月8日更新

2025年12月更新: 液冷障害がインシデントカテゴリの首位に—CDU問題、冷却液汚染、エアロック。NVIDIA DCGM 3.3+がH100/H200の診断カバレッジを改善。XIDエラーコードがBlackwellアーキテクチャ向けに更新。メモリエラーパターン(ECC訂正、行リマッピング)が予測的障害検出にますます活用されている。NVLink診断はマルチGPUトレーニング問題に不可欠。

GPUクラスタは従来のコンピュートインフラストラクチャとは異なる障害パターンを示す。512ノードのトレーニングクラスタで1台のGPUが劣化しただけで、全体のスループットが40%低下する可能性がある。CPUワークロードでは許容されるメモリエラーも、GPUではトレーニングの即時失敗を引き起こす。マイクロ秒単位のネットワーク遅延スパイクは分散トレーニングの効率を破壊する。このプレイブックでは、GPUインフラストラクチャ特有の障害モードを診断・解決するための体系的なアプローチを提供する。

ハードウェア障害パターンと診断

GPUハードウェア障害は主に3つのパターンで現れる:即時障害、性能劣化、間欠的エラー。即時障害は通常、NVIDIAデプロイメントでXIDエラーをトリガーし、XID 79(GPUがバスから脱落)はMetaのインフラストラクチャレポートによると、初年度のH100デプロイメントの3.2%に影響する。これらの障害は根本原因を特定するための体系的な切り分けが必要である。

NVIDIA Data Center GPU Manager(DCGM)は、dcgmi diagコマンドを通じて包括的なハードウェア診断を提供する。レベル3診断は12分間実行され、メモリ帯域幅、PCIeスループット、NVLink接続性、負荷時の熱挙動をテストする。MicrosoftのAzure GPUフリートは毎晩100,000台のGPUでDCGM診断を実行し、顧客への影響前に劣化したハードウェアを特定している。彼らの自動化パイプラインは、15%の性能劣化を示すGPUを本番プールから削除する。

メモリエラーはGPU障害統計の大部分を占める。H100 GPUのHBM(High Bandwidth Memory)は3.35TB/sで動作し、ハードエラーとソフトエラーの両方の影響を受けやすい。ECC(Error-Correcting Code)は単一ビットエラーを検出するが、訂正不可能なダブルビットエラー(DBE)は即座のGPU交換が必要である。Google Cloudの分析によると、HBMエラーは75°Cを超えると指数関数的に増加し、この閾値を5°C超えるごとに障害率が2倍になる。

PCIeインターフェース障害は帯域幅の劣化または完全なリンク損失として現れる。nvidia-smi -qコマンドはPCIeリンクステータスを表示し、現在の世代と幅を示す。H100 GPUは完全な128GB/s帯域幅のためにPCIe Gen5 x16を必要とする。Gen4速度への劣化は帯域幅を64GB/sに減少させ、モデルロード時間を50%増加させる。Lambda Labsは、BIOSの設定ミスにより8%のGPUサーバーが低下したPCIe速度で動作していることを発見し、年間230万ドルの稼働率低下コストが発生していた。

電力供給の障害は完全な故障前に微妙な性能問題を引き起こす。H100ボード上のVRM(Voltage Regulator Module)は1.1Vコア電圧で700Aを処理する。劣化したVRMは電力スロットリングを引き起こし、GPU周波数を1.98GHzから最低1.2GHzまで低下させる。監視ツールは瞬時と平均の両方の消費電力を追跡する必要がある。CoreWeaveは差分電力監視を実装し、GPU間で同一のワークロードを比較することで、顧客への影響前に5%の電力供給劣化を特定している。

ドライバとファームウェアの問題

NVIDIAのサポート統計によると、ドライババージョンの不一致がGPUクラスタ問題の31%を占める。特定のドライババージョン用にコンパイルされたCUDAアプリケーションは、ドライバ更新時に不可解な動作で失敗する。nvidia-smiツールはドライババージョン545.23.08を表示するが、アプリケーションは特定のCUDA機能のために535.104.12を必要とする場合がある。バージョン固定は自動更新を防ぐが、手動でのセキュリティパッチ管理が必要になる。

クラスタ間でのファームウェア同期は分散トレーニングに不可欠である。GPU間のNVLinkファームウェアの不一致は、暗号的なNCCLエラーで集合操作を失敗させる。nvidia-smi -q | grep "VBIOS Version"コマンドは、最適な性能のために完全に一致する必要があるファームウェアバージョンを表示する。OpenAIのGPT-4トレーニングクラスタは特定のファームウェアバージョンで標準化しており、逸脱があると自動的にノードが隔離される。

ドライバのメモリリークは数週間の運用で蓄積される。適切なクリーンアップなしのCUDAコンテキスト作成はシステムメモリを消費し、最終的にVRAMが利用可能にもかかわらずメモリ不足エラーを引き起こす。nvidia-smiコマンドは0MB使用を表示するが、lsofは何千もの孤立したファイルディスクリプタを明らかにする。Anthropicのインフラストラクチャは、1000以上のオープンファイルディスクリプタを示すGPUドライバを自動的に再起動し、メモリ枯渇を防止している。

nouveau(オープンソース)とプロプライエタリNVIDIAドライバ間のカーネルモジュール競合は初期化障害を引き起こす。lsmod | grep nouveauコマンドは、ブラックリストに登録する必要がある競合モジュールを表示する。Ubuntu 22.04システムでは/etc/modprobe.d/blacklist-nouveau.confで明示的なブラックリスト登録が必要で、その後update-initramfs -uを実行してブート時のロードを防止する。Canonicalのサポートデータによると、この問題は新規デプロイメントの12%に影響する。

コンテナランタイムの設定ミスは、正しいドライバインストールにもかかわらずGPUアクセスを妨げる。NVIDIA Container Toolkit バージョン1.14.0は、NVIDIA_VISIBLE_DEVICES環境変数による明示的なデバイス選択を必要とする破壊的変更を導入した。--gpus allフラグなしで起動されたDockerコンテナは機能しているように見えるが、期待される速度の1/100でCPUのみの計算を実行する。Kubernetesデプロイメントでは、適切なGPUスケジューリングのためにポッド仕様にnvidia.com/gpuリソース制限が必要である。

熱管理の問題

サーマルスロットリングは安全シャットダウンをトリガーする前にGPU性能を低下させる。H100 GPUは83°Cでスロットリングし、閾値を超えると1度ごとにクロック速度を15MHz低下させる。本番デプロイメントは最適な性能のために75°C以下の温度を維持すべきである。nvidia-smi -q -d TEMPERATUREコマンドは、プロアクティブな監視のための現在、最大、スロットル温度を提供する。

液冷障害は独自の診断課題を提示する。20%の流量低下はGPU温度を8-10°C上昇させる。CDU(Coolant Distribution Unit)出口の圧力センサーは、最適な流量のために30-35 PSIを維持すべきである。Microsoftの液冷クラスタは差圧監視を使用し、供給と戻りマニホールド間の圧力低下が5 PSIを超えるとアラートを発する。粒子汚染は流量制限の60%を占め、四半期ごとのフィルター交換が必要である。

ホットスポットは不均一なサーマルペースト塗布またはコールドプレート取り付けから発生する。熱画像はGPUダイ全体で15°Cを超える温度差を明らかにする。適切な取り付けには保持ネジに35 in-lbsのトルクが必要で、均一な圧力を確保するためにクロスパターンで締め付ける。Supermicroの製造プロセスには、ダイ全体で5°C未満の変動を示す熱検証が含まれており、より大きな差がある場合は再取り付けが必要である。

クラスタゾーン間の周囲温度変動は性能の不均衡を生み出す。周囲温度35°Cに達するホットアイルのGPUは、25°CのGPUより20%頻繁にスロットリングする。CFD(Computational Fluid Dynamics)モデリングは、排気が吸気経路に再流入する再循環ゾーンを特定する。Facebookのデータセンターは、10,000台のGPUデプロイメント全体で3°Cの温度均一性を維持するコンテインメントソリューションを使用している。

ファン障害は高密度GPUデプロイメント全体に連鎖する。各H100 GPUは200 CFMの気流を提供するシステムファンに依存している。単一のファン障害は隣接するGPUの温度を5-7°C上昇させる。冗長ファン構成(N+1)は熱イベントを防止するが、20%の追加電力が必要である。ファン速度変動を使用した予知保全は、完全な故障の30日前に劣化したベアリングを特定し、プロアクティブな交換を可能にする。

ネットワークと相互接続のトラブルシューティング

InfiniBandファブリック問題は分散トレーニングジョブ全体に波及する。単一のリンクエラーはMPI_Allreduce操作を無期限にハングさせる。ibdiagnetコマンドは包括的なファブリック検証を実行し、リンク速度、エラーカウンター、ルーティングテーブルをチェックする。1時間あたり100を超えるシンボルエラーは、交換が必要なケーブル劣化を示す。Metaのインフラストラクチャは、過剰なInfiniBandエラーを示すノードをトレーニングプールから自動的に削除する。

RDMA(Remote Direct Memory Access)の性能劣化は明らかなエラーなしに発生する。GPU間のピアツーピア転送のためにPCIe Access Control Services(ACS)を無効にする必要がある。setpciコマンドはPCIe設定空間を変更するが、BIOS変更なしでは再起動後に変更が持続しない。ib_write_latを使用した遅延測定はローカル接続で1.8マイクロ秒を示すべきで、10%の変動は輻輳または設定ミスを示す。

NVLinkトポロジの設定ミスはGPUペア間の帯域幅を減少させる。nvidia-smi topo -mコマンドは接続トポロジを表示し、NV12は完全なNVLink帯域幅を、PHBはPCIeのみの接続を示す。最適な構成はノード内で完全に接続されたNVLinkメッシュを作成する。AmazonのP5.48xlargeインスタンスは適切に構成された場合、900GB/sの双方向NVLink帯域幅を提供するが、設定ミスによりこれが64GB/sのPCIe速度に低下する。

ストレージトラフィックからのネットワーク輻輳はGPU通信に影響する。Ethernet/InfiniBand混在デプロイメントでは、慎重なQoS(Quality of Service)設定が必要である。利用可能な帯域幅の40%を消費するストレージトラフィックは、MPI集合操作時間を3倍に増加させる。専用ストレージネットワークまたはGPU通信用に60%の予約帯域幅を維持するトラフィックシェーピングにより、トレーニングの遅延を防止する。

時刻同期エラーは分散トレーニングの失敗を引き起こす。ノード間で1ミリ秒を超えるクロックスキューはNCCLタイムアウトエラーを引き起こす。PTP(Precision Time Protocol)はサブマイクロ秒の同期を維持するが、ハードウェアタイムスタンプサポートが必要である。chrony sourcesコマンドは同期状態を表示し、100マイクロ秒を超えるオフセット値は即座の修正が必要である。Googleのインフラストラクチャは、原子時計参照を使用してグローバルGPUクラスタ全体で100ナノ秒の同期を維持している。

メモリエラー検出と解決

HBM(High Bandwidth Memory)エラーは予測可能なパターンに従い、プロアクティブな介入を可能にする。ECCによって訂正された単一ビットエラーは劣化するメモリセルを示す。nvidia-smi -q -d ECCコマンドは揮発性と累積の両方のエラーカウントを報告する。揮発性カウントは再起動時にリセットされ、累積カウントは持続する。1時間あたり10を超える単一ビットエラーを示すGPUは、次のメンテナンスウィンドウでの交換をスケジュールすべきである。

利用可能なVRAMにもかかわらずメモリ割り当て失敗が発生する場合、フラグメンテーションを示す。PyTorchのtorch.cuda.memory_stats()は割り当て済みメモリと予約済みメモリを表示する。キャッシングアロケータの動作により、予約メモリは割り当て済みの2倍になる場合がある。PYTORCH_CUDA_ALLOC_CONF環境変数は割り当て戦略を設定し、max_split_size_mb=512はさまざまなテンソルサイズを持つモデルのフラグメンテーションを削減する。

ページリタイアメント閾値はGPUの寿命を決定する。NVIDIA GPUは訂正不可能なエラーが発生したメモリページをリタイアし、利用可能なメモリを減少させる。nvidia-smi -q -d PAGE_RETIREMENTコマンドは、リタイア済みページ数と追加ページの可用性を表示する。H100 GPUは交換が必要になるまで最大512ページをリタイアできる。自動監視は400ページがリタイアされた時点で交換をトリガーし、重要なトレーニング実行中の完全な障害を防止すべきである。

メモリ帯域幅の劣化は熱または電力の問題を示す。bandwidthTest CUDAサンプルはH100 GPUで3.35TB/sを達成すべきである。3.0TB/s未満の性能はスロットリングを示す。nvidia-smi -q -d PERFORMANCEコマンドは現在のメモリクロック速度を表示する。速度低下は多くの場合、75°Cを超える温度またはTDP制限に近づく消費電力と相関する。

CUDA out of memory(OOM)エラーは体系的なデバッグが必要である。CUDA_LAUNCH_BLOCKING=1環境変数は同期実行を強制し、正確なエラー位置を提供する。nsys profileを使用したメモリプロファイリングは割り当てパターンとライフ

[翻訳用にコンテンツが切り詰められています]

お見積り依頼_

プロジェクトについてお聞かせください。72時間以内にご回答いたします。

> TRANSMISSION_COMPLETE

リクエストを受信しました_

お問い合わせありがとうございます。弊社チームがリクエストを確認し、72時間以内に回答いたします。

QUEUED FOR PROCESSING