Troubleshooting Kluster GPU: Masalah Umum dan Panduan Penyelesaian
Diperbarui 8 Desember 2025
Update Desember 2025: Kegagalan pendingin cair kini menjadi kategori insiden utama—masalah CDU, kontaminasi cairan pendingin, air lock. NVIDIA DCGM 3.3+ meningkatkan cakupan diagnostik untuk H100/H200. Kode error XID diperbarui untuk arsitektur Blackwell. Pola error memori (koreksi ECC, row remapping) semakin banyak digunakan untuk deteksi kegagalan prediktif. Diagnostik NVLink sangat penting untuk masalah training multi-GPU.
Kluster GPU mengalami kegagalan dengan cara yang berbeda dari infrastruktur komputasi tradisional. Satu GPU yang mengalami degradasi dalam kluster training 512-node dapat mengurangi throughput keseluruhan hingga 40%. Error memori yang masih bisa ditoleransi pada workload CPU menyebabkan kegagalan training secara langsung. Lonjakan latensi jaringan dalam hitungan mikrodetik menghancurkan efisiensi distributed training. Panduan ini menyediakan pendekatan sistematis untuk mendiagnosis dan menyelesaikan mode kegagalan unik dari infrastruktur GPU.
Pola Kegagalan Hardware dan Diagnostik
Kegagalan hardware GPU muncul melalui tiga pola utama: kegagalan langsung, penurunan performa, dan error intermiten. Kegagalan langsung biasanya memicu error XID pada deployment NVIDIA, dengan XID 79 (GPU has fallen off the bus) mempengaruhi 3,2% deployment H100 pada tahun pertama menurut laporan infrastruktur Meta. Kegagalan ini memerlukan isolasi sistematis untuk menentukan akar penyebabnya.
NVIDIA Data Center GPU Manager (DCGM) menyediakan diagnostik hardware komprehensif melalui perintah dcgmi diag. Diagnostik Level 3 berjalan selama 12 menit, menguji bandwidth memori, throughput PCIe, konektivitas NVLink, dan perilaku termal di bawah beban. Armada GPU Azure Microsoft menjalankan diagnostik DCGM pada 100.000 GPU setiap malam, mengidentifikasi hardware yang terdegradasi sebelum berdampak pada pelanggan. Pipeline otomatis mereka menghapus GPU yang menunjukkan degradasi performa 15% dari pool produksi.
Error memori mendominasi statistik kegagalan GPU. High Bandwidth Memory (HBM) pada GPU H100 beroperasi pada 3,35TB/s, membuatnya rentan terhadap error hard dan soft. ECC (Error-Correcting Code) menangkap error single-bit, tetapi error double-bit yang tidak dapat dikoreksi (DBE) memerlukan penggantian GPU segera. Analisis Google Cloud menunjukkan error HBM meningkat secara eksponensial di atas 75°C, dengan tingkat kegagalan berlipat ganda untuk setiap kenaikan 5°C di atas ambang batas ini.
Kegagalan interface PCIe muncul sebagai degradasi bandwidth atau kehilangan link total. Perintah nvidia-smi -q menampilkan status link PCIe, menunjukkan generasi dan width saat ini. GPU H100 memerlukan PCIe Gen5 x16 untuk bandwidth penuh 128GB/s. Degradasi ke kecepatan Gen4 mengurangi bandwidth menjadi 64GB/s, memperlambat waktu loading model hingga 50%. Lambda Labs menemukan 8% server GPU mereka beroperasi pada kecepatan PCIe yang tereduksi karena miskonfigurasi BIOS, menyebabkan kerugian $2,3 juta per tahun dalam utilisasi yang berkurang.
Kegagalan power delivery menciptakan masalah performa yang halus sebelum kegagalan total. Voltage Regulator Module (VRM) pada board H100 menangani 700A pada tegangan core 1,1V. VRM yang terdegradasi menyebabkan power throttling, mengurangi frekuensi GPU dari 1,98GHz hingga serendah 1,2GHz. Tool monitoring harus melacak konsumsi daya instan dan rata-rata. CoreWeave mengimplementasikan differential power monitoring, membandingkan workload identik antar GPU untuk mengidentifikasi degradasi power delivery 5% sebelum berdampak pada pelanggan.
Masalah Driver dan Firmware
Ketidakcocokan versi driver menyebabkan 31% masalah kluster GPU menurut statistik support NVIDIA. Aplikasi CUDA yang dikompilasi untuk versi driver tertentu gagal secara misterius ketika update driver terjadi. Tool nvidia-smi menunjukkan versi driver 545.23.08, tetapi aplikasi mungkin memerlukan 535.104.12 untuk fitur CUDA tertentu. Version pinning mencegah update otomatis tetapi memerlukan manajemen patch keamanan manual.
Sinkronisasi firmware di seluruh kluster terbukti penting untuk distributed training. Ketidakcocokan firmware NVLink antar GPU menyebabkan operasi collective gagal dengan error NCCL yang sulit dipahami. Perintah nvidia-smi -q | grep "VBIOS Version" menampilkan versi firmware yang harus cocok persis untuk performa optimal. Kluster training GPT-4 OpenAI distandarisasi pada versi firmware tertentu, dengan penyimpangan apapun memicu karantina node otomatis.
Memory leak driver terakumulasi selama berminggu-minggu operasi. Pembuatan CUDA context tanpa pembersihan yang tepat menghabiskan memori sistem, akhirnya menyebabkan error out-of-memory meskipun VRAM tersedia. Perintah nvidia-smi menunjukkan 0MB digunakan, tetapi lsof mengungkapkan ribuan file descriptor yang orphan. Infrastruktur Anthropic secara otomatis me-restart driver GPU yang menunjukkan lebih dari 1000 file descriptor terbuka, mencegah kehabisan memori.
Konflik kernel module antara nouveau (open-source) dan driver NVIDIA proprietary menciptakan kegagalan inisialisasi. Perintah lsmod | grep nouveau mengungkapkan module yang berkonflik yang harus di-blacklist. Sistem Ubuntu 22.04 memerlukan blacklisting eksplisit di /etc/modprobe.d/blacklist-nouveau.conf, diikuti dengan update-initramfs -u untuk mencegah loading saat boot. Masalah ini mempengaruhi 12% deployment baru menurut data support Canonical.
Miskonfigurasi container runtime mencegah akses GPU meskipun instalasi driver benar. NVIDIA Container Toolkit versi 1.14.0 memperkenalkan breaking change yang memerlukan pemilihan device eksplisit melalui environment variable NVIDIA_VISIBLE_DEVICES. Container Docker yang dijalankan tanpa flag --gpus all tampak berfungsi tetapi melakukan komputasi CPU-only pada kecepatan 1/100 dari yang diharapkan. Deployment Kubernetes memerlukan resource limit nvidia.com/gpu dalam spesifikasi pod untuk scheduling GPU yang tepat.
Masalah Manajemen Termal
Thermal throttling mengurangi performa GPU sebelum memicu safety shutdown. GPU H100 melakukan throttle pada 83°C, mengurangi kecepatan clock sebesar 15MHz untuk setiap derajat di atas ambang batas. Deployment produksi harus mempertahankan suhu di bawah 75°C untuk performa optimal. Perintah nvidia-smi -q -d TEMPERATURE menyediakan suhu saat ini, maksimum, dan throttle untuk monitoring proaktif.
Kegagalan pendingin cair menghadirkan tantangan diagnostik yang unik. Degradasi flow rate sebesar 20% meningkatkan suhu GPU sebesar 8-10°C. Sensor tekanan pada outlet CDU (Coolant Distribution Unit) harus mempertahankan 30-35 PSI untuk flow optimal. Kluster berpendingin cair Microsoft menggunakan differential pressure monitoring, memberikan alert ketika penurunan tekanan melebihi 5 PSI antara manifold supply dan return. Kontaminasi partikulat menyebabkan 60% pembatasan flow, memerlukan penggantian filter setiap kuartal.
Hot spot berkembang dari aplikasi thermal paste yang tidak merata atau pemasangan cold plate. Thermal imaging mengungkapkan perbedaan suhu melebihi 15°C di seluruh die GPU. Pemasangan yang tepat memerlukan torque 35 in-lbs pada sekrup retention, diterapkan dalam pola silang untuk memastikan tekanan merata. Proses manufaktur Supermicro mencakup validasi termal yang menunjukkan variasi kurang dari 5°C di seluruh die, dengan pemasangan ulang diperlukan untuk perbedaan yang lebih besar.
Variasi suhu ambient antar zona kluster menciptakan ketidakseimbangan performa. GPU di hot aisle yang mencapai 35°C ambient melakukan throttle 20% lebih sering daripada yang berada di 25°C. Pemodelan Computational Fluid Dynamics (CFD) mengidentifikasi zona resirkulasi di mana udara exhaust masuk kembali ke jalur intake. Data center Facebook menggunakan solusi containment yang mempertahankan keseragaman suhu 3°C di seluruh 10.000 deployment GPU.
Kegagalan kipas berdampak cascade melalui deployment GPU yang padat. Setiap GPU H100 bergantung pada kipas sistem yang menyediakan airflow 200 CFM. Kegagalan kipas tunggal meningkatkan suhu GPU yang berdekatan sebesar 5-7°C. Konfigurasi kipas redundan (N+1) mencegah thermal event, tetapi memerlukan daya tambahan 20%. Predictive maintenance menggunakan variasi kecepatan kipas mengidentifikasi bearing yang rusak 30 hari sebelum kegagalan total, memungkinkan penggantian proaktif.
Troubleshooting Jaringan dan Interconnect
Masalah fabric InfiniBand berlipat ganda di seluruh job distributed training. Error link tunggal menyebabkan operasi MPI_Allreduce hang tanpa batas waktu. Perintah ibdiagnet melakukan validasi fabric komprehensif, memeriksa kecepatan link, counter error, dan tabel routing. Symbol error yang melebihi 100 per jam mengindikasikan degradasi kabel yang memerlukan penggantian. Infrastruktur Meta secara otomatis menghapus node yang menunjukkan error InfiniBand berlebihan dari pool training.
Degradasi performa RDMA (Remote Direct Memory Access) terjadi tanpa error yang jelas. PCIe Access Control Services (ACS) harus dinonaktifkan untuk transfer peer-to-peer antar GPU. Perintah setpci memodifikasi PCIe configuration space, tetapi perubahan tidak bertahan setelah reboot tanpa modifikasi BIOS. Pengukuran latensi menggunakan ib_write_lat harus menunjukkan 1,8 mikrodetik untuk koneksi lokal, dengan variasi 10% mengindikasikan kongesti atau miskonfigurasi.
Miskonfigurasi topologi NVLink mengurangi bandwidth antar pasangan GPU. Perintah nvidia-smi topo -m menampilkan topologi koneksi, dengan NV12 mengindikasikan bandwidth NVLink penuh dan PHB menunjukkan koneksi PCIe-only. Konfigurasi optimal menciptakan mesh NVLink yang terhubung penuh dalam node. Instance p5.48xlarge Amazon menyediakan bandwidth NVLink bidirectional 900GB/s ketika dikonfigurasi dengan benar, tetapi miskonfigurasi menguranginya menjadi kecepatan PCIe 64GB/s.
Kongesti jaringan dari traffic storage berdampak pada komunikasi GPU. Deployment campuran Ethernet/InfiniBand memerlukan konfigurasi Quality of Service (QoS) yang cermat. Traffic storage yang menghabiskan 40% bandwidth yang tersedia meningkatkan waktu operasi MPI collective hingga 3x lipat. Jaringan storage dedicated atau traffic shaping yang mempertahankan 60% bandwidth reserved untuk komunikasi GPU mencegah perlambatan training.
Error sinkronisasi waktu menyebabkan kegagalan distributed training. Clock skew yang melebihi 1 milidetik antar node menyebabkan error timeout NCCL. Precision Time Protocol (PTP) mempertahankan sinkronisasi sub-mikrodetik, tetapi memerlukan dukungan hardware timestamp. Perintah chrony sources menunjukkan status sinkronisasi, dengan nilai offset di atas 100 mikrodetik memerlukan koreksi segera. Infrastruktur Google mempertahankan sinkronisasi 100-nanodetik di seluruh kluster GPU global menggunakan referensi atomic clock.
Deteksi dan Resolusi Error Memori
Error HBM (High Bandwidth Memory) mengikuti pola yang dapat diprediksi memungkinkan intervensi proaktif. Error single-bit yang dikoreksi oleh ECC mengindikasikan sel memori yang terdegradasi. Perintah nvidia-smi -q -d ECC melaporkan jumlah error volatile dan agregat. Jumlah volatile direset saat reboot, sementara jumlah agregat bertahan. GPU yang menunjukkan lebih dari 10 error single-bit per jam harus dijadwalkan untuk penggantian selama maintenance window berikutnya.
Kegagalan alokasi memori meskipun VRAM tersedia mengindikasikan fragmentasi. torch.cuda.memory_stats() PyTorch mengungkapkan memori yang dialokasikan versus reserved. Memori reserved mungkin 2x dari yang dialokasikan karena perilaku caching allocator. Environment variable PYTORCH_CUDA_ALLOC_CONF mengkonfigurasi strategi alokasi, dengan max_split_size_mb=512 mengurangi fragmentasi untuk model dengan ukuran tensor yang bervariasi.
Ambang batas page retirement menentukan umur panjang GPU. GPU NVIDIA me-retire halaman memori yang mengalami error yang tidak dapat dikoreksi, mengurangi memori yang tersedia. Perintah nvidia-smi -q -d PAGE_RETIREMENT menunjukkan jumlah halaman yang di-retire dan ketersediaan halaman tambahan. GPU H100 dapat me-retire hingga 512 halaman sebelum memerlukan penggantian. Monitoring otomatis harus memicu penggantian ketika 400 halaman di-retire, mencegah kegagalan total selama training run yang kritis.
Degradasi bandwidth memori mengindikasikan masalah termal atau power. Sample CUDA bandwidthTest harus mencapai 3,35TB/s pada GPU H100. Performa di bawah 3,0TB/s mengindikasikan throttling. Perintah nvidia-smi -q -d PERFORMANCE mengungkapkan kecepatan memory clock saat ini. Kecepatan yang berkurang sering berkorelasi dengan suhu yang melebihi 75°C atau konsumsi daya yang mendekati batas TDP.
Error CUDA out of memory (OOM) memerlukan debugging sistematis. Environment variable CUDA_LAUNCH_BLOCKING=1 memaksa eksekusi sinkron, menyediakan lokasi error yang akurat. Memory profiling menggunakan nsys profile mengungkapkan pola alokasi dan lifet
[Konten dipotong untuk terjemahan]