NVLink dan jaringan scale-up: ketika 800G Ethernet tidak cukup

NVLink 5 menghadirkan 1,8TB/s per GPU (18 link × 100GB/s)—14x bandwidth PCIe Gen5. GB200 NVL72 menghubungkan 72 GPU dengan agregat 130TB/s. NVSwitch memungkinkan 576 GPU dalam fabric non-blocking dengan 1PB/s...

NVLink dan jaringan scale-up: ketika 800G Ethernet tidak cukup

NVLink dan jaringan scale-up: ketika 800G Ethernet tidak cukup

Diperbarui 11 Desember 2025

Pembaruan Desember 2025: NVLink 5 menghadirkan 1,8TB/s per GPU (18 link × 100GB/s)—14x bandwidth PCIe Gen5. GB200 NVL72 menghubungkan 72 GPU dengan agregat 130TB/s. NVSwitch memungkinkan 576 GPU dalam fabric non-blocking dengan total bandwidth 1PB/s. NVLink generasi kelima mencapai 12x bandwidth generasi pertama (2014). Jaringan scale-up menciptakan kemampuan yang tidak dapat ditandingi oleh jaringan scale-out.

Satu GPU NVIDIA Blackwell mendukung hingga 18 koneksi NVLink dengan kecepatan 100 gigabyte per detik masing-masing, menghadirkan total bandwidth 1,8 terabyte per detik—14 kali lipat bandwidth PCIe Gen5.¹ Sistem GB200 NVL72 menghubungkan 72 GPU dalam satu domain NVLink dengan bandwidth agregat 130 terabyte per detik.² NVLink Switch dari NVIDIA memungkinkan 576 GPU dalam fabric komputasi non-blocking dengan total bandwidth lebih dari 1 petabyte per detik.³ Jaringan scale-up menciptakan kemampuan infrastruktur yang tidak dapat ditandingi oleh jaringan scale-out Ethernet dan InfiniBand.

Perbedaan antara jaringan scale-up dan scale-out mendefinisikan arsitektur infrastruktur AI modern. NVLink dan NVSwitch menangani komunikasi dalam node dan rak, menghadirkan bandwidth dan latensi yang diperlukan untuk tensor parallelism pada model-model besar. InfiniBand dan Ethernet menangani komunikasi antar rak, menyediakan jangkauan yang diperlukan untuk data parallelism pada ribuan GPU. Memahami kapan setiap teknologi diterapkan menentukan apakah investasi infrastruktur memberikan performa yang diharapkan.

NVLink generasi kelima menggandakan bandwidth dibandingkan generasi sebelumnya.⁴ Setiap link beroperasi pada 100 gigabyte per detik bidirectional, dengan 18 link per GPU Blackwell menyediakan bandwidth agregat 1,8 terabyte per detik.⁵ Peningkatan ini melebihi bandwidth PCIe Gen5 lebih dari 14 kali lipat.⁶

Evolusi lintas generasi menunjukkan trajektorinya:

Generasi Arsitektur Link Bandwidth Per-GPU
1 (2018) Volta V100 6 300 GB/s
2 (2020) Ampere A100 12 600 GB/s
3 (2022) Hopper H100 18 900 GB/s
4 (2024) Blackwell B200 18 1,8 TB/s

NVLink generasi kelima mencapai 12 kali lipat bandwidth NVLink generasi pertama yang diperkenalkan pada 2014.⁷ Penggandaan dari Hopper ke Blackwell mencerminkan kebutuhan bandwidth yang meningkat dari model dengan triliunan parameter.

Peningkatan bandwidth per-link dari 50 gigabyte per detik di NVLink 4 menjadi 100 gigabyte per detik di NVLink 5 memungkinkan konfigurasi 18-link yang sama untuk menggandakan total throughput.⁸ Arsitektur mempertahankan jumlah link sambil meningkatkan signaling rate.

Evolusi arsitektur NVSwitch

NVIDIA memperkenalkan NVSwitch dengan sistem DGX-2 pada 2018 untuk memungkinkan konektivitas penuh antar GPU dalam satu sistem.⁹ NVSwitch bertindak sebagai switch crossbar non-blocking berkecepatan tinggi untuk traffic NVLink, memungkinkan setiap GPU dalam sistem berkomunikasi dengan GPU lainnya pada kecepatan penuh.¹⁰

DGX-2 menampilkan 16 GPU V100 yang terhubung melalui NVSwitch generasi pertama.¹¹ Setiap chip NVSwitch menyediakan 18 port NVLink dengan kapasitas switching agregat 900 gigabyte per detik.¹² Chip 100 watt yang difabrikasi pada TSMC 12nm mengandung 2 miliar transistor.¹³

NVSwitch generasi kedua hadir dengan DGX A100 pada 2020, mendukung NVLink 3.0 pada 600 gigabyte per detik per GPU.¹⁴ Enam chip NVSwitch menciptakan topologi jaringan yang sepenuhnya terhubung untuk delapan GPU A100.¹⁵

NVSwitch generasi ketiga untuk Hopper meningkat ke 25,6 terabit per detik total bandwidth bidirectional per chip.¹⁶ Empat chip NVSwitch di setiap sistem HGX H100 dan HGX H200 menyediakan 3,6 terabyte per detik bandwidth jaringan bidirectional di delapan GPU.¹⁷ NVSwitch generasi ketiga memperkenalkan fungsionalitas SHARP untuk komputasi dalam jaringan, mengagregasi dan memperbarui hasil di beberapa unit GPU tanpa memerlukan round trip ke GPU individual.¹⁸

NVSwitch generasi keempat untuk Blackwell menampilkan 72 port NVLink 5.0 per chip.¹⁹ NVLink 5 Switch menyediakan 144 port NVLink dengan kapasitas switching non-blocking 14,4 terabyte per detik.²⁰ Generasi ini memperkenalkan switching tingkat rak, memindahkan NVSwitch dari server ke tray switch khusus.

Arsitektur scale-up GB200 NVL72

GB200 NVL72 menghubungkan 36 CPU Grace dan 72 GPU Blackwell dalam desain skala rak dengan pendingin cair.²¹ Domain NVLink 72-GPU bertindak sebagai satu GPU masif dan menghadirkan inferensi large language model dengan triliunan parameter secara real-time 30 kali lebih cepat dibandingkan generasi sebelumnya.²²

Arsitektur fisik mendistribusikan komponen di tray komputasi dan tray switch.²³ Setiap tray komputasi berisi dua GB200 Superchip, dengan setiap Superchip terdiri dari dua GPU B200 dan satu CPU Grace.²⁴ Sistem ini berisi 18 tray komputasi dengan total 72 GPU.

Sembilan tray NVLink switch menyediakan konektivitas full-mesh.²⁵ Setiap tray switch berisi dua chip NVLink Switch dengan total 144 port NVLink.²⁶ Sembilan switch menghubungkan sepenuhnya masing-masing dari 18 port NVLink pada setiap GPU Blackwell.²⁷

Tidak ada konektivitas langsung GPU-ke-GPU dalam satu server atau tray komputasi.²⁸ Semua komunikasi melewati fabric NVSwitch eksternal.²⁹ Arsitektur ini membuat semua 72 GPU setara dari perspektif konektivitas—GPU mana pun dapat berkomunikasi dengan GPU lain pada bandwidth dan latensi yang sama.³⁰

Bandwidth agregat NVLink 130 terabyte per detik memungkinkan tensor parallelism di semua 72 GPU.³¹ Model besar yang melebihi kapasitas memori GPU tunggal dapat mendistribusikan tensor di seluruh domain dengan overhead komunikasi minimal. Arsitektur ini menghilangkan batas tradisional antara jaringan server dan rak untuk beban kerja scale-up.

Jaringan scale-up versus scale-out

Jaringan scale-up (NVLink) dan jaringan scale-out (InfiniBand dan Ethernet) melayani tujuan yang secara fundamental berbeda dalam infrastruktur AI.³²

NVLink unggul dalam komunikasi cepat antar GPU dalam satu domain—jauh lebih cepat dari InfiniBand, dengan bandwidth pada urutan terabyte per detik untuk koneksi lokal.³³ Latensi rendah dan bandwidth tinggi mendukung tensor parallelism, di mana bobot model didistribusikan ke GPU dan harus disinkronkan pada setiap layer. Bandwidth 1,8 terabyte per detik per GPU dari NVLink memungkinkan sinkronisasi ini tanpa menjadi bottleneck.

NVLink tidak membantu setelah komunikasi melewati batas node.³⁴ Jaringan antar-node memerlukan InfiniBand atau Ethernet terlepas dari kemampuan NVLink intra-node. Teknologi ini beroperasi pada layer hierarki yang berbeda.

InfiniBand menyediakan standar industri untuk menghubungkan ribuan node server.³⁵ Remote Direct Memory Access (RDMA) memungkinkan server bertukar data langsung antar ruang memori, melewati overhead CPU dan OS.³⁶ Fitur ini terbukti penting untuk training terdistribusi skala besar menggunakan data parallelism, di mana setiap node memproses batch berbeda dan menyinkronkan gradient.

InfiniBand tetap menjadi standar emas untuk training AI skala besar, menghubungkan lebih dari 270 superkomputer teratas dunia.³⁷ Adaptive routing, congestion control, dan kemampuan RDMA dirancang khusus untuk komputasi high-performance yang sinkron.

Ethernet mengambil alih InfiniBand untuk deployment scale-out.³⁸ Spectrum-X dari NVIDIA membawa inovasi InfiniBand ke Ethernet, termasuk congestion control berbasis telemetri, adaptive load balancing, dan direct data placement.³⁹ Sistem skala besar dengan Spectrum-X telah mencapai 95% throughput data tanpa degradasi latensi aplikasi, dibandingkan hanya 60% throughput dari fabric Ethernet standar.⁴⁰

Model hierarkis menggabungkan teknologi-teknologi ini dengan tepat. NVLink menangani scale-up dalam rak, menghadirkan sekitar 18 kali bandwidth jaringan scale-out.⁴¹ InfiniBand atau Ethernet menangani scale-out antar rak, menyediakan jangkauan ke ribuan node. Setiap tray GPU di sistem GB200 NVL72 menyertakan NIC RDMA 800 gigabit per detik untuk komunikasi antar-rak.⁴²

Domain 576-GPU dan arsitektur SuperPOD

NVLink Switch memungkinkan 576 GPU yang sepenuhnya terhubung dalam fabric komputasi non-blocking.⁴³ Delapan rak GB200 NVL72 membentuk SuperPOD, menciptakan supernode 576 GPU dengan total bandwidth lebih dari 1 petabyte per detik dan 240 terabyte memori cepat.⁴⁴

DGX SuperPOD dibangun di atas scalable unit (SU), masing-masing berisi delapan sistem DGX GB200.⁴⁵ Desain modular memungkinkan deployment SuperPOD yang cepat pada skala apa pun. Arsitektur referensi mencakup spesifikasi untuk InfiniBand, jaringan NVLink, topologi fabric Ethernet, sistem storage, tata letak rak, dan pengkabelan.⁴⁶

Domain 576-GPU mempertahankan topologi NVLink yang sepenuhnya terhubung di semua rak dalam SuperPOD.⁴⁷ GPU mana pun dapat berkomunikasi dengan GPU lain pada 1,8 terabyte per detik tanpa melewati jaringan scale-out.⁴⁸ Ukuran domain sesuai dengan kebutuhan model foundation terbesar yang saat ini sedang di-training.

Deployment SuperPOD memerlukan instalasi on-premises.⁴⁹ Pelanggan memiliki dan mengelola hardware di data center mereka atau fasilitas komersial co-located. Arsitektur ini mencerminkan sistem riset dan pengembangan internal NVIDIA, yang berarti software infrastruktur, aplikasi, dan dukungan diuji pada konfigurasi identik.⁵⁰

Penyedia cloud Microsoft Azure, Oracle Cloud, dan CoreWeave berkomitmen untuk mendukung arsitektur X800 ketika tersedia pada 2025.⁵¹ Deployment cloud memperluas kemampuan SuperPOD ke organisasi yang tidak dapat membenarkan infrastruktur on-premises khusus.

Deployment Kubernetes enterprise

Sistem Multi-Node NVLink (MNNVL) memerlukan konfigurasi Kubernetes khusus.⁵² Kubernetes tidak secara native mengenali arsitektur MNNVL NVIDIA, membuat manajemen beban kerja dan scheduling lebih kompleks dibandingkan deployment GPU standar.⁵³

Persyaratan deployment mencakup Kubernetes 1.32 atau lebih baru dan NVIDIA GPU Operator versi 25.3 atau lebih tinggi.⁵⁴ Versi GPU Operator harus menyertakan driver Dynamic Resource Allocation (DRA), yang menyediakan dukungan untuk sumber daya jaringan akselerasi GB200 dan fitur ComputeDomain.⁵⁵ NVIDIA Network Operator menangani konfigurasi jaringan.

Layanan IMEX mendukung ekspor dan impor memori GPU lintas domain OS dalam deployment multi-node NVLink.⁵⁶ Layanan ini memungkinkan komunikasi peer-to-peer NVLink dan operasi shared memory di seluruh domain.

Ketika beban kerja terdistribusi menargetkan node pool MNNVL, platform membuat ComputeDomain Custom Resource Definition (CRD) untuk mengelola penugasan domain NVLink.⁵⁷ Referensi ke ComputeDomain secara otomatis dilampirkan ke spesifikasi beban kerja sebagai resource claim, memungkinkan scheduler untuk mengikat beban kerja ke domain NVLink tertentu.⁵⁸

Aturan pod affinity menggunakan kunci label MNNVL (nvidia.com/gpu.clique) sebagai topology key.⁵⁹ Konfigurasi memastikan bahwa pod dalam beban kerja terdistribusi mendarat di node dengan interkoneksi NVLink, mempertahankan topologi yang diperlukan untuk performa.⁶⁰

Pertimbangan perencanaan infrastruktur

Organisasi yang mengevaluasi infrastruktur NVLink harus mempertimbangkan karakteristik beban kerja terlebih dahulu. Tensor parallelism pada model besar mendapat manfaat langsung dari bandwidth NVLink. Data parallelism pada banyak model yang lebih kecil mungkin tidak memerlukan kemampuan NVLink dan dapat mencapai performa yang memadai dengan jaringan scale-out saja.

GB200 NVL72 mewakili komitmen infrastruktur yang signifikan. Persyaratan pendingin cair, integrasi skala rak, dan jaringan khusus melebihi kompleksitas arsitektur berpendingin udara yang berpusat pada server. Organisasi harus memvalidasi bahwa beban kerja memerlukan kemampuan ini sebelum berkomitmen.

Infrastruktur daya dan pendingin harus mengakomodasi pendingin cair sejak deployment awal. GB200 NVL72 tidak dapat beroperasi dengan pendingin udara. Retrofitting fasilitas untuk pendingin cair setelah deployment mahal dan mengganggu.

Perencanaan jaringan harus menangani kebutuhan scale-up dan scale-out. Fabric NVLink menangani komunikasi intra-rak, tetapi antar

[Konten dipotong untuk terjemahan]

Minta Penawaran_

Ceritakan tentang proyek Anda dan kami akan merespons dalam 72 jam.

> TRANSMISSION_COMPLETE

Permintaan Diterima_

Terima kasih atas pertanyaan Anda. Tim kami akan meninjau permintaan Anda dan merespons dalam 72 jam.

QUEUED FOR PROCESSING