Switch InfiniBand: NVIDIA Quantum-X800 dan Generasi XDR yang Menggerakkan Superkomputer AI

Pasar InfiniBand mencapai $25,7 miliar pada 2025, diproyeksikan $127 miliar pada 2030 (CAGR 38%). Quantum-X800 menghadirkan 144 port 800Gbps XDR dengan komputasi dalam jaringan 14,4 TFLOPS (9x dibanding NDR). Latensi port-ke-port di bawah 100ns...

Switch InfiniBand: NVIDIA Quantum-X800 dan Generasi XDR yang Menggerakkan Superkomputer AI

Switch InfiniBand: NVIDIA Quantum-X800 dan Generasi XDR yang Menggerakkan Superkomputer AI

Diperbarui 11 Desember 2025

Pembaruan Desember 2025: Pasar InfiniBand mencapai $25,7 miliar pada 2025, diproyeksikan $127 miliar pada 2030 (CAGR 37,60%). Quantum-X800 menghadirkan 144 port konektivitas 800Gbps XDR dengan komputasi dalam jaringan 14,4 TFLOPS (9x dibanding NDR). Latensi port-ke-port di bawah 100ns. 64.000 sistem GB200 Stargate dan supercluster skala zetta Oracle dengan 131.000 GPU berjalan di InfiniBand.

Penjualan switch InfiniBand melonjak pada Q2 2025 saat platform Blackwell Ultra dari NVIDIA mendorong permintaan untuk jaringan 800Gbps.¹ Pasar InfiniBand, yang bernilai $25,74 miliar pada 2025, diproyeksikan tumbuh menjadi $126,99 miliar pada 2030 dengan tingkat pertumbuhan tahunan majemuk 37,60%.² Meskipun Ethernet mempertahankan kepemimpinan pasar secara keseluruhan untuk jaringan back-end AI, InfiniBand mendominasi deployment berperforma tertinggi di mana latensi yang diukur dalam ratusan nanodetik menentukan efisiensi pelatihan.

Platform Quantum-X800 merupakan jawaban NVIDIA untuk kebutuhan model dengan parameter triliunan. Dengan 144 port konektivitas 800Gbps, 14,4 teraflops komputasi dalam jaringan melalui SHARP v4, dan latensi port-ke-port di bawah 100 nanodetik, generasi XDR menggandakan bandwidth sambil menghadirkan komputasi dalam jaringan 9x lebih besar dari platform NDR sebelumnya.³ Instalasi besar termasuk 64.000 sistem GB200 Stargate dan supercluster skala zetta Oracle dengan 131.000 GPU mengandalkan NVIDIA InfiniBand untuk mempertahankan sinkronisasi ketat yang dibutuhkan pelatihan AI terdistribusi.⁴

Evolusi dari NDR ke XDR

Generasi InfiniBand berkembang melalui peningkatan kecepatan terstandarisasi: QDR (40Gbps), FDR (56Gbps), EDR (100Gbps), HDR (200Gbps), NDR (400Gbps), dan sekarang XDR (800Gbps).⁵ Setiap generasi menggandakan bandwidth per port sambil mempertahankan latensi rendah dan keandalan tingkat perangkat keras yang membedakan InfiniBand dari alternatif Ethernet.

NDR (Next Data Rate) diperkenalkan pada 2021 menghadirkan port 400Gbps menggunakan empat jalur SerDes berenkode PAM-4 yang berjalan pada 51,6 GHz.⁶ ASIC Quantum-2 yang menggerakkan switch NDR menyediakan 256 jalur SerDes dengan bandwidth unidireksional 25,6Tbps, memproses 66,5 miliar paket per detik di 64 port konektivitas 400Gbps.⁷ NDR membawa konektor OSFP ke InfiniBand, memungkinkan satu atau dua tautan pada konfigurasi 2x (NDR200) atau 4x (NDR400).⁸

Spesifikasi XDR (eXtreme Data Rate) dirilis oleh InfiniBand Trade Association pada Oktober 2023 menggandakan bandwidth untuk memenuhi permintaan pusat data AI dan HPC.⁹ Dukungan SerDes pada 200Gbps per jalur memungkinkan port 800Gbps, dengan koneksi switch-ke-switch mencapai 1,6Tbps.¹⁰ XDR memperkenalkan SHARP generasi keempat, peningkatan latensi ultra-rendah, kemampuan self-healing, dan integrasi silicon photonics.¹¹

Peta jalan berlanjut menuju teknologi GDR (Giga Data Rate) yang menyediakan 1,6Tbps per port untuk generasi mendatang, memastikan InfiniBand mempertahankan posisi kepemimpinan performanya.¹²

Arsitektur platform NVIDIA Quantum-X800

Platform Quantum-X800 menghadirkan implementasi InfiniBand XDR pertama, dibangun khusus untuk model AI skala parameter triliunan.¹³ Switch Q3400-RA 4U memanfaatkan teknologi SerDes 200Gbps-per-jalur, silikon switch pertama yang mencapai grade kecepatan ini.¹⁴

Kepadatan port meningkat secara substansial. Switch ini menyediakan 144 port konektivitas 800Gbps yang didistribusikan di 72 cage OSFP.¹⁵ Radix tinggi memungkinkan topologi fabric yang efisien, dengan fat-tree dua level yang mampu menghubungkan hingga 10.368 NIC ConnectX-8 dengan latensi minimal dan lokalitas job optimal.¹⁶

Spesifikasi performa menargetkan beban kerja AI paling menuntut. Latensi port-ke-port terukur di bawah 100 nanodetik.¹⁷ Adaptive routing mendistribusikan lalu lintas di jalur yang tersedia secara dinamis. Kontrol kemacetan berbasis telemetri mencegah saturasi jaringan sebelum berdampak pada utilisasi GPU.¹⁸

Enclosure switch ganda pada model seperti Q3200-RA menyediakan 72 port 800Gbps dengan bandwidth agregat switch-ke-switch 1,6Tbps, memungkinkan topologi spine-leaf yang dibutuhkan cluster AI besar.¹⁹ Kemampuan router opsional memfasilitasi ekspansi cluster InfiniBand di beberapa situs, mendukung lingkungan pelatihan terdistribusi yang mencakup lokasi geografis.²⁰

Komputasi dalam jaringan SHARP menghilangkan bottleneck

Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) dari NVIDIA merupakan keunggulan teknologi yang menentukan dari InfiniBand dibanding alternatif Ethernet. Dengan memindahkan operasi kolektif seperti all-reduce dan broadcast ke switch jaringan, SHARP secara signifikan mengurangi volume transfer data dan meminimalkan jitter server selama pelatihan terdistribusi.²¹

Evolusi melalui empat generasi memperluas kemampuan SHARP secara progresif:

SHARPv1 berfokus pada operasi reduksi pesan kecil untuk komputasi ilmiah, menunjukkan peningkatan performa substansial yang diadopsi oleh library MPI terkemuka.²²

SHARPv2 diperkenalkan dengan switch Quantum HDR 200Gbps menambahkan dukungan beban kerja AI termasuk operasi reduksi pesan besar. Benchmark menunjukkan peningkatan 17% dalam performa pelatihan BERT.²³

SHARPv3 mengaktifkan komputasi dalam jaringan multi-tenant, memungkinkan beberapa beban kerja AI memanfaatkan kemampuan SHARP secara bersamaan. Microsoft Azure memamerkan manfaat performa hampir satu orde magnitudo untuk latensi AllReduce menggunakan generasi ini.²⁴

SHARPv4 hadir standar dengan switch Quantum-X800 dan Quantum-X Photonics, mengaktifkan agregasi dan reduksi dalam jaringan yang meminimalkan overhead komunikasi GPU-ke-GPU.²⁵ Dikombinasikan dengan dukungan presisi FP8, SHARP v4 mempercepat pelatihan model parameter triliunan dengan mengurangi permintaan bandwidth dan komputasi, menghadirkan konvergensi lebih cepat dan throughput lebih tinggi.²⁶

Teknologi ini terintegrasi dengan NVIDIA Collective Communication Library (NCCL), memungkinkan framework pelatihan AI terdistribusi memanfaatkan SHARP secara otomatis. Penyedia layanan melaporkan peningkatan performa 10-20% untuk beban kerja AI melalui integrasi SHARP.²⁷ Switch jaringan melakukan agregasi dan reduksi secara langsung, melewati CPU dan GPU untuk tugas-tugas ini sambil menggandakan bandwidth AllReduce dibanding konfigurasi non-SHARP.²⁸

ConnectX-8 SuperNIC menghadirkan endpoint 800Gbps

Platform Quantum-X800 dipasangkan dengan adapter ConnectX-8 SuperNIC untuk mencapai throughput end-to-end 800Gbps.²⁹ C8180 merupakan SuperNIC dual-protokol 800Gbps pertama dari NVIDIA yang mendukung InfiniBand dan Ethernet, dirancang untuk cluster komputasi berperforma tinggi AI, jaringan superkomputer, dan arsitektur pusat data generasi berikutnya.³⁰

Spesifikasi teknis mendorong kemampuan adapter secara signifikan ke depan. Interface OSFP port tunggal menghadirkan InfiniBand XDR 800Gbps atau dua port Ethernet 400Gbps.³¹ Konektivitas PCIe Gen6 x16 menyediakan bandwidth interface host yang sesuai dengan kecepatan jaringan.³² Auto-negotiation mendukung kompatibilitas mundur di kecepatan InfiniBand XDR, NDR, NDR200, HDR, HDR100, EDR, FDR, dan SDR.³³

Inovasi arsitektur melampaui bandwidth mentah. ConnectX-8 mengintegrasikan dukungan PCIe Gen6 native dengan switching fabric PCIe on-board, menghilangkan kebutuhan switch PCIe eksternal.³⁴ Adapter berisi 48 jalur PCIe Gen6 di belakang interface konektor x16.³⁵ Dukungan SHARP native mempercepat operasi agregasi dan reduksi langsung di perangkat keras adapter.³⁶

Teknologi Socket Direct menangani arsitektur server dual-socket. Akses langsung dari setiap CPU ke jaringan melalui interface PCIe khusus meningkatkan performa dalam sistem di mana topologi CPU-ke-jaringan berdampak pada latensi.³⁷ GB300 NVL72 merupakan deployment pertama kemampuan SuperNIC PCIe Gen6, terhubung ke CPU Grace pada kecepatan Gen5 sambil mempertahankan tautan Gen6 ke GPU B300.³⁸

Unified Fabric Manager mengorkestrasi dalam skala besar

Platform UFM merevolusi manajemen fabric InfiniBand dengan menggabungkan telemetri jaringan real-time dengan analitik bertenaga AI.³⁹ Solusi berbasis host ini menyediakan visibilitas lengkap atas manajemen fabric, routing, provisioning, dan troubleshooting.

Arsitektur UFM mencakup beberapa komponen. UFM Server mempertahankan visibilitas fabric lengkap dan mengelola routing di semua perangkat. Managed Switching Devices mencakup switch fabric, gateway, dan router di bawah kontrol UFM. UFM Host Agent opsional pada node komputasi menyediakan data host lokal dan fungsionalitas manajemen perangkat.⁴⁰

Tiga tingkat platform menangani kebutuhan operasional yang berbeda:

UFM Telemetry mengumpulkan lebih dari 120 counter unik per port termasuk bit error rate, suhu, histogram, dan retransmisi.⁴¹ Data ini memungkinkan prediksi kabel marginal sebelum kegagalan berdampak pada beban kerja produksi.

UFM Enterprise menambahkan pemantauan jaringan, manajemen, optimasi beban kerja, dan validasi konfigurasi berkala.⁴² Integrasi job scheduler dengan Slurm dan Platform LSF memungkinkan provisioning jaringan otomatis yang selaras dengan penjadwalan beban kerja. Integrasi OpenStack dan Azure mendukung model deployment cloud.⁴³

UFM Cyber-AI menyediakan kemampuan pemeliharaan preventif dan keamanan siber untuk menurunkan biaya operasional superkomputer.⁴⁴ Deployment appliance khusus mengaktifkan analisis fabric bertenaga AI secara on-premises.

UFM SDK menawarkan integrasi pihak ketiga yang luas termasuk plug-in Grafana, FluentD, Zabbix, dan Slurm melalui akses REST API.⁴⁵ Proyek open-source mengaktifkan integrasi SLURM untuk memantau bandwidth jaringan, kemacetan, error, dan utilisasi sumber daya di node komputasi job.

Deployment superkomputer besar memvalidasi platform

Sistem AI terbesar di dunia menstandarisasi pada jaringan NVIDIA InfiniBand. Deployment saat ini dan yang direncanakan menunjukkan kemampuan platform Quantum dalam skala besar.

Pusat Data AI Stargate mulai menginstal 64.000 sistem GB200 pada Maret 2025, saling terhubung oleh InfiniBand 800Gbps untuk layanan AI multi-exaflop.⁴⁶ Deployment ini merupakan salah satu implementasi XDR skala besar pertama.

xAI Colossus mengoperasikan 100.000 GPU H100 menggunakan switch Quantum-2, mempertahankan latensi kasus terburuk 850-nanodetik di tiga tier jaringan.⁴⁷ Cluster Memphis melatih keluarga model bahasa besar Grok dari xAI.

Oracle Zetta-scale Supercluster merencanakan 131.000 GPU GB200 yang terhubung melalui fabric Quantum InfiniBand, menunjukkan komitmen penyedia cloud terhadap InfiniBand untuk infrastruktur AI berperforma maksimum.⁴⁸

El Capitan di Lawrence Livermore National Laboratory akan melampaui 2 exaflops menggunakan InfiniBand 200Gbps, menunjukkan relevansi berkelanjutan dari jaringan kelas NDR untuk komputasi ilmiah.⁴⁹

JUPITER (EUR 250 juta) dan Blue Lion (EUR 250 juta) di Eropa memilih fabric Quantum-2 yang memenuhi persyaratan efisiensi energi ketat sambil menghadirkan performa yang dibutuhkan beban kerja ilmiah.⁵⁰

Pendapatan jaringan NVIDIA mencapai $10 miliar per tahun, hampir semuanya terkait dengan fabric InfiniBand yang menggerakkan cloud AI komersial.⁵¹ Microsoft Azure dan Oracle Cloud Infrastructure merupakan adopter awal Quantum InfiniBand di antara penyedia hyperscale.⁵²

Posisi InfiniBand versus Ethernet

Dinamika pasar mencerminkan positioning yang berbeda untuk setiap teknologi. Ketika Dell'Oro Group memulai cakupan jaringan back-end AI pada akhir 2023, InfiniBand memegang lebih dari 80% pangsa pasar.⁵³ Ethernet sejak itu mendapatkan momentum melalui adopsi hyperscaler dan keunggulan biaya, mempertahankan kepemimpinan pasar secara keseluruhan pada 2025.⁵⁴

Karakteristik performa membedakan kedua teknologi. InfiniBand menghadirkan latensi sub-mikrodetik melalui RDMA yang dipercepat perangkat keras dan komputasi dalam jaringan. Ethernet mencapai throughput kompetitif ketika dikonfigurasi dengan benar dengan RoCE, tetapi membutuhkan konfigurasi jaringan lossless yang cermat dan tidak memiliki kemampuan komputasi dalam jaringan yang setara.

Struktur biaya menguntungkan Ethernet untuk banyak deployment. Perusahaan tier 2 dan tier 3 yang men-deploy cluster 256-1.024 GPU biasanya menemukan Ethernet dengan RoCE menghadirkan performa yang dapat diterima dengan biaya jaringan sekitar setengahnya.⁵⁵ Proposisi nilai InfiniBand menguat pada skala yang lebih besar di mana komputasi dalam jaringan SHARP dan batas latensi yang lebih ketat diterjemahkan

[Konten dipotong untuk terjemahan]

Minta Penawaran_

Ceritakan tentang proyek Anda dan kami akan merespons dalam 72 jam.

> TRANSMISSION_COMPLETE

Permintaan Diterima_

Terima kasih atas pertanyaan Anda. Tim kami akan meninjau permintaan Anda dan merespons dalam 72 jam.

QUEUED FOR PROCESSING