Desain Topologi Jaringan Klaster GPU: Arsitektur Fat-Tree, Dragonfly, dan Rail-Optimized

DGX SuperPOD menentukan fat-tree tiga tingkat dengan Quantum-2 InfiniBand (400Gb/s). Studi Meta menemukan kesalahan konfigurasi jaringan menyebabkan 10,7% kegagalan pekerjaan GPU yang signifikan. Full bisection...

Desain Topologi Jaringan Klaster GPU: Arsitektur Fat-Tree, Dragonfly, dan Rail-Optimized

Desain Topologi Jaringan Klaster GPU: Arsitektur Fat-Tree, Dragonfly, dan Rail-Optimized

Diperbarui 11 Desember 2025

Pembaruan Desember 2025: DGX SuperPOD menentukan topologi jaringan fat-tree tiga tingkat yang menghubungkan hingga 32 sistem DGX menggunakan switch Quantum-2 InfiniBand pada 400 Gb/s per port. Studi Meta menemukan kesalahan konfigurasi jaringan menyebabkan 10,7% kegagalan pekerjaan GPU yang signifikan. Full bisection bandwidth sangat penting untuk pelatihan terdistribusi di mana pola komunikasi berubah secara dinamis. Pod TPU Google menggunakan 3D torus; AWS Trainium menggunakan topologi yang dioptimalkan untuk beban kerja.

Arsitektur referensi DGX SuperPOD dari NVIDIA menentukan topologi jaringan fat-tree tiga tingkat yang menghubungkan hingga 32 sistem DGX menggunakan switch Quantum-2 InfiniBand pada 400 Gb/s per port.[^1] Arsitektur ini memberikan full bisection bandwidth, yang berarti bandwidth agregat antara dua bagian mana pun dari klaster sama dengan total bandwidth ke salah satu bagian. Topologi fat-tree mendominasi penerapan klaster GPU karena memberikan kinerja yang dapat diprediksi terlepas dari pasangan GPU mana yang berkomunikasi, properti kritis untuk pelatihan terdistribusi di mana pola komunikasi berubah secara dinamis.

Pilihan topologi jaringan secara langsung memengaruhi kinerja pelatihan, biaya, dan kompleksitas operasional. Sebuah studi Meta menemukan bahwa kesalahan konfigurasi jaringan menyebabkan 10,7% kegagalan pekerjaan yang signifikan di klaster GPU mereka, dengan kemacetan yang bergantung pada topologi berkontribusi pada variabilitas kinerja.[^2] Pod TPU Google menggunakan topologi 3D torus yang memungkinkan koneksi langsung antara akselerator yang berdekatan, sementara klaster AWS Trainium menggunakan topologi berbeda yang dioptimalkan untuk pola beban kerja mereka.[^3] Memahami pertukaran topologi memungkinkan organisasi memilih arsitektur yang sesuai dengan persyaratan beban kerja spesifik dan batasan anggaran mereka.

Dasar-dasar topologi fat-tree

Topologi fat-tree berasal dari karya Charles Leiserson tahun 1985 yang menunjukkan bahwa struktur pohon dapat mencapai full bisection bandwidth jika kapasitas tautan meningkat menuju akar.[^4] Implementasi modern menggunakan tautan berkapasitas sama di seluruh sistem, mencapai bandwidth penuh melalui beberapa jalur paralel daripada tautan yang lebih tebal.

Arsitektur fat-tree tiga tingkat

Fat-tree tiga tingkat terdiri dari switch leaf yang terhubung ke server, switch spine yang mengagregasi lalu lintas leaf, dan switch core yang menyediakan konektivitas penuh antara spine.[^5] Setiap switch leaf terhubung ke setiap switch spine, dan setiap spine terhubung ke setiap switch core. Jaringan mesh koneksi menciptakan beberapa jalur berbiaya sama antara dua server mana pun.

NVIDIA merekomendasikan fat-tree untuk klaster DGX karena karakteristik latensi dan bandwidth yang dapat diprediksi.[^6] Topologi ini memastikan bahwa operasi kolektif seperti all-reduce mengalami kinerja yang konsisten terlepas dari penempatan GPU. Pekerjaan pelatihan tidak perlu mempertimbangkan topologi jaringan saat menjadwalkan, menyederhanakan manajemen klaster.

Rasio oversubscription

Full bisection bandwidth memerlukan kapasitas switch yang mahal di tingkat atas. Banyak penerapan menerima oversubscription, di mana bandwidth uplink agregat dari tingkat bawah melebihi kapasitas yang tersedia di tingkat atas.[^7] Rasio oversubscription 2:1 berarti hanya setengah lalu lintas yang dapat secara bersamaan melintasi tingkat atas.

Oversubscription cocok untuk beban kerja dengan lokalitas, di mana sebagian besar komunikasi terjadi dalam rak atau pod. Namun, pelatihan terdistribusi dengan pola komunikasi all-to-all menjenuhkan tautan yang di-oversubscribe, menyebabkan kemacetan dan degradasi kinerja. Klaster pelatihan AI biasanya memerlukan desain non-oversubscribed meskipun biayanya lebih tinggi.[^8]

Radix dan penskalaan

Radix switch menentukan berapa banyak port yang disediakan setiap switch, memengaruhi skala dan biaya. Switch 64-port yang membangun fat-tree tiga tingkat dengan 32 downlink dan 32 uplink dapat mencapai 32.768 endpoint.[^9] Switch radix lebih tinggi mengurangi jumlah switch yang diperlukan tetapi meningkatkan biaya per switch.

Switch Quantum-2 NVIDIA menyediakan 64 port pada 400 Gb/s, memungkinkan penerapan fat-tree skala besar dengan jumlah switch yang wajar.[^10] Generasi Quantum-X800 yang akan datang meningkatkan kecepatan port menjadi 800 Gb/s, menggandakan bandwidth agregat tanpa mengubah struktur topologi.

Topologi rail-optimized

Topologi rail-optimized muncul dari pengakuan bahwa server GPU berisi beberapa GPU yang berbagi interkoneksi internal berkecepatan tinggi. Alih-alih memperlakukan setiap GPU secara independen, desain rail-optimized menyelaraskan koneksi jaringan dengan penempatan GPU dalam server.[^11]

Memahami rail GPU

Sistem DGX H100 berisi delapan GPU yang terhubung melalui NVLink, dengan setiap GPU juga terhubung ke network interface card (NIC).[^12] Delapan NIC sesuai dengan delapan "rail" yang membentang di seluruh klaster. Rail 0 menghubungkan GPU 0 dari setiap server, rail 1 menghubungkan GPU 1, dan seterusnya. Komunikasi dalam satu rail melintasi lebih sedikit hop switch daripada komunikasi lintas rail.

NVLink Switch NVIDIA menghubungkan GPU dalam dan antar server pada bandwidth agregat 900 GB/s per GPU.[^13] Domain NVLink menangani sebagian besar komunikasi GPU-ke-GPU, dengan jaringan InfiniBand menangani komunikasi antara domain NVLink. Topologi rail-optimized menyelaraskan jalur InfiniBand dengan domain NVLink untuk meminimalkan lalu lintas InfiniBand.

Pertimbangan implementasi

Penerapan rail-optimized memerlukan pengkabelan yang cermat untuk mempertahankan keselarasan rail di seluruh rak dan pod.[^14] Koneksi yang salah kabel merusak lokalitas rail, memaksa lalu lintas melalui hop switch tambahan. Disiplin manajemen kabel terbukti penting untuk merealisasikan manfaat optimasi rail.

Topologi ini mengurangi kebutuhan switch dibandingkan dengan fat-tree penuh pada skala yang setara. Penghematan berasal dari menghilangkan kapasitas switching lintas rail yang jarang digunakan oleh beban kerja rail-optimized.[^15] Organisasi harus memverifikasi bahwa pola beban kerja mereka benar-benar menunjukkan lokalitas rail sebelum berkomitmen pada desain rail-optimized.

Topologi dragonfly

Topologi dragonfly mengorganisir switch ke dalam grup dengan konektivitas intra-grup yang padat dan tautan antar-grup yang jarang.[^16] Desain ini mengurangi jumlah switch dibandingkan dengan fat-tree sambil mempertahankan panjang jalur yang wajar antara dua endpoint mana pun.

Struktur dragonfly

Dragonfly terdiri dari grup, masing-masing berisi beberapa switch yang sepenuhnya terhubung dalam grup. Tautan global menghubungkan setiap switch ke switch di grup lain.[^17] Dua endpoint mana pun terhubung melalui paling banyak tiga hop: switch lokal ke switch grup ke switch grup remote ke tujuan.

Jumlah hop yang berkurang menurunkan latensi untuk penerapan skala besar. Lebih sedikit switch mengurangi biaya modal dan konsumsi daya. Namun, dragonfly menyediakan bisection bandwidth yang lebih rendah daripada fat-tree, membuatnya lebih rentan terhadap kemacetan di bawah pola lalu lintas tertentu.[^18]

Persyaratan adaptive routing

Kinerja dragonfly sangat bergantung pada adaptive routing yang mendistribusikan lalu lintas di seluruh jalur yang tersedia.[^19] Static routing memusatkan lalu lintas pada tautan tertentu, menyebabkan kemacetan sementara jalur lain tetap kurang dimanfaatkan. Switch harus memantau pemanfaatan tautan dan secara dinamis mengalihkan lalu lintas ke jalur yang kurang dimuat.

NVIDIA InfiniBand mendukung adaptive routing yang cocok untuk penerapan dragonfly.[^20] Kemampuan ini memerlukan konfigurasi dan pengujian untuk memastikan algoritma routing merespons dengan tepat terhadap pola lalu lintas beban kerja. Adaptive routing yang salah konfigurasi dapat berkinerja lebih buruk daripada static routing.

Sensitivitas beban kerja

Dragonfly cocok untuk beban kerja dengan pola komunikasi terlokalisasi yang menjaga sebagian besar lalu lintas dalam grup.[^21] Beban kerja yang menghasilkan lalu lintas acak seragam di semua endpoint menekan tautan antar-grup melebihi kapasitasnya. Topologi ini bekerja dengan baik untuk penyajian inferensi dengan afinitas permintaan tetapi mungkin kesulitan dengan pelatihan skala besar menggunakan operasi kolektif global.

Organisasi yang mengevaluasi dragonfly harus mengkarakterisasi pola komunikasi beban kerja yang diharapkan sebelum penerapan. Alat simulasi dapat memodelkan kinerja yang diharapkan di bawah lalu lintas realistis, mengidentifikasi titik kemacetan potensial yang memerlukan penyesuaian topologi.[^22]

Topologi torus dan mesh

Topologi torus menghubungkan node dalam pola grid reguler dengan koneksi wraparound di batas. Pod TPU Google menggunakan topologi 3D torus yang menyediakan koneksi tetangga langsung tanpa switching.[^23]

Jaringan direct versus switched

Jaringan torus menghubungkan setiap node langsung ke tetangga, menghilangkan switch dari jalur komunikasi.[^24] Koneksi langsung mengurangi latensi untuk komunikasi tetangga-ke-tetangga yang umum di banyak algoritma paralel. Namun, komunikasi antara node yang jauh melintasi beberapa node perantara, meningkatkan latensi dan mengonsumsi bandwidth di setiap hop.

Jaringan switched seperti fat-tree memberikan latensi yang sama antara dua endpoint mana pun terlepas dari penempatan fisik. Keseragaman ini menyederhanakan pemrograman dan load balancing. Jaringan torus memerlukan penempatan yang sadar topologi untuk meminimalkan jarak komunikasi.[^25]

Pemilihan dimensi

Topologi torus berdimensi lebih tinggi mengurangi diameter (jumlah hop maksimum) dengan biaya peningkatan jumlah koneksi per node.[^26] 3D torus dengan N node per dimensi memiliki diameter 3N/2, sedangkan 2D torus memiliki diameter N. Pilihan Google untuk 3D torus menyeimbangkan jumlah koneksi dengan diameter.

Kendala fisik memengaruhi pemilihan dimensi. 2D torus dipetakan secara alami ke baris dan kolom di ruang mesin. 3D torus memerlukan rak bertumpuk atau koneksi yang membentang jarak yang cukup besar. Panjang kabel dalam torus berdimensi tinggi dapat menjadi problematik pada skala besar.[^27]

Kerangka pemilihan topologi

Memilih topologi jaringan memerlukan evaluasi karakteristik beban kerja, persyaratan skala, batasan anggaran, dan kemampuan operasional.

Analisis beban kerja

Beban kerja yang berbeda menekan jaringan secara berbeda. Melatih model bahasa besar menghasilkan pola komunikasi all-to-all yang memerlukan bisection bandwidth tinggi.[^28] Penyajian inferensi dengan batching menunjukkan komunikasi yang lebih terlokalisasi dalam grup GPU yang melayani permintaan. Preprocessing data dapat menghasilkan pola shuffle dengan komunikasi acak.

Organisasi harus membuat profil beban kerja yang diharapkan untuk memahami pola komunikasi. Pemantauan klaster produksi mengungkapkan pola lalu lintas aktual untuk beban kerja yang ada. Jenis beban kerja baru mungkin memerlukan estimasi berdasarkan analisis algoritma atau panduan vendor.

Pertimbangan skala

Klaster kecil dengan puluhan GPU mungkin tidak memerlukan optimasi topologi yang canggih. Satu switch radix tinggi yang menghubungkan semua GPU menyediakan konektivitas penuh tanpa kompleksitas multi-tingkat.[^29] Pemilihan topologi paling penting untuk klaster yang mencakup ratusan hingga ribuan GPU di mana biaya switching dan jalur kabel menjadi signifikan.

Pertumbuhan masa depan memengaruhi pemilihan topologi. Fat-tree berskala dengan menambahkan switch leaf dan server sambil mempertahankan full bisection bandwidth. Dragonfly berskala dengan menambahkan grup tetapi mungkin memerlukan penyeimbangan ulang tautan global. Perencanaan untuk pertumbuhan menghindari perubahan topologi yang mengganggu operasi.[^30]

Faktor ekonomi

Biaya switch dan kabel bervariasi secara signifikan antara topologi. Fat-tree memerlukan lebih banyak switch daripada dragonfly pada skala yang setara. Desain rail-optimized mengurangi switching InfiniBand tetapi memerlukan sistem NVLink Switch.[^31] Analisis total biaya harus mencakup switch, kabel, optik, daya, pendinginan, dan ruang rak.

Biaya operasional juga bervariasi. Topologi kompleks memerlukan kemampuan pemantauan dan troubleshooting yang lebih canggih. Melatih staf operasi tentang pertimbangan khusus topologi menambah biaya. Topologi yang lebih sederhana dapat membenarkan pertukaran kinerja yang moderat melalui beban operasional yang berkurang.

Implementasi dan penerapan

Implementasi topologi jaringan memerlukan perencanaan yang cermat yang mencakup infrastruktur fisik, konfigurasi switching, dan pengujian validasi.

Perencanaan infrastruktur fisik

Penerapan jaringan berkecepatan tinggi memerlukan pengkabelan terstruktur yang mendukung ribuan koneksi pada 400 Gb/s atau lebih tinggi.[^32] Routing kabel harus meminimalkan pelanggaran radius tekuk dan degradasi sinyal. Pengaturan hot aisle/cold aisle harus mengakomodasi jalur kabel tanpa menghalangi

[Konten dipotong untuk terjemahan]

Minta Penawaran_

Ceritakan tentang proyek Anda dan kami akan merespons dalam 72 jam.

> TRANSMISSION_COMPLETE

Permintaan Diterima_

Terima kasih atas pertanyaan Anda. Tim kami akan meninjau permintaan Anda dan merespons dalam 72 jam.

QUEUED FOR PROCESSING