UALink dan CXL 4.0: Standar Terbuka yang Membentuk Ulang Arsitektur Kluster GPU
Spesifikasi UALink 1.0 yang dipublikasikan pada April 2025 memungkinkan penskalaan hingga 1.024 akselerator dalam satu fabric, secara langsung menantang ekosistem proprietary NVLink dan NVSwitch milik Nvidia. Tujuh bulan kemudian, CXL Consortium merilis CXL 4.0 pada 18 November 2025, menggandakan bandwidth menjadi 128 GT/s dan memungkinkan memory pooling multi-rack. Bersama-sama, standar terbuka ini merepresentasikan tantangan paling signifikan terhadap dominasi interkoneksi Nvidia sejak perusahaan tersebut memperkenalkan NVLink pada tahun 2016.
Ringkasan
UALink 1.0 menghadirkan 200 GT/s per lane dengan dukungan hingga 1.024 akselerator, dibandingkan dengan maksimum 576 GPU pada NVLink. CXL 4.0 menggandakan bandwidth memori menjadi 128 GT/s dan memperkenalkan bundled ports untuk beban kerja AI yang membutuhkan memori bersama skala terabyte. Perangkat keras yang mendukung UALink akan hadir pada akhir 2026 dari AMD, Intel, dan Astera Labs, sementara deployment multi-rack CXL 4.0 ditargetkan pada 2027. Bagi tim infrastruktur yang merencanakan kluster GPU generasi berikutnya, spesifikasi ini menandakan pergeseran menuju arsitektur vendor-neutral yang mengurangi ketergantungan vendor sekaligus memungkinkan skala yang belum pernah ada sebelumnya.
Lanskap Interkoneksi di 2025
Interkoneksi GPU menentukan seberapa efektif kluster AI dapat diskalakan. Semakin cepat akselerator dapat bertukar data, semakin besar model yang dapat mereka latih dan semakin efisien mereka dapat melayani permintaan inferensi.
Teknologi Interkoneksi Saat Ini
| Teknologi | Pemilik | Bandwidth | Skala Maks | Status |
|---|---|---|---|---|
| NVLink 5.0 | Nvidia | 1,8 TB/s per GPU | 576 GPU | Produksi (Blackwell) |
| NVLink 4.0 | Nvidia | 900 GB/s per GPU | 256 GPU | Produksi (Hopper) |
| Infinity Fabric | AMD | ~1,075 TB/s per kartu | 8 GPU (direct mesh) | Produksi (MI300X) |
| UALink 1.0 | Konsorsium | 800 GB/s (4 lane) | 1.024 akselerator | Spek dipublikasikan April 2025 |
| CXL 4.0 | Konsorsium | 128 GT/s | Multi-rack | Spek dipublikasikan Nov 2025 |
NVLink Nvidia mendominasi deployment produksi, tetapi sistem GB200 NVL72 mencontohkan baik kekuatan maupun keterbatasannya: 72 GPU Blackwell yang terinterkoneksi dengan bandwidth agregat 130 TB/s, tetapi secara eksklusif dalam ekosistem proprietary Nvidia.
UALink 1.0: Memutus Ketergantungan Vendor
Pembentukan Konsorsium
Ultra Accelerator Link Consortium didirikan pada Oktober 2024 dengan anggota pendiri AMD, Astera Labs, AWS, Cisco, Google, HPE, Intel, Meta, dan Microsoft. Upaya ini dibangun di atas pekerjaan yang diumumkan AMD dan Broadcom pada Desember 2023.
Pada Januari 2025, Alibaba Cloud, Apple, dan Synopsys bergabung di level dewan, membawa total keanggotaan menjadi 75 organisasi.
Spesifikasi Teknis
Spesifikasi UALink 200G 1.0 mendefinisikan interkoneksi latensi rendah dan bandwidth tinggi untuk komunikasi antara akselerator dan switch dalam pod komputasi AI.
| Spesifikasi | UALink 1.0 |
|---|---|
| Data Rate Per-Lane | 200 GT/s bidirectional |
| Signaling Rate | 212,5 GT/s (dengan overhead FEC) |
| Lebar Link | x1, x2, x4 |
| Bandwidth Maksimum | 800 GB/s (konfigurasi x4) |
| Skala Maksimum | 1.024 akselerator |
| Panjang Kabel | <4 meter dioptimalkan |
| Target Latensi | <1 µs round-trip (payload 64B/640B) |
Switch UALink menetapkan satu port per akselerator dan menggunakan identifier unik 10-bit untuk routing presisi di seluruh fabric.
UALink vs NVLink: Perbandingan Langsung
| Metrik | UALink 1.0 | NVLink 4.0 (Hopper) | NVLink 5.0 (Blackwell) |
|---|---|---|---|
| Bandwidth Per-GPU | 800 GB/s | 900 GB/s | 1,8 TB/s |
| Link per GPU | 4 | 18 | 18 |
| GPU Maksimum | 1.024 | 256 | 576 |
| Ketergantungan Vendor | Standar terbuka | Hanya Nvidia | Hanya Nvidia |
| Ketersediaan Hardware | Akhir 2026/2027 | Produksi | Produksi |
NVLink 5.0 menghadirkan lebih dari 3x bandwidth per-koneksi dibanding UALink 1.0 (2.538 GB/s vs 800 GB/s). Namun, UALink mendukung hampir 2x ukuran kluster maksimum (1.024 vs 576 GPU) dan beroperasi lintas beberapa vendor.
Perbedaan Filosofi Desain
NVLink mengoptimalkan untuk kluster GPU padat dan homogen di mana bandwidth maksimum antara akselerator yang dikemas rapat paling penting. Teknologi ini unggul dalam sistem DGX dan rack NVL72 di mana semua komponen berasal dari Nvidia.
UALink menargetkan arsitektur modular skala rack di mana organisasi mencampur akselerator dari vendor berbeda atau membutuhkan kluster logis yang lebih besar. Standar terbuka ini memungkinkan AMD seri MI, Intel Gaudi, dan akselerator masa depan untuk berkomunikasi melalui fabric bersama.
Posisi AMD Saat Ini
Infinity Fabric AMD menghubungkan hingga delapan GPU MI300X atau MI355X dalam mesh yang sepenuhnya terhubung. Setiap MI300X membawa tujuh link Infinity Fabric dengan 16 lane per link, menghadirkan sekitar 1,075 TB/s bandwidth peer-to-peer.
Keterbatasannya: penskalaan di luar 8 GPU membutuhkan jaringan Ethernet. Roadmap AMD mencakup AFL (Accelerated Fabric Link) yang bekerja melalui link PCIe Gen7, ditambah adopsi UALink untuk interoperabilitas multi-vendor.
CXL 4.0: Memori Tanpa Batas
Masalah Memory Wall
Beban kerja AI semakin sering mencapai bottleneck memori sebelum batas komputasi. Model bahasa besar membutuhkan terabyte memori untuk KV cache selama inferensi, sementara training run membutuhkan lebih banyak lagi untuk aktivasi dan optimizer state.
Arsitektur server tradisional menghubungkan memori langsung ke CPU, menciptakan kapasitas yang terbuang ketika beban kerja bervariasi. CXL memisahkan memori dari komputasi, memungkinkan alokasi dinamis lintas node.
Spesifikasi CXL 4.0
CXL Consortium merilis CXL 4.0 di Supercomputing 2025 pada 18 November 2025.
| Spesifikasi | CXL 3.0/3.1 | CXL 4.0 |
|---|---|---|
| Signaling Rate | 64 GT/s | 128 GT/s |
| Generasi PCIe | PCIe 6.0 | PCIe 7.0 |
| Bandwidth | 256 GB/s (x16) | 512 GB/s (x16) |
| Retimer | 2 | 4 |
| Lebar Link | x16, x8, x4, x1 | x16, x8, x4, x2, x1 |
| Topologi | Single-rack | Multi-rack |
Fitur Utama CXL 4.0
Bundled Ports: CXL 4.0 memperkenalkan agregasi port yang memungkinkan host dan perangkat menggabungkan beberapa port fisik menjadi satu koneksi logis. Ini menghadirkan bandwidth lebih tinggi sambil mempertahankan model software yang sederhana di mana sistem melihat satu perangkat.
Extended Reach: Empat retimer memungkinkan konfigurasi multi-rack tanpa mengorbankan kualitas sinyal. CXL 3.x membatasi deployment ke topologi single-rack; CXL 4.0 memperluas memory pooling melintasi lorong data center.
Kapasitas Memori: CXL memory pooling memungkinkan 100+ terabyte memori terhubung ke satu CPU, berharga bagi organisasi yang menambang dataset besar atau menjalankan beban kerja AI yang intensif memori.
Native x2 Links: Opsi lebar link x2 yang baru mengurangi biaya untuk aplikasi yang membutuhkan bandwidth moderat, meningkatkan ekonomi CXL untuk deployment edge.
Kinerja CXL Memory Pooling
Demonstrasi di CXL DevCon 2025 menunjukkan dua server dengan GPU NVIDIA H100 menjalankan model OPT-6.7B:
| Konfigurasi | Kinerja |
|---|---|
| CXL Memory Pool | Baseline |
| 200G RDMA | 3,8x lebih lambat |
| 100G RDMA | 6,5x lebih lambat |
CXL menyediakan akses memory-semantic dengan latensi dalam rentang 200-500 ns, dibandingkan dengan ~100 µs untuk NVMe dan >10 ms untuk memory sharing berbasis storage.
Keuntungan Daya dan Efisiensi
Penelitian menunjukkan CXL dapat [mengurangi konsumsi daya memori sebesar 20-30%](https://computeexpresslink.org/blog/over