UALink dan CXL 4.0: Standar Terbuka yang Membentuk Ulang Arsitektur Kluster GPU

UALink 1.0 menantang NVLink dengan skalabilitas hingga 1.024 GPU. CXL 4.0 menggandakan bandwidth menjadi 128 GT/s. Panduan teknis standar interkoneksi terbuka untuk infrastruktur AI.

UALink dan CXL 4.0: Standar Terbuka yang Membentuk Ulang Arsitektur Kluster GPU

UALink dan CXL 4.0: Standar Terbuka yang Membentuk Ulang Arsitektur Kluster GPU

Spesifikasi UALink 1.0 yang dipublikasikan pada April 2025 memungkinkan penskalaan hingga 1.024 akselerator dalam satu fabric, secara langsung menantang ekosistem proprietary NVLink dan NVSwitch milik Nvidia. Tujuh bulan kemudian, CXL Consortium merilis CXL 4.0 pada 18 November 2025, menggandakan bandwidth menjadi 128 GT/s dan memungkinkan memory pooling multi-rack. Bersama-sama, standar terbuka ini merepresentasikan tantangan paling signifikan terhadap dominasi interkoneksi Nvidia sejak perusahaan tersebut memperkenalkan NVLink pada tahun 2016.

Ringkasan

UALink 1.0 menghadirkan 200 GT/s per lane dengan dukungan hingga 1.024 akselerator, dibandingkan dengan maksimum 576 GPU pada NVLink. CXL 4.0 menggandakan bandwidth memori menjadi 128 GT/s dan memperkenalkan bundled ports untuk beban kerja AI yang membutuhkan memori bersama skala terabyte. Perangkat keras yang mendukung UALink akan hadir pada akhir 2026 dari AMD, Intel, dan Astera Labs, sementara deployment multi-rack CXL 4.0 ditargetkan pada 2027. Bagi tim infrastruktur yang merencanakan kluster GPU generasi berikutnya, spesifikasi ini menandakan pergeseran menuju arsitektur vendor-neutral yang mengurangi ketergantungan vendor sekaligus memungkinkan skala yang belum pernah ada sebelumnya.


Lanskap Interkoneksi di 2025

Interkoneksi GPU menentukan seberapa efektif kluster AI dapat diskalakan. Semakin cepat akselerator dapat bertukar data, semakin besar model yang dapat mereka latih dan semakin efisien mereka dapat melayani permintaan inferensi.

Teknologi Interkoneksi Saat Ini

Teknologi Pemilik Bandwidth Skala Maks Status
NVLink 5.0 Nvidia 1,8 TB/s per GPU 576 GPU Produksi (Blackwell)
NVLink 4.0 Nvidia 900 GB/s per GPU 256 GPU Produksi (Hopper)
Infinity Fabric AMD ~1,075 TB/s per kartu 8 GPU (direct mesh) Produksi (MI300X)
UALink 1.0 Konsorsium 800 GB/s (4 lane) 1.024 akselerator Spek dipublikasikan April 2025
CXL 4.0 Konsorsium 128 GT/s Multi-rack Spek dipublikasikan Nov 2025

NVLink Nvidia mendominasi deployment produksi, tetapi sistem GB200 NVL72 mencontohkan baik kekuatan maupun keterbatasannya: 72 GPU Blackwell yang terinterkoneksi dengan bandwidth agregat 130 TB/s, tetapi secara eksklusif dalam ekosistem proprietary Nvidia.


Pembentukan Konsorsium

Ultra Accelerator Link Consortium didirikan pada Oktober 2024 dengan anggota pendiri AMD, Astera Labs, AWS, Cisco, Google, HPE, Intel, Meta, dan Microsoft. Upaya ini dibangun di atas pekerjaan yang diumumkan AMD dan Broadcom pada Desember 2023.

Pada Januari 2025, Alibaba Cloud, Apple, dan Synopsys bergabung di level dewan, membawa total keanggotaan menjadi 75 organisasi.

Spesifikasi Teknis

Spesifikasi UALink 200G 1.0 mendefinisikan interkoneksi latensi rendah dan bandwidth tinggi untuk komunikasi antara akselerator dan switch dalam pod komputasi AI.

Spesifikasi UALink 1.0
Data Rate Per-Lane 200 GT/s bidirectional
Signaling Rate 212,5 GT/s (dengan overhead FEC)
Lebar Link x1, x2, x4
Bandwidth Maksimum 800 GB/s (konfigurasi x4)
Skala Maksimum 1.024 akselerator
Panjang Kabel <4 meter dioptimalkan
Target Latensi <1 µs round-trip (payload 64B/640B)

Switch UALink menetapkan satu port per akselerator dan menggunakan identifier unik 10-bit untuk routing presisi di seluruh fabric.

Metrik UALink 1.0 NVLink 4.0 (Hopper) NVLink 5.0 (Blackwell)
Bandwidth Per-GPU 800 GB/s 900 GB/s 1,8 TB/s
Link per GPU 4 18 18
GPU Maksimum 1.024 256 576
Ketergantungan Vendor Standar terbuka Hanya Nvidia Hanya Nvidia
Ketersediaan Hardware Akhir 2026/2027 Produksi Produksi

NVLink 5.0 menghadirkan lebih dari 3x bandwidth per-koneksi dibanding UALink 1.0 (2.538 GB/s vs 800 GB/s). Namun, UALink mendukung hampir 2x ukuran kluster maksimum (1.024 vs 576 GPU) dan beroperasi lintas beberapa vendor.

Perbedaan Filosofi Desain

NVLink mengoptimalkan untuk kluster GPU padat dan homogen di mana bandwidth maksimum antara akselerator yang dikemas rapat paling penting. Teknologi ini unggul dalam sistem DGX dan rack NVL72 di mana semua komponen berasal dari Nvidia.

UALink menargetkan arsitektur modular skala rack di mana organisasi mencampur akselerator dari vendor berbeda atau membutuhkan kluster logis yang lebih besar. Standar terbuka ini memungkinkan AMD seri MI, Intel Gaudi, dan akselerator masa depan untuk berkomunikasi melalui fabric bersama.

Posisi AMD Saat Ini

Infinity Fabric AMD menghubungkan hingga delapan GPU MI300X atau MI355X dalam mesh yang sepenuhnya terhubung. Setiap MI300X membawa tujuh link Infinity Fabric dengan 16 lane per link, menghadirkan sekitar 1,075 TB/s bandwidth peer-to-peer.

Keterbatasannya: penskalaan di luar 8 GPU membutuhkan jaringan Ethernet. Roadmap AMD mencakup AFL (Accelerated Fabric Link) yang bekerja melalui link PCIe Gen7, ditambah adopsi UALink untuk interoperabilitas multi-vendor.


CXL 4.0: Memori Tanpa Batas

Masalah Memory Wall

Beban kerja AI semakin sering mencapai bottleneck memori sebelum batas komputasi. Model bahasa besar membutuhkan terabyte memori untuk KV cache selama inferensi, sementara training run membutuhkan lebih banyak lagi untuk aktivasi dan optimizer state.

Arsitektur server tradisional menghubungkan memori langsung ke CPU, menciptakan kapasitas yang terbuang ketika beban kerja bervariasi. CXL memisahkan memori dari komputasi, memungkinkan alokasi dinamis lintas node.

Spesifikasi CXL 4.0

CXL Consortium merilis CXL 4.0 di Supercomputing 2025 pada 18 November 2025.

Spesifikasi CXL 3.0/3.1 CXL 4.0
Signaling Rate 64 GT/s 128 GT/s
Generasi PCIe PCIe 6.0 PCIe 7.0
Bandwidth 256 GB/s (x16) 512 GB/s (x16)
Retimer 2 4
Lebar Link x16, x8, x4, x1 x16, x8, x4, x2, x1
Topologi Single-rack Multi-rack

Fitur Utama CXL 4.0

Bundled Ports: CXL 4.0 memperkenalkan agregasi port yang memungkinkan host dan perangkat menggabungkan beberapa port fisik menjadi satu koneksi logis. Ini menghadirkan bandwidth lebih tinggi sambil mempertahankan model software yang sederhana di mana sistem melihat satu perangkat.

Extended Reach: Empat retimer memungkinkan konfigurasi multi-rack tanpa mengorbankan kualitas sinyal. CXL 3.x membatasi deployment ke topologi single-rack; CXL 4.0 memperluas memory pooling melintasi lorong data center.

Kapasitas Memori: CXL memory pooling memungkinkan 100+ terabyte memori terhubung ke satu CPU, berharga bagi organisasi yang menambang dataset besar atau menjalankan beban kerja AI yang intensif memori.

Native x2 Links: Opsi lebar link x2 yang baru mengurangi biaya untuk aplikasi yang membutuhkan bandwidth moderat, meningkatkan ekonomi CXL untuk deployment edge.

Kinerja CXL Memory Pooling

Demonstrasi di CXL DevCon 2025 menunjukkan dua server dengan GPU NVIDIA H100 menjalankan model OPT-6.7B:

Konfigurasi Kinerja
CXL Memory Pool Baseline
200G RDMA 3,8x lebih lambat
100G RDMA 6,5x lebih lambat

CXL menyediakan akses memory-semantic dengan latensi dalam rentang 200-500 ns, dibandingkan dengan ~100 µs untuk NVMe dan >10 ms untuk memory sharing berbasis storage.

Keuntungan Daya dan Efisiensi

Penelitian menunjukkan CXL dapat [mengurangi konsumsi daya memori sebesar 20-30%](https://computeexpresslink.org/blog/over

Minta Penawaran_

Ceritakan tentang proyek Anda dan kami akan merespons dalam 72 jam.

> TRANSMISSION_COMPLETE

Permintaan Diterima_

Terima kasih atas pertanyaan Anda. Tim kami akan meninjau permintaan Anda dan merespons dalam 72 jam.

QUEUED FOR PROCESSING