UALink en CXL 4.0: De Open Standaarden die GPU-Clusterarchitectuur Hervormen
De UALink 1.0 specificatie, gepubliceerd in april 2025, maakt schaling naar 1.024 accelerators over één enkele fabric mogelijk en daagt daarmee direct Nvidia's propriëtaire NVLink- en NVSwitch-ecosysteem uit. Zeven maanden later bracht het CXL Consortium CXL 4.0 uit op 18 november 2025, met een verdubbeling van de bandbreedte naar 128 GT/s en ondersteuning voor memory pooling over meerdere racks. Samen vormen deze open standaarden de belangrijkste uitdaging voor Nvidia's interconnect-dominantie sinds de introductie van NVLink in 2016.
Samenvatting
UALink 1.0 levert 200 GT/s per lane met ondersteuning voor maximaal 1.024 accelerators, vergeleken met NVLink's maximum van 576 GPU's. CXL 4.0 verdubbelt de geheugenbandbreedte naar 128 GT/s en introduceert gebundelde poorten voor AI-workloads die terabytes aan gedeeld geheugen vereisen. Hardware met UALink-ondersteuning arriveert eind 2026 van AMD, Intel en Astera Labs, terwijl CXL 4.0 multi-rack deployments mikken op 2027. Voor infrastructuurteams die de volgende generatie GPU-clusters plannen, signaleren deze specificaties een verschuiving naar vendor-neutrale architecturen die vendor lock-in verminderen en tegelijkertijd ongekende schaal mogelijk maken.
Het Interconnect-Landschap in 2025
GPU-interconnects bepalen hoe effectief AI-clusters schalen. Hoe sneller accelerators data kunnen uitwisselen, hoe groter de modellen die ze kunnen trainen en hoe efficiënter ze inference-verzoeken kunnen afhandelen.
Huidige Interconnect-Technologieën
| Technologie | Eigenaar | Bandbreedte | Max. Schaal | Status |
|---|---|---|---|---|
| NVLink 5.0 | Nvidia | 1,8 TB/s per GPU | 576 GPU's | Productie (Blackwell) |
| NVLink 4.0 | Nvidia | 900 GB/s per GPU | 256 GPU's | Productie (Hopper) |
| Infinity Fabric | AMD | ~1,075 TB/s per kaart | 8 GPU's (directe mesh) | Productie (MI300X) |
| UALink 1.0 | Consortium | 800 GB/s (4 lanes) | 1.024 accelerators | Specificatie gepubliceerd april 2025 |
| CXL 4.0 | Consortium | 128 GT/s | Multi-rack | Specificatie gepubliceerd nov 2025 |
Nvidia's NVLink domineert productie-deployments, maar het GB200 NVL72-systeem illustreert zowel de kracht als de beperkingen: 72 Blackwell GPU's verbonden met 130 TB/s aan geaggregeerde bandbreedte, maar uitsluitend binnen Nvidia's propriëtaire ecosysteem.
UALink 1.0: Doorbreken van de Vendor Lock-in
Oprichting van het Consortium
Het Ultra Accelerator Link Consortium werd opgericht in oktober 2024 met oprichtende leden AMD, Astera Labs, AWS, Cisco, Google, HPE, Intel, Meta en Microsoft. Dit initiatief bouwt voort op werk dat AMD en Broadcom aankondigden in december 2023.
In januari 2025 sloten Alibaba Cloud, Apple en Synopsys zich aan op bestuursniveau, waarmee het totale ledenaantal op 75 organisaties kwam.
Technische Specificaties
De UALink 200G 1.0 Specificatie definieert een low-latency, high-bandwidth interconnect voor communicatie tussen accelerators en switches in AI-computing pods.
| Specificatie | UALink 1.0 |
|---|---|
| Datasnelheid per Lane | 200 GT/s bidirectioneel |
| Signaleringssnelheid | 212,5 GT/s (met FEC-overhead) |
| Linkbreedtes | x1, x2, x4 |
| Maximale Bandbreedte | 800 GB/s (x4 configuratie) |
| Maximale Schaal | 1.024 accelerators |
| Kabellengte | <4 meter geoptimaliseerd |
| Latency-doelstelling | <1 µs round-trip (64B/640B payloads) |
UALink-switches wijzen één poort per accelerator toe en gebruiken 10-bit unieke identifiers voor precieze routing over de fabric.
UALink vs NVLink: Directe Vergelijking
| Metric | UALink 1.0 | NVLink 4.0 (Hopper) | NVLink 5.0 (Blackwell) |
|---|---|---|---|
| Bandbreedte per GPU | 800 GB/s | 900 GB/s | 1,8 TB/s |
| Links per GPU | 4 | 18 | 18 |
| Maximaal aantal GPU's | 1.024 | 256 | 576 |
| Vendor Lock-in | Open standaard | Alleen Nvidia | Alleen Nvidia |
| Hardwarebeschikbaarheid | Eind 2026/2027 | Productie | Productie |
NVLink 5.0 levert meer dan 3x de bandbreedte per verbinding van UALink 1.0 (2.538 GB/s vs 800 GB/s). UALink ondersteunt echter bijna 2x de maximale clustergrootte (1.024 vs 576 GPU's) en werkt met meerdere leveranciers.
Verschillen in Ontwerpfilosofie
NVLink optimaliseert voor dichte, homogene GPU-clusters waar maximale bandbreedte tussen dicht op elkaar gepakte accelerators het belangrijkst is. De technologie excelleert in DGX-systemen en NVL72-racks waar alle componenten van Nvidia komen.
UALink richt zich op modulaire rack-scale architecturen waar organisaties accelerators van verschillende leveranciers combineren of grotere logische clusters nodig hebben. De open standaard maakt het mogelijk dat AMD MI-serie, Intel Gaudi en toekomstige accelerators communiceren via een gemeenschappelijke fabric.
AMD's Huidige Positie
AMD's Infinity Fabric verbindt maximaal acht MI300X of MI355X GPU's in een volledig verbonden mesh. Elke MI300X heeft zeven Infinity Fabric-links met 16 lanes per link, wat ongeveer 1,075 TB/s aan peer-to-peer bandbreedte oplevert.
De beperking: schalen voorbij 8 GPU's vereist Ethernet-netwerken. AMD's roadmap omvat AFL (Accelerated Fabric Link) werkend over PCIe Gen7-links, plus UALink-adoptie voor multi-vendor interoperabiliteit.
CXL 4.0: Geheugen Zonder Grenzen
Het Memory Wall-Probleem
AI-workloads raken steeds vaker geheugenlimieten voordat ze computelimieten bereiken. Grote taalmodellen vereisen terabytes aan geheugen voor KV-caches tijdens inference, terwijl trainingssessies nog meer vragen voor activaties en optimizer-states.
Traditionele serverarchitecturen koppelen geheugen direct aan CPU's, wat onbenutte capaciteit creëert wanneer workloads variëren. CXL ontkoppelt geheugen van compute, waardoor dynamische allocatie over nodes mogelijk wordt.
CXL 4.0 Specificaties
Het CXL Consortium bracht CXL 4.0 uit op Supercomputing 2025 op 18 november 2025.
| Specificatie | CXL 3.0/3.1 | CXL 4.0 |
|---|---|---|
| Signaleringssnelheid | 64 GT/s | 128 GT/s |
| PCIe-Generatie | PCIe 6.0 | PCIe 7.0 |
| Bandbreedte | 256 GB/s (x16) | 512 GB/s (x16) |
| Retimers | 2 | 4 |
| Linkbreedtes | x16, x8, x4, x1 | x16, x8, x4, x2, x1 |
| Topologie | Single-rack | Multi-rack |
Belangrijkste CXL 4.0-Functies
Gebundelde Poorten: CXL 4.0 introduceert poort-aggregatie waarmee hosts en devices meerdere fysieke poorten kunnen combineren tot één logische verbinding. Dit levert hogere bandbreedte terwijl een eenvoudig softwaremodel behouden blijft waarbij het systeem één device ziet.
Uitgebreid Bereik: Vier retimers maken multi-rack configuraties mogelijk zonder signaalkwaliteit op te offeren. CXL 3.x beperkte deployments tot single-rack topologieën; CXL 4.0 breidt memory pooling uit over datacentergangen.
Geheugencapaciteit: CXL memory pooling maakt 100+ terabytes aan geheugen mogelijk gekoppeld aan een enkele CPU, waardevol voor organisaties die grote datasets verwerken of geheugenintensieve AI-workloads draaien.
Native x2-Links: De nieuwe x2-linkbreedte-optie verlaagt kosten voor toepassingen die matige bandbreedte vereisen, wat de CXL-economie verbetert voor edge-deployments.
CXL Memory Pooling-Prestaties
Demonstraties op CXL DevCon 2025 toonden twee servers met NVIDIA H100 GPU's die het OPT-6.7B-model draaiden:
| Configuratie | Prestatie |
|---|---|
| CXL Memory Pool | Baseline |
| 200G RDMA | 3,8x langzamer |
| 100G RDMA | 6,5x langzamer |
CXL biedt memory-semantic toegang met latency in het 200-500 ns bereik, vergeleken met ~100 µs voor NVMe en >10 ms voor storage-gebaseerd memory sharing.
Energie- en Efficiëntiewinst
Onderzoek toont aan dat CXL [het geheugenstroomverbruik met 20-30% kan verlagen](https://computeexpresslink.org/blog/over
[Inhoud afgekapt voor vertaling]