UALink en CXL 4.0: De Open Standaarden die GPU-Clusterarchitectuur Hervormen

UALink 1.0 daagt NVLink uit met schaling naar 1.024 GPU's. CXL 4.0 verdubbelt bandbreedte naar 128 GT/s. Technische gids over open interconnectstandaarden voor AI-infrastructuur.

Blake Crosley

Feb 06, 2026 5 min read Disclaimer

UALink en CXL 4.0: De Open Standaarden die GPU-Clusterarchitectuur Hervormen

De UALink 1.0 specificatie, gepubliceerd in april 2025, maakt schaling naar 1.024 accelerators over één enkele fabric mogelijk en daagt daarmee direct Nvidia's propriëtaire NVLink- en NVSwitch-ecosysteem uit. Zeven maanden later bracht het CXL Consortium CXL 4.0 uit op 18 november 2025, met een verdubbeling van de bandbreedte naar 128 GT/s en ondersteuning voor memory pooling over meerdere racks. Samen vormen deze open standaarden de belangrijkste uitdaging voor Nvidia's interconnect-dominantie sinds de introductie van NVLink in 2016.

Samenvatting

UALink 1.0 levert 200 GT/s per lane met ondersteuning voor maximaal 1.024 accelerators, vergeleken met NVLink's maximum van 576 GPU's. CXL 4.0 verdubbelt de geheugenbandbreedte naar 128 GT/s en introduceert gebundelde poorten voor AI-workloads die terabytes aan gedeeld geheugen vereisen. Hardware met UALink-ondersteuning arriveert eind 2026 van AMD, Intel en Astera Labs, terwijl CXL 4.0 multi-rack deployments mikken op 2027. Voor infrastructuurteams die de volgende generatie GPU-clusters plannen, signaleren deze specificaties een verschuiving naar vendor-neutrale architecturen die vendor lock-in verminderen en tegelijkertijd ongekende schaal mogelijk maken.

Het Interconnect-Landschap in 2025

GPU-interconnects bepalen hoe effectief AI-clusters schalen. Hoe sneller accelerators data kunnen uitwisselen, hoe groter de modellen die ze kunnen trainen en hoe efficiënter ze inference-verzoeken kunnen afhandelen.

Huidige Interconnect-Technologieën

Technologie	Eigenaar	Bandbreedte	Max. Schaal	Status
NVLink 5.0	Nvidia	1,8 TB/s per GPU	576 GPU's	Productie (Blackwell)
NVLink 4.0	Nvidia	900 GB/s per GPU	256 GPU's	Productie (Hopper)
Infinity Fabric	AMD	~1,075 TB/s per kaart	8 GPU's (directe mesh)	Productie (MI300X)
UALink 1.0	Consortium	800 GB/s (4 lanes)	1.024 accelerators	Specificatie gepubliceerd april 2025
CXL 4.0	Consortium	128 GT/s	Multi-rack	Specificatie gepubliceerd nov 2025

Nvidia's NVLink domineert productie-deployments, maar het GB200 NVL72-systeem illustreert zowel de kracht als de beperkingen: 72 Blackwell GPU's verbonden met 130 TB/s aan geaggregeerde bandbreedte, maar uitsluitend binnen Nvidia's propriëtaire ecosysteem.

UALink 1.0: Doorbreken van de Vendor Lock-in

Oprichting van het Consortium

Het Ultra Accelerator Link Consortium werd opgericht in oktober 2024 met oprichtende leden AMD, Astera Labs, AWS, Cisco, Google, HPE, Intel, Meta en Microsoft. Dit initiatief bouwt voort op werk dat AMD en Broadcom aankondigden in december 2023.

In januari 2025 sloten Alibaba Cloud, Apple en Synopsys zich aan op bestuursniveau, waarmee het totale ledenaantal op 75 organisaties kwam.

Technische Specificaties

De UALink 200G 1.0 Specificatie definieert een low-latency, high-bandwidth interconnect voor communicatie tussen accelerators en switches in AI-computing pods.

Specificatie	UALink 1.0
Datasnelheid per Lane	200 GT/s bidirectioneel
Signaleringssnelheid	212,5 GT/s (met FEC-overhead)
Linkbreedtes	x1, x2, x4
Maximale Bandbreedte	800 GB/s (x4 configuratie)
Maximale Schaal	1.024 accelerators
Kabellengte	<4 meter geoptimaliseerd
Latency-doelstelling	<1 µs round-trip (64B/640B payloads)

UALink-switches wijzen één poort per accelerator toe en gebruiken 10-bit unieke identifiers voor precieze routing over de fabric.

UALink vs NVLink: Directe Vergelijking

Metric	UALink 1.0	NVLink 4.0 (Hopper)	NVLink 5.0 (Blackwell)
Bandbreedte per GPU	800 GB/s	900 GB/s	1,8 TB/s
Links per GPU	4	18	18
Maximaal aantal GPU's	1.024	256	576
Vendor Lock-in	Open standaard	Alleen Nvidia	Alleen Nvidia
Hardwarebeschikbaarheid	Eind 2026/2027	Productie	Productie

NVLink 5.0 levert meer dan 3x de bandbreedte per verbinding van UALink 1.0 (2.538 GB/s vs 800 GB/s). UALink ondersteunt echter bijna 2x de maximale clustergrootte (1.024 vs 576 GPU's) en werkt met meerdere leveranciers.

Verschillen in Ontwerpfilosofie

NVLink optimaliseert voor dichte, homogene GPU-clusters waar maximale bandbreedte tussen dicht op elkaar gepakte accelerators het belangrijkst is. De technologie excelleert in DGX-systemen en NVL72-racks waar alle componenten van Nvidia komen.

UALink richt zich op modulaire rack-scale architecturen waar organisaties accelerators van verschillende leveranciers combineren of grotere logische clusters nodig hebben. De open standaard maakt het mogelijk dat AMD MI-serie, Intel Gaudi en toekomstige accelerators communiceren via een gemeenschappelijke fabric.

AMD's Huidige Positie

AMD's Infinity Fabric verbindt maximaal acht MI300X of MI355X GPU's in een volledig verbonden mesh. Elke MI300X heeft zeven Infinity Fabric-links met 16 lanes per link, wat ongeveer 1,075 TB/s aan peer-to-peer bandbreedte oplevert.

De beperking: schalen voorbij 8 GPU's vereist Ethernet-netwerken. AMD's roadmap omvat AFL (Accelerated Fabric Link) werkend over PCIe Gen7-links, plus UALink-adoptie voor multi-vendor interoperabiliteit.

CXL 4.0: Geheugen Zonder Grenzen

Het Memory Wall-Probleem

AI-workloads raken steeds vaker geheugenlimieten voordat ze computelimieten bereiken. Grote taalmodellen vereisen terabytes aan geheugen voor KV-caches tijdens inference, terwijl trainingssessies nog meer vragen voor activaties en optimizer-states.

Traditionele serverarchitecturen koppelen geheugen direct aan CPU's, wat onbenutte capaciteit creëert wanneer workloads variëren. CXL ontkoppelt geheugen van compute, waardoor dynamische allocatie over nodes mogelijk wordt.

CXL 4.0 Specificaties

Het CXL Consortium bracht CXL 4.0 uit op Supercomputing 2025 op 18 november 2025.

Specificatie	CXL 3.0/3.1	CXL 4.0
Signaleringssnelheid	64 GT/s	128 GT/s
PCIe-Generatie	PCIe 6.0	PCIe 7.0
Bandbreedte	256 GB/s (x16)	512 GB/s (x16)
Retimers	2	4
Linkbreedtes	x16, x8, x4, x1	x16, x8, x4, x2, x1
Topologie	Single-rack	Multi-rack

Belangrijkste CXL 4.0-Functies

Gebundelde Poorten: CXL 4.0 introduceert poort-aggregatie waarmee hosts en devices meerdere fysieke poorten kunnen combineren tot één logische verbinding. Dit levert hogere bandbreedte terwijl een eenvoudig softwaremodel behouden blijft waarbij het systeem één device ziet.

Uitgebreid Bereik: Vier retimers maken multi-rack configuraties mogelijk zonder signaalkwaliteit op te offeren. CXL 3.x beperkte deployments tot single-rack topologieën; CXL 4.0 breidt memory pooling uit over datacentergangen.

Geheugencapaciteit: CXL memory pooling maakt 100+ terabytes aan geheugen mogelijk gekoppeld aan een enkele CPU, waardevol voor organisaties die grote datasets verwerken of geheugenintensieve AI-workloads draaien.

Native x2-Links: De nieuwe x2-linkbreedte-optie verlaagt kosten voor toepassingen die matige bandbreedte vereisen, wat de CXL-economie verbetert voor edge-deployments.

CXL Memory Pooling-Prestaties

Demonstraties op CXL DevCon 2025 toonden twee servers met NVIDIA H100 GPU's die het OPT-6.7B-model draaiden:

Configuratie	Prestatie
CXL Memory Pool	Baseline
200G RDMA	3,8x langzamer
100G RDMA	6,5x langzamer

CXL biedt memory-semantic toegang met latency in het 200-500 ns bereik, vergeleken met ~100 µs voor NVMe en >10 ms voor storage-gebaseerd memory sharing.

Energie- en Efficiëntiewinst

Onderzoek toont aan dat CXL [het geheugenstroomverbruik met 20-30% kan verlagen](https://computeexpresslink.org/blog/over

[Inhoud afgekapt voor vertaling]

UALink en CXL 4.0: De Open Standaarden die GPU-Clusterarchitectuur Hervormen

Samenvatting

Het Interconnect-Landschap in 2025

Huidige Interconnect-Technologieën

UALink 1.0: Doorbreken van de Vendor Lock-in

Oprichting van het Consortium

Technische Specificaties

UALink vs NVLink: Directe Vergelijking

Verschillen in Ontwerpfilosofie

AMD's Huidige Positie

CXL 4.0: Geheugen Zonder Grenzen

Het Memory Wall-Probleem

CXL 4.0 Specificaties

Belangrijkste CXL 4.0-Functies

CXL Memory Pooling-Prestaties

Energie- en Efficiëntiewinst

You Might Also Like

Immersion Cooling ROI Calculator: 2-4 Jaar Terugverdientijd ...

UK AI Corridor: Londen's Opkomende Compute Hub

Waterverbruiksefficiëntie: AI-datacenterkoeling zonder crisi...

Offerte aanvragen_

Aanvraag Ontvangen_