UALink en CXL 4.0: De Open Standaarden die GPU-Clusterarchitectuur Hervormen

UALink 1.0 daagt NVLink uit met schaling naar 1.024 GPU's. CXL 4.0 verdubbelt bandbreedte naar 128 GT/s. Technische gids over open interconnectstandaarden voor AI-infrastructuur.

UALink en CXL 4.0: De Open Standaarden die GPU-Clusterarchitectuur Hervormen

UALink en CXL 4.0: De Open Standaarden die GPU-Clusterarchitectuur Hervormen

De UALink 1.0 specificatie, gepubliceerd in april 2025, maakt schaling naar 1.024 accelerators over één enkele fabric mogelijk en daagt daarmee direct Nvidia's propriëtaire NVLink- en NVSwitch-ecosysteem uit. Zeven maanden later bracht het CXL Consortium CXL 4.0 uit op 18 november 2025, met een verdubbeling van de bandbreedte naar 128 GT/s en ondersteuning voor memory pooling over meerdere racks. Samen vormen deze open standaarden de belangrijkste uitdaging voor Nvidia's interconnect-dominantie sinds de introductie van NVLink in 2016.

Samenvatting

UALink 1.0 levert 200 GT/s per lane met ondersteuning voor maximaal 1.024 accelerators, vergeleken met NVLink's maximum van 576 GPU's. CXL 4.0 verdubbelt de geheugenbandbreedte naar 128 GT/s en introduceert gebundelde poorten voor AI-workloads die terabytes aan gedeeld geheugen vereisen. Hardware met UALink-ondersteuning arriveert eind 2026 van AMD, Intel en Astera Labs, terwijl CXL 4.0 multi-rack deployments mikken op 2027. Voor infrastructuurteams die de volgende generatie GPU-clusters plannen, signaleren deze specificaties een verschuiving naar vendor-neutrale architecturen die vendor lock-in verminderen en tegelijkertijd ongekende schaal mogelijk maken.


Het Interconnect-Landschap in 2025

GPU-interconnects bepalen hoe effectief AI-clusters schalen. Hoe sneller accelerators data kunnen uitwisselen, hoe groter de modellen die ze kunnen trainen en hoe efficiënter ze inference-verzoeken kunnen afhandelen.

Huidige Interconnect-Technologieën

Technologie Eigenaar Bandbreedte Max. Schaal Status
NVLink 5.0 Nvidia 1,8 TB/s per GPU 576 GPU's Productie (Blackwell)
NVLink 4.0 Nvidia 900 GB/s per GPU 256 GPU's Productie (Hopper)
Infinity Fabric AMD ~1,075 TB/s per kaart 8 GPU's (directe mesh) Productie (MI300X)
UALink 1.0 Consortium 800 GB/s (4 lanes) 1.024 accelerators Specificatie gepubliceerd april 2025
CXL 4.0 Consortium 128 GT/s Multi-rack Specificatie gepubliceerd nov 2025

Nvidia's NVLink domineert productie-deployments, maar het GB200 NVL72-systeem illustreert zowel de kracht als de beperkingen: 72 Blackwell GPU's verbonden met 130 TB/s aan geaggregeerde bandbreedte, maar uitsluitend binnen Nvidia's propriëtaire ecosysteem.


Oprichting van het Consortium

Het Ultra Accelerator Link Consortium werd opgericht in oktober 2024 met oprichtende leden AMD, Astera Labs, AWS, Cisco, Google, HPE, Intel, Meta en Microsoft. Dit initiatief bouwt voort op werk dat AMD en Broadcom aankondigden in december 2023.

In januari 2025 sloten Alibaba Cloud, Apple en Synopsys zich aan op bestuursniveau, waarmee het totale ledenaantal op 75 organisaties kwam.

Technische Specificaties

De UALink 200G 1.0 Specificatie definieert een low-latency, high-bandwidth interconnect voor communicatie tussen accelerators en switches in AI-computing pods.

Specificatie UALink 1.0
Datasnelheid per Lane 200 GT/s bidirectioneel
Signaleringssnelheid 212,5 GT/s (met FEC-overhead)
Linkbreedtes x1, x2, x4
Maximale Bandbreedte 800 GB/s (x4 configuratie)
Maximale Schaal 1.024 accelerators
Kabellengte <4 meter geoptimaliseerd
Latency-doelstelling <1 µs round-trip (64B/640B payloads)

UALink-switches wijzen één poort per accelerator toe en gebruiken 10-bit unieke identifiers voor precieze routing over de fabric.

Metric UALink 1.0 NVLink 4.0 (Hopper) NVLink 5.0 (Blackwell)
Bandbreedte per GPU 800 GB/s 900 GB/s 1,8 TB/s
Links per GPU 4 18 18
Maximaal aantal GPU's 1.024 256 576
Vendor Lock-in Open standaard Alleen Nvidia Alleen Nvidia
Hardwarebeschikbaarheid Eind 2026/2027 Productie Productie

NVLink 5.0 levert meer dan 3x de bandbreedte per verbinding van UALink 1.0 (2.538 GB/s vs 800 GB/s). UALink ondersteunt echter bijna 2x de maximale clustergrootte (1.024 vs 576 GPU's) en werkt met meerdere leveranciers.

Verschillen in Ontwerpfilosofie

NVLink optimaliseert voor dichte, homogene GPU-clusters waar maximale bandbreedte tussen dicht op elkaar gepakte accelerators het belangrijkst is. De technologie excelleert in DGX-systemen en NVL72-racks waar alle componenten van Nvidia komen.

UALink richt zich op modulaire rack-scale architecturen waar organisaties accelerators van verschillende leveranciers combineren of grotere logische clusters nodig hebben. De open standaard maakt het mogelijk dat AMD MI-serie, Intel Gaudi en toekomstige accelerators communiceren via een gemeenschappelijke fabric.

AMD's Huidige Positie

AMD's Infinity Fabric verbindt maximaal acht MI300X of MI355X GPU's in een volledig verbonden mesh. Elke MI300X heeft zeven Infinity Fabric-links met 16 lanes per link, wat ongeveer 1,075 TB/s aan peer-to-peer bandbreedte oplevert.

De beperking: schalen voorbij 8 GPU's vereist Ethernet-netwerken. AMD's roadmap omvat AFL (Accelerated Fabric Link) werkend over PCIe Gen7-links, plus UALink-adoptie voor multi-vendor interoperabiliteit.


CXL 4.0: Geheugen Zonder Grenzen

Het Memory Wall-Probleem

AI-workloads raken steeds vaker geheugenlimieten voordat ze computelimieten bereiken. Grote taalmodellen vereisen terabytes aan geheugen voor KV-caches tijdens inference, terwijl trainingssessies nog meer vragen voor activaties en optimizer-states.

Traditionele serverarchitecturen koppelen geheugen direct aan CPU's, wat onbenutte capaciteit creëert wanneer workloads variëren. CXL ontkoppelt geheugen van compute, waardoor dynamische allocatie over nodes mogelijk wordt.

CXL 4.0 Specificaties

Het CXL Consortium bracht CXL 4.0 uit op Supercomputing 2025 op 18 november 2025.

Specificatie CXL 3.0/3.1 CXL 4.0
Signaleringssnelheid 64 GT/s 128 GT/s
PCIe-Generatie PCIe 6.0 PCIe 7.0
Bandbreedte 256 GB/s (x16) 512 GB/s (x16)
Retimers 2 4
Linkbreedtes x16, x8, x4, x1 x16, x8, x4, x2, x1
Topologie Single-rack Multi-rack

Belangrijkste CXL 4.0-Functies

Gebundelde Poorten: CXL 4.0 introduceert poort-aggregatie waarmee hosts en devices meerdere fysieke poorten kunnen combineren tot één logische verbinding. Dit levert hogere bandbreedte terwijl een eenvoudig softwaremodel behouden blijft waarbij het systeem één device ziet.

Uitgebreid Bereik: Vier retimers maken multi-rack configuraties mogelijk zonder signaalkwaliteit op te offeren. CXL 3.x beperkte deployments tot single-rack topologieën; CXL 4.0 breidt memory pooling uit over datacentergangen.

Geheugencapaciteit: CXL memory pooling maakt 100+ terabytes aan geheugen mogelijk gekoppeld aan een enkele CPU, waardevol voor organisaties die grote datasets verwerken of geheugenintensieve AI-workloads draaien.

Native x2-Links: De nieuwe x2-linkbreedte-optie verlaagt kosten voor toepassingen die matige bandbreedte vereisen, wat de CXL-economie verbetert voor edge-deployments.

CXL Memory Pooling-Prestaties

Demonstraties op CXL DevCon 2025 toonden twee servers met NVIDIA H100 GPU's die het OPT-6.7B-model draaiden:

Configuratie Prestatie
CXL Memory Pool Baseline
200G RDMA 3,8x langzamer
100G RDMA 6,5x langzamer

CXL biedt memory-semantic toegang met latency in het 200-500 ns bereik, vergeleken met ~100 µs voor NVMe en >10 ms voor storage-gebaseerd memory sharing.

Energie- en Efficiëntiewinst

Onderzoek toont aan dat CXL [het geheugenstroomverbruik met 20-30% kan verlagen](https://computeexpresslink.org/blog/over

[Inhoud afgekapt voor vertaling]

Offerte aanvragen_

Vertel ons over uw project en wij reageren binnen 72 uur.

> TRANSMISSIE_VOLTOOID

Aanvraag Ontvangen_

Bedankt voor uw aanvraag. Ons team zal uw verzoek beoordelen en binnen 72 uur reageren.

IN WACHTRIJ VOOR VERWERKING