UALink und CXL 4.0: Die offenen Standards, die die GPU-Cluster-Architektur neu gestalten

UALink 1.0 fordert NVLink mit Skalierung auf 1.024 GPUs heraus. CXL 4.0 verdoppelt die Bandbreite auf 128 GT/s. Technischer Leitfaden zu offenen Interconnect-Standards für KI-Infrastruktur.

UALink und CXL 4.0: Die offenen Standards, die die GPU-Cluster-Architektur neu gestalten

UALink und CXL 4.0: Die offenen Standards, die die GPU-Cluster-Architektur neu gestalten

Die im April 2025 veröffentlichte UALink 1.0-Spezifikation ermöglicht die Skalierung auf 1.024 Beschleuniger über ein einziges Fabric und fordert damit direkt Nvidias proprietäres NVLink- und NVSwitch-Ökosystem heraus. Sieben Monate später veröffentlichte das CXL Consortium am 18. November 2025 CXL 4.0, das die Bandbreite auf 128 GT/s verdoppelt und Multi-Rack-Memory-Pooling ermöglicht. Zusammen stellen diese offenen Standards die bedeutendste Herausforderung für Nvidias Interconnect-Dominanz dar, seit das Unternehmen 2016 NVLink einführte.

Zusammenfassung

UALink 1.0 liefert 200 GT/s pro Lane mit Unterstützung für bis zu 1.024 Beschleuniger, verglichen mit NVLinks Maximum von 576 GPUs. CXL 4.0 verdoppelt die Speicherbandbreite auf 128 GT/s und führt gebündelte Ports für KI-Workloads ein, die Terabyte-großen gemeinsamen Speicher benötigen. Hardware mit UALink-Unterstützung kommt Ende 2026 von AMD, Intel und Astera Labs, während CXL 4.0 Multi-Rack-Deployments für 2027 anvisiert werden. Für Infrastruktur-Teams, die GPU-Cluster der nächsten Generation planen, signalisieren diese Spezifikationen einen Wandel hin zu herstellerneutralen Architekturen, die die Herstellerabhängigkeit reduzieren und gleichzeitig beispiellose Skalierung ermöglichen.


Die Interconnect-Landschaft im Jahr 2025

GPU-Interconnects bestimmen, wie effektiv KI-Cluster skalieren. Je schneller Beschleuniger Daten austauschen können, desto größer sind die Modelle, die sie trainieren können, und desto effizienter können sie Inferenzanfragen bedienen.

Aktuelle Interconnect-Technologien

Technologie Eigentümer Bandbreite Max. Skalierung Status
NVLink 5.0 Nvidia 1,8 TB/s pro GPU 576 GPUs Produktion (Blackwell)
NVLink 4.0 Nvidia 900 GB/s pro GPU 256 GPUs Produktion (Hopper)
Infinity Fabric AMD ~1,075 TB/s pro Karte 8 GPUs (direktes Mesh) Produktion (MI300X)
UALink 1.0 Konsortium 800 GB/s (4 Lanes) 1.024 Beschleuniger Spezifikation veröffentlicht April 2025
CXL 4.0 Konsortium 128 GT/s Multi-Rack Spezifikation veröffentlicht Nov. 2025

Nvidias NVLink dominiert Produktions-Deployments, aber das GB200 NVL72-System verdeutlicht sowohl seine Stärke als auch seine Einschränkungen: 72 Blackwell-GPUs, verbunden mit 130 TB/s aggregierter Bandbreite, aber ausschließlich innerhalb von Nvidias proprietärem Ökosystem.


Konsortiumsgründung

Das Ultra Accelerator Link Consortium wurde im Oktober 2024 mit den Gründungsmitgliedern AMD, Astera Labs, AWS, Cisco, Google, HPE, Intel, Meta und Microsoft gegründet. Die Initiative baut auf Arbeiten auf, die AMD und Broadcom im Dezember 2023 ankündigten.

Bis Januar 2025 traten Alibaba Cloud, Apple und Synopsys auf Vorstandsebene bei, wodurch die Gesamtmitgliedschaft auf 75 Organisationen anwuchs.

Technische Spezifikationen

Die UALink 200G 1.0-Spezifikation definiert einen latenzarmen, hochbandbreitigen Interconnect für die Kommunikation zwischen Beschleunigern und Switches in KI-Computing-Pods.

Spezifikation UALink 1.0
Datenrate pro Lane 200 GT/s bidirektional
Signalisierungsrate 212,5 GT/s (mit FEC-Overhead)
Link-Breiten x1, x2, x4
Maximale Bandbreite 800 GB/s (x4-Konfiguration)
Maximale Skalierung 1.024 Beschleuniger
Kabellänge <4 Meter optimiert
Latenzziel <1 µs Round-Trip (64B/640B Payloads)

UALink-Switches weisen einen Port pro Beschleuniger zu und verwenden 10-Bit-eindeutige Identifikatoren für präzises Routing über das Fabric.

Metrik UALink 1.0 NVLink 4.0 (Hopper) NVLink 5.0 (Blackwell)
Bandbreite pro GPU 800 GB/s 900 GB/s 1,8 TB/s
Links pro GPU 4 18 18
Maximale GPUs 1.024 256 576
Herstellerbindung Offener Standard Nur Nvidia Nur Nvidia
Hardware-Verfügbarkeit Ende 2026/2027 Produktion Produktion

NVLink 5.0 liefert mehr als 3x die Bandbreite pro Verbindung von UALink 1.0 (2.538 GB/s vs. 800 GB/s). UALink unterstützt jedoch fast 2x die maximale Clustergröße (1.024 vs. 576 GPUs) und funktioniert herstellerübergreifend.

Unterschiede in der Designphilosophie

NVLink optimiert für dichte, homogene GPU-Cluster, bei denen maximale Bandbreite zwischen eng gepackten Beschleunigern am wichtigsten ist. Die Technologie glänzt in DGX-Systemen und NVL72-Racks, bei denen alle Komponenten von Nvidia stammen.

UALink zielt auf modulare Rack-Scale-Architekturen ab, bei denen Organisationen Beschleuniger verschiedener Hersteller mischen oder größere logische Cluster benötigen. Der offene Standard ermöglicht es AMD MI-Serie, Intel Gaudi und zukünftigen Beschleunigern, über ein gemeinsames Fabric zu kommunizieren.

AMDs aktuelle Position

AMDs Infinity Fabric verbindet bis zu acht MI300X- oder MI355X-GPUs in einem vollständig verbundenen Mesh. Jede MI300X verfügt über sieben Infinity Fabric-Links mit 16 Lanes pro Link und liefert etwa 1,075 TB/s Peer-to-Peer-Bandbreite.

Die Einschränkung: Skalierung über 8 GPUs hinaus erfordert Ethernet-Networking. AMDs Roadmap umfasst AFL (Accelerated Fabric Link), das über PCIe Gen7-Links arbeitet, sowie die Einführung von UALink für Multi-Vendor-Interoperabilität.


CXL 4.0: Speicher ohne Grenzen

Das Memory-Wall-Problem

KI-Workloads stoßen zunehmend an Speichergrenzen, bevor Rechenleistungslimits erreicht werden. Große Sprachmodelle benötigen Terabytes an Speicher für KV-Caches während der Inferenz, während Trainingsläufe noch mehr für Aktivierungen und Optimizer-Zustände erfordern.

Traditionelle Serverarchitekturen binden Speicher direkt an CPUs, was zu ungenutzter Kapazität führt, wenn Workloads variieren. CXL entkoppelt Speicher von Compute und ermöglicht dynamische Zuweisung über Knoten hinweg.

CXL 4.0-Spezifikationen

Das CXL Consortium veröffentlichte CXL 4.0 auf der Supercomputing 2025 am 18. November 2025.

Spezifikation CXL 3.0/3.1 CXL 4.0
Signalisierungsrate 64 GT/s 128 GT/s
PCIe-Generation PCIe 6.0 PCIe 7.0
Bandbreite 256 GB/s (x16) 512 GB/s (x16)
Retimer 2 4
Link-Breiten x16, x8, x4, x1 x16, x8, x4, x2, x1
Topologie Einzelnes Rack Multi-Rack

Wichtige CXL 4.0-Features

Gebündelte Ports: CXL 4.0 führt Port-Aggregation ein, die es Hosts und Geräten ermöglicht, mehrere physische Ports zu einer einzigen logischen Verbindung zu kombinieren. Dies liefert höhere Bandbreite bei gleichzeitig einfachem Softwaremodell, bei dem das System ein Gerät sieht.

Erweiterte Reichweite: Vier Retimer ermöglichen Multi-Rack-Konfigurationen ohne Einbußen bei der Signalqualität. CXL 3.x beschränkte Deployments auf Einzelrack-Topologien; CXL 4.0 erweitert Memory-Pooling über Rechenzentrum-Gänge hinweg.

Speicherkapazität: CXL Memory-Pooling ermöglicht über 100 Terabyte Speicher, die an eine einzelne CPU angeschlossen sind – wertvoll für Organisationen, die große Datensätze analysieren oder speicherintensive KI-Workloads ausführen.

Native x2-Links: Die neue x2-Link-Breiten-Option reduziert die Kosten für Anwendungen, die moderate Bandbreite benötigen, und verbessert die CXL-Wirtschaftlichkeit für Edge-Deployments.

CXL Memory-Pooling-Performance

Demonstrationen auf der CXL DevCon 2025 zeigten zwei Server mit NVIDIA H100-GPUs, die das OPT-6.7B-Modell ausführen:

Konfiguration Performance
CXL Memory Pool Baseline
200G RDMA 3,8x langsamer
100G RDMA 6,5x langsamer

CXL bietet speichersemantischen Zugriff mit Latenzen im 200-500 ns-Bereich, verglichen mit ~100 µs für NVMe und >10 ms für speicherbasiertes Memory-Sharing.

Strom- und Effizienzgewinne

Forschung zeigt, dass CXL den [Speicher-Stromverbrauch um 20-30% senken kann](https://computeexpresslink.org/blog/over

[Inhalt für Übersetzung gekürzt]

Angebot anfordern_

Erzählen Sie uns von Ihrem Projekt und wir antworten innerhalb von 72 Stunden.

> ÜBERTRAGUNG_ABGESCHLOSSEN

Anfrage erhalten_

Vielen Dank für Ihre Anfrage. Unser Team wird Ihre Anfrage prüfen und innerhalb von 72 Stunden antworten.

ZUR BEARBEITUNG EINGEREIHT