CXL 4.0 Infrastruktur-Planungsleitfaden: Memory Pooling für KI im großen Maßstab

Umfassender CXL 4.0 Deployment-Leitfaden zu gebündelten Ports, Multi-Rack Memory Pooling, KV-Cache-Offloading, Hersteller-Ökosystem und Planungszeitrahmen 2026-2027.

Blake Crosley

Mar 29, 2026 7 min read Disclaimer

CXL 4.0 Infrastruktur-Planungsleitfaden: Memory Pooling für KI im großen Maßstab

13. Dezember 2025

Update Dezember 2025: Das CXL Consortium hat am 18. November 2025 CXL 4.0 veröffentlicht, das die Bandbreite über PCIe 7.0 auf 128 GT/s verdoppelt und gebündelte Ports für 1,5 TB/s-Verbindungen einführt. Dieser Leitfaden behandelt die Deployment-Planung für Organisationen, die sich auf die Implementierung von CXL-basiertem Memory Pooling in ihrer KI-Infrastruktur vorbereiten.

Zusammenfassung

CXL 4.0 ermöglicht Memory Pooling in einem bisher unerreichten Umfang und erlaubt KI-Inferenz-Workloads den Zugriff auf über 100 Terabyte gemeinsam genutzten Speicher mit Cache-Kohärenz über mehrere Racks hinweg. Die gebündelten Ports der Spezifikation aggregieren mehrere physische Verbindungen zu einzelnen logischen Anschlüssen mit 1,5 TB/s Bandbreite. Für Infrastrukturplaner umfassen die wichtigsten Entscheidungen das Verständnis, wann CXL eingeführt werden sollte (2026-2027 für Produktionsumgebungen), welche Produkte jetzt evaluiert werden sollten (CXL 2.0/3.0 Switches werden bereits ausgeliefert) und wie CXL NVLink und UALink ergänzt, anstatt sie zu ersetzen. Dieser Leitfaden bietet die technische Tiefe und Entscheidungsrahmen, die für die Planung von CXL-Deployments erforderlich sind.

Das Memory-Wall-Problem

Große Sprachmodelle stoßen an eine fundamentale Grenze: GPU-Speicherkapazität. Moderne KI-Inferenz-Workloads überschreiten routinemäßig 80-120 GB pro GPU, und der Key-Value (KV) Cache wächst mit der Kontextlänge.[^1] Eine einzelne Inferenzanfrage mit einem 128K-Kontextfenster kann allein für die KV-Cache-Speicherung mehrere zehn Gigabyte verbrauchen.

Das Problem verschärft sich im großen Maßstab. Modellgewichte für Frontier-LLMs verbrauchen Hunderte von Gigabytes. Der KV-Cache-Bedarf wächst linear sowohl mit der Batch-Größe als auch mit der Sequenzlänge. GPU-VRAM bleibt bei 80 GB (H100) oder 192 GB (B200) fixiert.[^2]

Traditionelle Lösungen greifen zu kurz:

Ansatz	Einschränkung
Mehr GPUs hinzufügen	Lineare Kostensteigerung, Speicher bleibt pro GPU isoliert
NVMe-Offloading	~100 μs Latenz, 100x langsamer als DRAM
RDMA-basiertes Sharing	Immer noch 10-20 μs Latenz, komplexes Networking
Größerer GPU-Speicher	Angebotsbeschränkt, teuer

CXL verändert diese Gleichung, indem es Memory Pooling mit DRAM-ähnlicher Latenz (200-500 ns) über das gesamte Rechenzentrum ermöglicht.[^3]

CXL 4.0 Technischer Deep Dive

Evolution von CXL 1.0 zu 4.0

CXL hat sich seit seiner Einführung 2019 rapide weiterentwickelt. Jede Generation erweiterte die Fähigkeiten:

Generation	Veröffentlichung	PCIe-Basis	Geschwindigkeit	Wichtigste Neuerung
CXL 1.0/1.1	2019/2020	PCIe 5.0	32 GT/s	Grundlegende kohärente Speicheranbindung
CXL 2.0	2022	PCIe 5.0	32 GT/s	Switching, Memory Pooling, Multi-Device
CXL 3.0/3.1	2023/2024	PCIe 6.0	64 GT/s	Fabric-Unterstützung, Peer-to-Peer, 4.096 Knoten
CXL 4.0	Nov. 2025	PCIe 7.0	128 GT/s	Gebündelte Ports, Multi-Rack, erweitertes RAS

CXL 2.0 führte das grundlegende Konzept des Memory Pooling ein. Mehrere Type-3-Speichergeräte verbinden sich mit einem Switch und bilden einen gemeinsamen Pool, aus dem der Switch dynamisch Ressourcen an verschiedene Hosts zuweist.[^4] Dies ermöglicht Verbesserungen der Speicherauslastung von typischerweise 50-60% auf über 85% in einem Cluster.

CXL 3.0 fügte Fabric-Fähigkeiten hinzu, die Multi-Level-Switching und bis zu 4.096 Knoten mit portbasiertem Routing (PBR) unterstützen.[^5] Der Wechsel zu 256-Byte-FLITs und die 64 GT/s von PCIe 6.0 verdoppelten die verfügbare Bandbreite.

CXL 4.0 verdoppelt die Bandbreite erneut und führt gleichzeitig Funktionen ein, die für Multi-Rack-KI-Deployments entscheidend sind.

Architektur der gebündelten Ports

Das bedeutendste Feature von CXL 4.0 für Hochleistungsrechnen: Gebündelte Ports aggregieren mehrere physische CXL-Geräteports zu einer einzigen logischen Einheit.[^6]

Funktionsweise gebündelter Ports:

Ein Host und ein Type-1/2-Gerät kombinieren mehrere physische Ports
Die Systemsoftware sieht ein einzelnes Gerät trotz mehrerer physischer Verbindungen
Die Bandbreite wird über alle gebündelten Ports aggregiert
Optimiert für den 256-Byte-FLIT-Modus, wodurch Legacy-Overhead eliminiert wird

Bandbreitenberechnungen:

Konfiguration	Richtung	Bandbreite
Einzelner x16-Port @ 128 GT/s	Unidirektional	256 GB/s
Einzelner x16-Port @ 128 GT/s	Bidirektional	512 GB/s
3 gebündelte x16-Ports @ 128 GT/s	Unidirektional	768 GB/s
3 gebündelte x16-Ports @ 128 GT/s	Bidirektional	1.536 GB/s

Zum Vergleich: HBM3e-Speicher auf einer H200 liefert 4,8 TB/s Bandbreite.[^7] Eine gebündelte CXL 4.0-Verbindung mit 1,5 TB/s entspricht etwa 30% dieser Bandbreite – ausreichend für viele Speichererweiterungsanwendungen, bei denen Kapazität wichtiger ist als Spitzenbandbreite.

PCIe 7.0-Grundlage

CXL 4.0 baut auf den Verbesserungen der physischen Schicht von PCIe 7.0 auf:[^8]

128 GT/s Übertragungsrate: Doppelt so hoch wie die 64 GT/s von PCIe 6.0
PAM4-Signalisierung: Gleiches Kodierungsschema wie PCIe 6.0
Verbessertes FEC: Forward Error Correction für Signalintegrität
Optische Unterstützung: Ermöglicht Verbindungen über größere Entfernungen

Die Spezifikation behält das 256-Byte-FLIT-Format von CXL 3.x bei und fügt eine latenzoptimierte Variante für zeitkritische Operationen hinzu.[^9]

Multi-Rack-Fabric-Fähigkeiten

CXL 4.0 erweitert die Reichweite durch zwei Mechanismen:

Vier Retimer unterstützt: Frühere Generationen erlaubten zwei Retimer. Vier Retimer ermöglichen längere physische Verbindungen über mehrere Racks hinweg ohne Signalverschlechterung.[^10]

Native x2-Breite: Zuvor ein degradierter Fallback-Modus, arbeiten x2-Links nun mit voller Leistung. Dies ermöglicht Konfigurationen mit höherem Fan-out, bei denen viele Verbindungen mit niedrigerer Bandbreite mehr Endpunkte bedienen.[^11]

Diese Features kombinieren sich zu „Multi-Rack Memory Pooling" – eine Fähigkeit, die das CXL Consortium explizit für den Produktionseinsatz Ende 2026-2027 anstrebt.[^12]

CXL-Anwendungsfälle für KI-Infrastruktur

KV-Cache-Offloading für LLM-Inferenz

Der wirkungsvollste kurzfristige Anwendungsfall: Auslagerung des KV-Cache vom GPU-VRAM in CXL-angebundenen Speicher.

Das Problem: LLM-Inferenz mit langen Kontexten erzeugt massive KV-Caches. Ein 70B-Parameter-Modell mit 128K-Kontext und Batch-Größe 32 kann allein für den KV-Cache über 150 GB benötigen.[^13] Dies übersteigt den H100-VRAM und erzwingt teure Reduzierungen der Batch-Größe oder den Einsatz mehrerer GPUs.

Die CXL-Lösung: KV-Cache in gepooltem CXL-Speicher speichern, während Hot Layers im GPU-VRAM bleiben. XConn und MemVerge haben dies auf der SC25 und OCP 2025 demonstriert:[^14]

Zwei H100-GPUs (je 80 GB) mit OPT-6.7B
KV-Cache in gemeinsamen CXL-Speicherpool ausgelagert
3,8x Beschleunigung gegenüber 200G RDMA
6,5x Beschleunigung gegenüber 100G RDMA
>5x Verbesserung gegenüber SSD-basiertem KV-Cache

Akademische Forschung bestätigt das Potenzial. PNM-KV (Processing-Near-Memory für KV-Cache) erreicht bis zu 21,9x Durchsatzverbesserung durch Auslagerung der Token-Page-Selektion auf Beschleuniger innerhalb des CXL-Speichers.[^15]

Speichererweiterung für Training

Trainings-Workloads profitieren von erweiterter Speicherkapazität für:

Größere Batch-Größen: Mehr Samples pro Iteration ohne Gradientenakkumulation
Reduzierung von Activation Checkpointing: Mehr Aktivierungen im Speicher statt Neuberechnung
Optimizer-State: Der Adam-Optimizer benötigt 2x die Parameter für Momentum/Varianz

CXL-Speichererweiterung ermöglicht Trainingskonfigurationen, die zuvor Multi-Node-Verteilung erforderten, auf einzelnen Nodes zu laufen und reduziert so den Kommunikations-Overhead.

Wissenschaftliche und HPC-Workloads

Das Crete-Projekt von PNNL nutzt CXL-Pools für Hochdurchsatz-Speichersharing zwischen Compute-Nodes in wissenschaftlichen Simulationen.[^16] Anwendungsfälle umfassen:

Molekulardynamik mit großen Nachbarlisten
Graph-Analytik auf Datensätzen mit Billionen von Kanten
In-Memory-Datenbanken, die die Kapazität einzelner Server überschreiten

Die Interconnect-Landschaft

CXL vs. NVLink vs. UALink

Um zu verstehen, wo CXL hingehört, muss man erkennen, dass diese Technologien unterschiedlichen Zwecken dienen:

Standard	Primärer Zweck	Am besten geeignet für
CXL	Speicherkohärenz + Pooling	CPU-Speichererweiterung, gemeinsame Speicherpools
NVLink	GPU-zu-GPU-Skalierung	GPU-Kommunikation innerhalb eines Knotens
UALink	Beschleuniger-Interconnect	Offene Standard-Alternative zu NVLink
Ultra Ethernet	Scale-out-Networking	Multi-Rack, über 10.000 Endpunkte

CXL läuft auf PCIe SerDes: niedrigere Fehlerrate, niedrigere Latenz, aber geringere Bandbreite als das Ethernet-artige SerDes von NVLink/UALink.[^17] NVLink 5 liefert 1,8 TB/s pro GPU – weit mehr als die 512 GB/s pro x16-Port von CXL 4.0.[^18]

Die Technologien ergänzen sich, anstatt zu konkurrieren:

Innerhalb eines GPU-Knotens: NVLink verbindet GPUs
Zwischen Knoten: UALink oder InfiniBand/Ethernet
Speichererweiterung: CXL fügt Kapazität zu CPUs und Beschleunigern hinzu
Fabric-weite Speicherpools: CXL-Switches ermöglichen Sharing über Hosts hinweg

Panmnesia schlägt „CXL-over-XLink"-Architekturen vor, die alle drei integrieren, und berichtet von 5,3x schnellerem KI-Training und 6x reduzierter Inferenzlatenz gegenüber PCIe/RDMA-Baselines.[^19]

Entscheidungsrahmen: Wann was verwenden

Szenario	Empfohlener Interconnect	Begründung
Multi-GPU-Training innerhalb des Servers	NVLink	Höchste Bandbreite, niedrigste Latenz
Multi-GPU-Inferenz-Pod (nicht NVIDIA)	UALink	Offener Standard, hohe Bandbreite
Speicher über VRAM hinaus erweitern	CXL	Cache-Kohärenz, DRAM-ähnliche Latenz
Multi-Rack-GPU-Cluster	InfiniBand oder Ultra Ethernet	Für Scale-out konzipiert
Gemeinsamer Speicherpool über Server hinweg	CXL-Switches	Memory Pooling mit Kohärenz
China/eingeschränkte Märkte	UB-Mesh in Betracht ziehen	Vermeidet westliche IP-Abhängigkeiten

CXL-Ökosystem: Hersteller und Produkte

Memory Expander

Die drei großen DRAM-Hersteller liefern alle CXL Memory Expander:

Hersteller	Produkt	Kapazität	Interface	Status
Samsung	CMM-D	256 GB	CXL 2.0	Massenproduktion 2025[^20]
SK Hynix	CMM-DDR5	128 GB	CXL 2.0	Massenproduktion Ende 2024[^21]
Micron	CZ120	256 GB	CXL 2.0	Sampling[^22]
SK Hynix	CMS	512 GB	CXL (compute-fähig)	Angekündigt[^23]

Die CMS (Computational Memory Solution) von SK Hynix fügt Rechenfähigkeiten direkt im Speichermodul hinzu – eine frühe Implementierung von Processing-Near-Memory für CXL.

Switch-Hersteller

CXL-Switches ermöglichen Memory Pooling über mehrere Hosts:

Hersteller	Produkt	Generation	Status	Hauptmerkmal
XConn	XC50256	CXL 2.0	Lieferbar	256-Lane-Switch, erster am Markt[^24]
XConn	Apollo	CXL 2.0	Lieferbar	Memory-Pooling-Demonstrationen auf der SC25[^25]
Panmnesia	Fabric Switch	CXL 3.2	Sampling Nov. 2025	Erste PBR-Implementierung[^26]
Astera Labs	Leo	CXL 2.0	Lieferbar	Smart Memory Controller[^27]
Microchip	SMC 2000	CXL 2.0	Lieferbar	Memory Expansion Controller[^28]

Der CXL 3.2 Fabric Switch von Panmnesia stellt einen Generationssprung dar: erstes Silizium, das portbasiertes Routing für echte Fabric-Architekturen mit bis zu 4.096 Knoten implementiert.[^29]

Controller-Hersteller

CXL Memory Controller übersetzen zwischen CXL-Protokoll und DRAM:

Hersteller	Rolle	Wichtige Produkte
Marvell	Controller	Structera CXL Controller[^30]
Montage	Controller	CXL Memory Buffer Chips
Astera Labs	Controller	Leo Smart Memory Controller
Microchip	Controller	SMC 2000 Serie

Marvells Structera hat Interoperabilitätstests mit allen drei großen Speicherlieferanten (Samsung, Micron, SK Hynix) auf Intel- und AMD-Plattformen abgeschlossen.[^31]

Deployment-Planungsleitfaden

Zeitplan

Zeitraum	CXL-Generation	Erwartete Fähigkeit	Empfehlung
Jetzt bis Q2 2026	CXL 2.0	Speichererweiterung, einfaches Pooling	Produktionsevaluierung
Q3 2026 bis Q4 2026	CXL 3.0/3.1	Fabric, Peer-to-Peer, 4K Knoten	Frühe Adoption für KI
2027+	CXL 4.0	Multi-Rack-Pooling, 1,5 TB/s	Planung beginnt jetzt

ABI Research erwartet CXL 3.0/3.1-Lösungen mit ausreichender Softwareunterstützung für kommerzielle Adoption bis 2027.[^32]

Was jetzt evaluiert werden sollte

Sofort (2025): 1. CXL 2.0 Memory Expander auf bestehenden Intel Sapphire Rapids oder AMD EPYC Genoa Servern testen 2. XConn- oder Astera Labs-Switches für Memory Pooling evaluieren

[Inhalt für Übersetzung gekürzt]

CXL 4.0 Infrastruktur-Planungsleitfaden: Memory Pooling für KI im großen Maßstab

Zusammenfassung

Das Memory-Wall-Problem

CXL 4.0 Technischer Deep Dive

Evolution von CXL 1.0 zu 4.0

Architektur der gebündelten Ports

PCIe 7.0-Grundlage

Multi-Rack-Fabric-Fähigkeiten

CXL-Anwendungsfälle für KI-Infrastruktur

KV-Cache-Offloading für LLM-Inferenz

Speichererweiterung für Training

Wissenschaftliche und HPC-Workloads

Die Interconnect-Landschaft

CXL vs. NVLink vs. UALink

Entscheidungsrahmen: Wann was verwenden

CXL-Ökosystem: Hersteller und Produkte

Memory Expander

Switch-Hersteller

Controller-Hersteller

Deployment-Planungsleitfaden

Zeitplan

Was jetzt evaluiert werden sollte

You Might Also Like

Singapurs 27-Milliarden-Dollar-Boom bei KI-Infrastruktur: Ch...

Malaysia und Thailand: Aufstrebende KI-Rechenzentren in Südo...

Backup und Recovery für AI: Schutz von Trainings-Datensätzen...

Angebot anfordern_

Anfrage erhalten_