CXL 4.0 Infrastruktur-Planungsleitfaden: Memory Pooling für KI im großen Maßstab
13. Dezember 2025
Update Dezember 2025: Das CXL Consortium hat am 18. November 2025 CXL 4.0 veröffentlicht, das die Bandbreite über PCIe 7.0 auf 128 GT/s verdoppelt und gebündelte Ports für 1,5 TB/s-Verbindungen einführt. Dieser Leitfaden behandelt die Deployment-Planung für Organisationen, die sich auf die Implementierung von CXL-basiertem Memory Pooling in ihrer KI-Infrastruktur vorbereiten.
Zusammenfassung
CXL 4.0 ermöglicht Memory Pooling in einem bisher unerreichten Umfang und erlaubt KI-Inferenz-Workloads den Zugriff auf über 100 Terabyte gemeinsam genutzten Speicher mit Cache-Kohärenz über mehrere Racks hinweg. Die gebündelten Ports der Spezifikation aggregieren mehrere physische Verbindungen zu einzelnen logischen Anschlüssen mit 1,5 TB/s Bandbreite. Für Infrastrukturplaner umfassen die wichtigsten Entscheidungen das Verständnis, wann CXL eingeführt werden sollte (2026-2027 für Produktionsumgebungen), welche Produkte jetzt evaluiert werden sollten (CXL 2.0/3.0 Switches werden bereits ausgeliefert) und wie CXL NVLink und UALink ergänzt, anstatt sie zu ersetzen. Dieser Leitfaden bietet die technische Tiefe und Entscheidungsrahmen, die für die Planung von CXL-Deployments erforderlich sind.
Das Memory-Wall-Problem
Große Sprachmodelle stoßen an eine fundamentale Grenze: GPU-Speicherkapazität. Moderne KI-Inferenz-Workloads überschreiten routinemäßig 80-120 GB pro GPU, und der Key-Value (KV) Cache wächst mit der Kontextlänge.[^1] Eine einzelne Inferenzanfrage mit einem 128K-Kontextfenster kann allein für die KV-Cache-Speicherung mehrere zehn Gigabyte verbrauchen.
Das Problem verschärft sich im großen Maßstab. Modellgewichte für Frontier-LLMs verbrauchen Hunderte von Gigabytes. Der KV-Cache-Bedarf wächst linear sowohl mit der Batch-Größe als auch mit der Sequenzlänge. GPU-VRAM bleibt bei 80 GB (H100) oder 192 GB (B200) fixiert.[^2]
Traditionelle Lösungen greifen zu kurz:
| Ansatz | Einschränkung |
|---|---|
| Mehr GPUs hinzufügen | Lineare Kostensteigerung, Speicher bleibt pro GPU isoliert |
| NVMe-Offloading | ~100 μs Latenz, 100x langsamer als DRAM |
| RDMA-basiertes Sharing | Immer noch 10-20 μs Latenz, komplexes Networking |
| Größerer GPU-Speicher | Angebotsbeschränkt, teuer |
CXL verändert diese Gleichung, indem es Memory Pooling mit DRAM-ähnlicher Latenz (200-500 ns) über das gesamte Rechenzentrum ermöglicht.[^3]
CXL 4.0 Technischer Deep Dive
Evolution von CXL 1.0 zu 4.0
CXL hat sich seit seiner Einführung 2019 rapide weiterentwickelt. Jede Generation erweiterte die Fähigkeiten:
| Generation | Veröffentlichung | PCIe-Basis | Geschwindigkeit | Wichtigste Neuerung |
|---|---|---|---|---|
| CXL 1.0/1.1 | 2019/2020 | PCIe 5.0 | 32 GT/s | Grundlegende kohärente Speicheranbindung |
| CXL 2.0 | 2022 | PCIe 5.0 | 32 GT/s | Switching, Memory Pooling, Multi-Device |
| CXL 3.0/3.1 | 2023/2024 | PCIe 6.0 | 64 GT/s | Fabric-Unterstützung, Peer-to-Peer, 4.096 Knoten |
| CXL 4.0 | Nov. 2025 | PCIe 7.0 | 128 GT/s | Gebündelte Ports, Multi-Rack, erweitertes RAS |
CXL 2.0 führte das grundlegende Konzept des Memory Pooling ein. Mehrere Type-3-Speichergeräte verbinden sich mit einem Switch und bilden einen gemeinsamen Pool, aus dem der Switch dynamisch Ressourcen an verschiedene Hosts zuweist.[^4] Dies ermöglicht Verbesserungen der Speicherauslastung von typischerweise 50-60% auf über 85% in einem Cluster.
CXL 3.0 fügte Fabric-Fähigkeiten hinzu, die Multi-Level-Switching und bis zu 4.096 Knoten mit portbasiertem Routing (PBR) unterstützen.[^5] Der Wechsel zu 256-Byte-FLITs und die 64 GT/s von PCIe 6.0 verdoppelten die verfügbare Bandbreite.
CXL 4.0 verdoppelt die Bandbreite erneut und führt gleichzeitig Funktionen ein, die für Multi-Rack-KI-Deployments entscheidend sind.
Architektur der gebündelten Ports
Das bedeutendste Feature von CXL 4.0 für Hochleistungsrechnen: Gebündelte Ports aggregieren mehrere physische CXL-Geräteports zu einer einzigen logischen Einheit.[^6]
Funktionsweise gebündelter Ports:
- Ein Host und ein Type-1/2-Gerät kombinieren mehrere physische Ports
- Die Systemsoftware sieht ein einzelnes Gerät trotz mehrerer physischer Verbindungen
- Die Bandbreite wird über alle gebündelten Ports aggregiert
- Optimiert für den 256-Byte-FLIT-Modus, wodurch Legacy-Overhead eliminiert wird
Bandbreitenberechnungen:
| Konfiguration | Richtung | Bandbreite |
|---|---|---|
| Einzelner x16-Port @ 128 GT/s | Unidirektional | 256 GB/s |
| Einzelner x16-Port @ 128 GT/s | Bidirektional | 512 GB/s |
| 3 gebündelte x16-Ports @ 128 GT/s | Unidirektional | 768 GB/s |
| 3 gebündelte x16-Ports @ 128 GT/s | Bidirektional | 1.536 GB/s |
Zum Vergleich: HBM3e-Speicher auf einer H200 liefert 4,8 TB/s Bandbreite.[^7] Eine gebündelte CXL 4.0-Verbindung mit 1,5 TB/s entspricht etwa 30% dieser Bandbreite – ausreichend für viele Speichererweiterungsanwendungen, bei denen Kapazität wichtiger ist als Spitzenbandbreite.
PCIe 7.0-Grundlage
CXL 4.0 baut auf den Verbesserungen der physischen Schicht von PCIe 7.0 auf:[^8]
- 128 GT/s Übertragungsrate: Doppelt so hoch wie die 64 GT/s von PCIe 6.0
- PAM4-Signalisierung: Gleiches Kodierungsschema wie PCIe 6.0
- Verbessertes FEC: Forward Error Correction für Signalintegrität
- Optische Unterstützung: Ermöglicht Verbindungen über größere Entfernungen
Die Spezifikation behält das 256-Byte-FLIT-Format von CXL 3.x bei und fügt eine latenzoptimierte Variante für zeitkritische Operationen hinzu.[^9]
Multi-Rack-Fabric-Fähigkeiten
CXL 4.0 erweitert die Reichweite durch zwei Mechanismen:
Vier Retimer unterstützt: Frühere Generationen erlaubten zwei Retimer. Vier Retimer ermöglichen längere physische Verbindungen über mehrere Racks hinweg ohne Signalverschlechterung.[^10]
Native x2-Breite: Zuvor ein degradierter Fallback-Modus, arbeiten x2-Links nun mit voller Leistung. Dies ermöglicht Konfigurationen mit höherem Fan-out, bei denen viele Verbindungen mit niedrigerer Bandbreite mehr Endpunkte bedienen.[^11]
Diese Features kombinieren sich zu „Multi-Rack Memory Pooling" – eine Fähigkeit, die das CXL Consortium explizit für den Produktionseinsatz Ende 2026-2027 anstrebt.[^12]
CXL-Anwendungsfälle für KI-Infrastruktur
KV-Cache-Offloading für LLM-Inferenz
Der wirkungsvollste kurzfristige Anwendungsfall: Auslagerung des KV-Cache vom GPU-VRAM in CXL-angebundenen Speicher.
Das Problem: LLM-Inferenz mit langen Kontexten erzeugt massive KV-Caches. Ein 70B-Parameter-Modell mit 128K-Kontext und Batch-Größe 32 kann allein für den KV-Cache über 150 GB benötigen.[^13] Dies übersteigt den H100-VRAM und erzwingt teure Reduzierungen der Batch-Größe oder den Einsatz mehrerer GPUs.
Die CXL-Lösung: KV-Cache in gepooltem CXL-Speicher speichern, während Hot Layers im GPU-VRAM bleiben. XConn und MemVerge haben dies auf der SC25 und OCP 2025 demonstriert:[^14]
- Zwei H100-GPUs (je 80 GB) mit OPT-6.7B
- KV-Cache in gemeinsamen CXL-Speicherpool ausgelagert
- 3,8x Beschleunigung gegenüber 200G RDMA
- 6,5x Beschleunigung gegenüber 100G RDMA
- >5x Verbesserung gegenüber SSD-basiertem KV-Cache
Akademische Forschung bestätigt das Potenzial. PNM-KV (Processing-Near-Memory für KV-Cache) erreicht bis zu 21,9x Durchsatzverbesserung durch Auslagerung der Token-Page-Selektion auf Beschleuniger innerhalb des CXL-Speichers.[^15]
Speichererweiterung für Training
Trainings-Workloads profitieren von erweiterter Speicherkapazität für:
- Größere Batch-Größen: Mehr Samples pro Iteration ohne Gradientenakkumulation
- Reduzierung von Activation Checkpointing: Mehr Aktivierungen im Speicher statt Neuberechnung
- Optimizer-State: Der Adam-Optimizer benötigt 2x die Parameter für Momentum/Varianz
CXL-Speichererweiterung ermöglicht Trainingskonfigurationen, die zuvor Multi-Node-Verteilung erforderten, auf einzelnen Nodes zu laufen und reduziert so den Kommunikations-Overhead.
Wissenschaftliche und HPC-Workloads
Das Crete-Projekt von PNNL nutzt CXL-Pools für Hochdurchsatz-Speichersharing zwischen Compute-Nodes in wissenschaftlichen Simulationen.[^16] Anwendungsfälle umfassen:
- Molekulardynamik mit großen Nachbarlisten
- Graph-Analytik auf Datensätzen mit Billionen von Kanten
- In-Memory-Datenbanken, die die Kapazität einzelner Server überschreiten
Die Interconnect-Landschaft
CXL vs. NVLink vs. UALink
Um zu verstehen, wo CXL hingehört, muss man erkennen, dass diese Technologien unterschiedlichen Zwecken dienen:
| Standard | Primärer Zweck | Am besten geeignet für |
|---|---|---|
| CXL | Speicherkohärenz + Pooling | CPU-Speichererweiterung, gemeinsame Speicherpools |
| NVLink | GPU-zu-GPU-Skalierung | GPU-Kommunikation innerhalb eines Knotens |
| UALink | Beschleuniger-Interconnect | Offene Standard-Alternative zu NVLink |
| Ultra Ethernet | Scale-out-Networking | Multi-Rack, über 10.000 Endpunkte |
CXL läuft auf PCIe SerDes: niedrigere Fehlerrate, niedrigere Latenz, aber geringere Bandbreite als das Ethernet-artige SerDes von NVLink/UALink.[^17] NVLink 5 liefert 1,8 TB/s pro GPU – weit mehr als die 512 GB/s pro x16-Port von CXL 4.0.[^18]
Die Technologien ergänzen sich, anstatt zu konkurrieren:
- Innerhalb eines GPU-Knotens: NVLink verbindet GPUs
- Zwischen Knoten: UALink oder InfiniBand/Ethernet
- Speichererweiterung: CXL fügt Kapazität zu CPUs und Beschleunigern hinzu
- Fabric-weite Speicherpools: CXL-Switches ermöglichen Sharing über Hosts hinweg
Panmnesia schlägt „CXL-over-XLink"-Architekturen vor, die alle drei integrieren, und berichtet von 5,3x schnellerem KI-Training und 6x reduzierter Inferenzlatenz gegenüber PCIe/RDMA-Baselines.[^19]
Entscheidungsrahmen: Wann was verwenden
| Szenario | Empfohlener Interconnect | Begründung |
|---|---|---|
| Multi-GPU-Training innerhalb des Servers | NVLink | Höchste Bandbreite, niedrigste Latenz |
| Multi-GPU-Inferenz-Pod (nicht NVIDIA) | UALink | Offener Standard, hohe Bandbreite |
| Speicher über VRAM hinaus erweitern | CXL | Cache-Kohärenz, DRAM-ähnliche Latenz |
| Multi-Rack-GPU-Cluster | InfiniBand oder Ultra Ethernet | Für Scale-out konzipiert |
| Gemeinsamer Speicherpool über Server hinweg | CXL-Switches | Memory Pooling mit Kohärenz |
| China/eingeschränkte Märkte | UB-Mesh in Betracht ziehen | Vermeidet westliche IP-Abhängigkeiten |
CXL-Ökosystem: Hersteller und Produkte
Memory Expander
Die drei großen DRAM-Hersteller liefern alle CXL Memory Expander:
| Hersteller | Produkt | Kapazität | Interface | Status |
|---|---|---|---|---|
| Samsung | CMM-D | 256 GB | CXL 2.0 | Massenproduktion 2025[^20] |
| SK Hynix | CMM-DDR5 | 128 GB | CXL 2.0 | Massenproduktion Ende 2024[^21] |
| Micron | CZ120 | 256 GB | CXL 2.0 | Sampling[^22] |
| SK Hynix | CMS | 512 GB | CXL (compute-fähig) | Angekündigt[^23] |
Die CMS (Computational Memory Solution) von SK Hynix fügt Rechenfähigkeiten direkt im Speichermodul hinzu – eine frühe Implementierung von Processing-Near-Memory für CXL.
Switch-Hersteller
CXL-Switches ermöglichen Memory Pooling über mehrere Hosts:
| Hersteller | Produkt | Generation | Status | Hauptmerkmal |
|---|---|---|---|---|
| XConn | XC50256 | CXL 2.0 | Lieferbar | 256-Lane-Switch, erster am Markt[^24] |
| XConn | Apollo | CXL 2.0 | Lieferbar | Memory-Pooling-Demonstrationen auf der SC25[^25] |
| Panmnesia | Fabric Switch | CXL 3.2 | Sampling Nov. 2025 | Erste PBR-Implementierung[^26] |
| Astera Labs | Leo | CXL 2.0 | Lieferbar | Smart Memory Controller[^27] |
| Microchip | SMC 2000 | CXL 2.0 | Lieferbar | Memory Expansion Controller[^28] |
Der CXL 3.2 Fabric Switch von Panmnesia stellt einen Generationssprung dar: erstes Silizium, das portbasiertes Routing für echte Fabric-Architekturen mit bis zu 4.096 Knoten implementiert.[^29]
Controller-Hersteller
CXL Memory Controller übersetzen zwischen CXL-Protokoll und DRAM:
| Hersteller | Rolle | Wichtige Produkte |
|---|---|---|
| Marvell | Controller | Structera CXL Controller[^30] |
| Montage | Controller | CXL Memory Buffer Chips |
| Astera Labs | Controller | Leo Smart Memory Controller |
| Microchip | Controller | SMC 2000 Serie |
Marvells Structera hat Interoperabilitätstests mit allen drei großen Speicherlieferanten (Samsung, Micron, SK Hynix) auf Intel- und AMD-Plattformen abgeschlossen.[^31]
Deployment-Planungsleitfaden
Zeitplan
| Zeitraum | CXL-Generation | Erwartete Fähigkeit | Empfehlung |
|---|---|---|---|
| Jetzt bis Q2 2026 | CXL 2.0 | Speichererweiterung, einfaches Pooling | Produktionsevaluierung |
| Q3 2026 bis Q4 2026 | CXL 3.0/3.1 | Fabric, Peer-to-Peer, 4K Knoten | Frühe Adoption für KI |
| 2027+ | CXL 4.0 | Multi-Rack-Pooling, 1,5 TB/s | Planung beginnt jetzt |
ABI Research erwartet CXL 3.0/3.1-Lösungen mit ausreichender Softwareunterstützung für kommerzielle Adoption bis 2027.[^32]
Was jetzt evaluiert werden sollte
Sofort (2025): 1. CXL 2.0 Memory Expander auf bestehenden Intel Sapphire Rapids oder AMD EPYC Genoa Servern testen 2. XConn- oder Astera Labs-Switches für Memory Pooling evaluieren
[Inhalt für Übersetzung gekürzt]