CXL 4.0 Infrastruktur-Planungshandbuch: Memory Pooling für AI im großen Maßstab
13. Dezember 2025
Update Dezember 2025: Das CXL Consortium veröffentlichte am 18. November 2025 CXL 4.0, wodurch sich die Bandbreite auf 128 GT/s über PCIe 7.0 verdoppelt und gebündelte Ports für 1,5 TB/s-Verbindungen eingeführt werden. Dieser Leitfaden behandelt die Deployment-Planung für Organisationen, die sich darauf vorbereiten, CXL-basiertes Memory Pooling in ihrer AI-Infrastruktur zu implementieren.
Zusammenfassung
CXL 4.0 ermöglicht Memory Pooling in bisher ungesehenem Maßstab und erlaubt es AI-Inferenz-Workloads, auf über 100 Terabyte geteilten Speicher mit Cache-Kohärenz über mehrere Racks hinweg zuzugreifen. Die gebündelten Ports der Spezifikation aggregieren mehrere physische Verbindungen zu einzelnen logischen Verbindungen mit 1,5 TB/s Bandbreite. Für Infrastruktur-Planer beinhalten die Schlüsselentscheidungen das Verständnis, wann CXL eingeführt werden sollte (2026-2027 für Produktion), welche Produkte jetzt evaluiert werden sollten (CXL 2.0/3.0 Switches verfügbar) und wie CXL NVLink und UALink ergänzt, anstatt sie zu ersetzen. Dieser Leitfaden bietet die technische Tiefe und Entscheidungsrahmen, die für die Planung von CXL-Deployments erforderlich sind.
Das Memory Wall Problem
Große Sprachmodelle stoßen auf eine fundamentale Einschränkung: GPU-Speicherkapazität. Moderne AI-Inferenz-Workloads überschreiten routinemäßig 80-120 GB pro GPU, und der Key-Value (KV) Cache wächst mit der Kontextlänge.[^1] Eine einzelne Inferenz-Anfrage mit einem 128K-Kontextfenster kann allein für KV-Cache-Speicherung Dutzende von Gigabyte verbrauchen.
Das Problem verschärft sich im großen Maßstab. Modellgewichte für Frontier-LLMs verbrauchen Hunderte von Gigabyte. KV-Cache-Anforderungen wachsen linear sowohl mit Batch-Größe als auch Sequenzlänge. GPU VRAM bleibt bei 80GB (H100) oder 192GB (B200) festgelegt.[^2]
Traditionelle Lösungen reichen nicht aus:
| Ansatz | Einschränkung |
|---|---|
| Mehr GPUs hinzufügen | Lineare Kostensteigerung, Speicher bleibt pro GPU isoliert |
| NVMe Offloading | ~100 μs Latenz, 100x langsamer als DRAM |
| RDMA-basierte Freigabe | Immer noch 10-20 μs Latenz, komplexes Networking |
| Größerer GPU-Speicher | Versorgungsengpässe, teuer |
CXL ändert diese Gleichung, indem es Memory Pooling mit DRAM-ähnlicher Latenz (200-500 ns) im gesamten Rechenzentrum ermöglicht.[^3]
CXL 4.0 Technischer Deep Dive
Evolution von CXL 1.0 zu 4.0
CXL hat sich seit seiner Einführung 2019 schnell weiterentwickelt. Jede Generation erweiterte die Fähigkeiten:
| Generation | Veröffentlichung | PCIe Basis | Geschwindigkeit | Hauptfortschritt |
|---|---|---|---|---|
| CXL 1.0/1.1 | 2019/2020 | PCIe 5.0 | 32 GT/s | Grundlegende kohärente Speicheranbindung |
| CXL 2.0 | 2022 | PCIe 5.0 | 32 GT/s | Switching, Memory Pooling, Multi-Device |
| CXL 3.0/3.1 | 2023/2024 | PCIe 6.0 | 64 GT/s | Fabric-Unterstützung, Peer-to-Peer, 4.096 Knoten |
| CXL 4.0 | Nov 2025 | PCIe 7.0 | 128 GT/s | Gebündelte Ports, Multi-Rack, erweiterte RAS |
CXL 2.0 führte das grundlegende Konzept des Memory Pooling ein. Mehrere Type 3-Speichergeräte verbinden sich mit einem Switch und bilden einen geteilten Pool, aus dem der Switch dynamisch Ressourcen verschiedenen Hosts zuweist.[^4] Dies ermöglicht Verbesserungen der Speichernutzung von typischen 50-60% auf über 85% in einem Cluster.
CXL 3.0 fügte Fabric-Fähigkeiten hinzu, die Multi-Level-Switching und bis zu 4.096 Knoten mit Port-basiertem Routing (PBR) unterstützen.[^5] Der Wechsel zu 256-Byte FLITs und PCIe 6.0s 64 GT/s verdoppelte die verfügbare Bandbreite.
CXL 4.0 verdoppelt die Bandbreite erneut und führt Features ein, die für Multi-Rack AI-Deployments kritisch sind.
Bundled Ports Architektur
CXL 4.0s bedeutendstes Feature für High-Performance Computing: Gebündelte Ports aggregieren mehrere physische CXL-Device-Ports zu einer einzelnen logischen Einheit.[^6]
Wie gebündelte Ports funktionieren:
- Ein Host und Type 1/2-Device kombinieren mehrere physische Ports
- System-Software sieht ein einzelnes Device trotz mehrerer physischer Verbindungen
- Bandbreite aggregiert über alle gebündelten Ports
- Optimiert für 256-Byte FLIT-Modus, eliminiert Legacy-Overhead
Bandbreiten-Berechnungen:
| Konfiguration | Richtung | Bandbreite |
|---|---|---|
| Einzelner x16 Port @ 128 GT/s | Unidirektional | 256 GB/s |
| Einzelner x16 Port @ 128 GT/s | Bidirektional | 512 GB/s |
| 3 gebündelte x16 Ports @ 128 GT/s | Unidirektional | 768 GB/s |
| 3 gebündelte x16 Ports @ 128 GT/s | Bidirektional | 1.536 GB/s |
Zum Vergleich: HBM3e-Speicher auf einer H200 liefert 4,8 TB/s Bandbreite.[^7] Eine gebündelte CXL 4.0-Verbindung mit 1,5 TB/s repräsentiert etwa 30% dieser Bandbreite – ausreichend für viele Speichererweiterungs-Anwendungsfälle, bei denen Kapazität wichtiger ist als Spitzenbandbreite.
PCIe 7.0 Grundlage
CXL 4.0 baut auf PCIe 7.0s physischen Layer-Verbesserungen auf:[^8]
- 128 GT/s Übertragungsrate: Doppelt so schnell wie die 64 GT/s von PCIe 6.0
- PAM4-Signaling: Gleiche Kodierung wie PCIe 6.0
- Verbesserte FEC: Vorwärts-Fehlerkorrektur für Signalintegrität
- Optische Unterstützung: Ermöglicht Verbindungen mit größerer Reichweite
Die Spezifikation behält das 256-Byte FLIT-Format von CXL 3.x bei und fügt eine latenzoptimierte Variante für zeitkritische Operationen hinzu.[^9]
Multi-Rack Fabric-Fähigkeiten
CXL 4.0 erweitert die Reichweite durch zwei Mechanismen:
Vier Retimer unterstützt: Frühere Generationen erlaubten zwei Retimer. Vier Retimer ermöglichen längere physische Verbindungen über mehrere Racks ohne Signaldegradation.[^10]
Native x2-Breite: Früher ein degradierter Fallback-Modus, arbeiten x2-Links jetzt mit voller Leistung. Dies ermöglicht höhere Fan-out-Konfigurationen, bei denen viele Verbindungen niedrigerer Bandbreite mehr Endpunkte bedienen.[^11]
Diese Features kombinieren sich zu "Multi-Rack Memory Pooling" – einer Fähigkeit, die das CXL Consortium explizit für Produktions-Deployment Ende 2026-2027 anvisiert.[^12]
CXL Anwendungsfälle für AI-Infrastruktur
KV Cache Offloading für LLM-Inferenz
Der wirkungsvollste kurzfristige Anwendungsfall: Offloading von KV Cache aus GPU VRAM zu CXL-angeschlossenem Speicher.
Das Problem: LLM-Inferenz mit langen Kontexten generiert massive KV-Caches. Ein 70B-Parameter-Modell mit 128K-Kontext und Batch-Größe 32 kann über 150 GB allein für KV Cache benötigen.[^13] Dies überschreitet H100 VRAM und erzwingt teure Batch-Größenreduzierungen oder mehrere GPUs.
Die CXL-Lösung: Speichere KV Cache in gepooltem CXL-Speicher und behalte heiße Layer in GPU VRAM. XConn und MemVerge demonstrierten dies bei SC25 und OCP 2025:[^14]
- Zwei H100 GPUs (je 80GB) mit OPT-6.7B
- KV Cache in geteilten CXL-Speicherpool ausgelagert
- 3,8x Speedup vs 200G RDMA
- 6,5x Speedup vs 100G RDMA
- >5x Verbesserung vs SSD-basiertem KV Cache
Forschung aus der Akademie bestätigt die Gelegenheit. PNM-KV (Processing-Near-Memory für KV Cache) erreicht bis zu 21,9x Durchsatzverbesserung durch Auslagerung der Token-Page-Selektion zu Beschleunigern innerhalb des CXL-Speichers.[^15]
Speichererweiterung für Training
Training-Workloads profitieren von erweiteter Speicherkapazität für:
- Größere Batch-Größen: Mehr Samples pro Iteration ohne Gradient-Akkumulation
- Reduzierung von Activation Checkpointing: Speichere mehr Activations im Speicher vs Neuberechnung
- Optimizer State: Adam Optimizer benötigt 2x Parameter für Momentum/Varianz
CXL-Speichererweiterung ermöglicht Training-Konfigurationen, die zuvor Multi-Node-Verteilung erforderten, auf einzelnen Knoten zu laufen und reduziert Kommunikations-Overhead.
Wissenschaftliche und HPC-Workloads
PNNLs Crete-Projekt nutzt CXL-Pools für High-Throughput-Speicherfreigabe über Compute-Knoten in wissenschaftlichen Simulationen.[^16] Anwendungsfälle umfassen:
- Molekulardynamik mit großen Nachbarschaftslisten
- Graph-Analytics auf Billionen-Edge-Datensätzen
- In-Memory-Datenbanken, die Single-Server-Kapazität überschreiten
Die Interconnect-Landschaft
CXL vs NVLink vs UALink
Zu verstehen, wo CXL hinpasst, erfordert zu erkennen, dass diese Technologien verschiedenen Zwecken dienen:
| Standard | Hauptzweck | Am besten für |
|---|---|---|
| CXL | Memory-Kohärenz + Pooling | CPU-Speichererweiterung, geteilte Speicherpools |
| NVLink | GPU-zu-GPU-Skalierung | Innerhalb-Node GPU-Kommunikation |
| UALink | Accelerator Interconnect | Offener Standard-Alternative zu NVLink |
| Ultra Ethernet | Scale-out Networking | Multi-Rack, 10.000+ Endpunkte |
CXL läuft auf PCIe SerDes: niedrigere Fehlerrate, niedrigere Latenz, aber niedrigere Bandbreite als NVLink/UALinks Ethernet-Style SerDes.[^17] NVLink 5 liefert 1,8 TB/s pro GPU – weit über CXL 4.0s 512 GB/s pro x16 Port.[^18]
Die Technologien ergänzen sich, anstatt zu konkurrieren:
- Innerhalb eines GPU-Knotens: NVLink verbindet GPUs
- Zwischen Knoten: UALink oder InfiniBand/Ethernet
- Speichererweiterung: CXL fügt Kapazität zu CPUs und Accelerators hinzu
- Fabric-weite Speicherpools: CXL-Switches ermöglichen Freigabe über Hosts hinweg
Panmnesia schlägt "CXL-over-XLink"-Architekturen vor, die alle drei integrieren und 5,3x schnelleres AI-Training und 6x Inferenz-Latenzreduzierung vs PCIe/RDMA-Baselines berichten.[^19]
Entscheidungsrahmen: Wann was verwenden
| Szenario | Empfohlenes Interconnect | Begründung |
|---|---|---|
| Multi-GPU Training innerhalb Server | NVLink | Höchste Bandbreite, niedrigste Latenz |
| Multi-GPU Inferenz Pod (nicht-NVIDIA) | UALink | Offener Standard, hohe Bandbreite |
| Speicher über VRAM hinaus erweitern | CXL | Cache-Kohärenz, DRAM-ähnliche Latenz |
| Multi-Rack GPU Cluster | InfiniBand oder Ultra Ethernet | Für Scale-out konzipiert |
| Geteilter Speicherpool über Server | CXL Switches | Memory Pooling mit Kohärenz |
| China/eingeschränkte Märkte | UB-Mesh erwägen | Vermeidet westliche IP-Abhängigkeiten |
CXL-Ökosystem: Anbieter und Produkte
Memory Expander
Alle drei großen DRAM-Hersteller liefern CXL-Speichererweiterungen:
| Anbieter | Produkt | Kapazität | Interface | Status |
|---|---|---|---|---|
| Samsung | CMM-D | 256 GB | CXL 2.0 | Massenproduktion 2025[^20] |
| SK Hynix | CMM-DDR5 | 128 GB | CXL 2.0 | Massenproduktion Ende 2024[^21] |
| Micron | CZ120 | 256 GB | CXL 2.0 | Sampling[^22] |
| SK Hynix | CMS | 512 GB | CXL (compute-enabled) | Angekündigt[^23] |
SK Hynix' CMS (Computational Memory Solution) fügt Compute-Fähigkeiten direkt im Speichermodul hinzu – eine frühe Implementierung von Processing-Near-Memory für CXL.
Switch-Anbieter
CXL-Switches ermöglichen Memory Pooling über mehrere Hosts:
| Anbieter | Produkt | Generation | Status | Hauptfeature |
|---|---|---|---|---|
| XConn | XC50256 | CXL 2.0 | Verfügbar | 256-Lane Switch, erster am Markt[^24] |
| XConn | Apollo | CXL 2.0 | Verfügbar | Memory Pooling Demonstrationen bei SC25[^25] |
| Panmnesia | Fabric Switch | CXL 3.2 | Sampling Nov 2025 | Erste PBR-Implementierung[^26] |
| Astera Labs | Leo | CXL 2.0 | Verfügbar | Smart Memory Controller[^27] |
| Microchip | SMC 2000 | CXL 2.0 | Verfügbar | Memory Expansion Controller[^28] |
Panmnesias CXL 3.2 Fabric Switch stellt einen Generationssprung dar: erste Silizium-Implementierung von Port-basiertem Routing für echte Fabric-Architekturen mit bis zu 4.096 Knoten.[^29]
Controller-Anbieter
CXL-Speichercontroller übersetzen zwischen CXL-Protokoll und DRAM:
| Anbieter | Rolle | Hauptprodukte |
|---|---|---|
| Marvell | Controller | Structera CXL Controller[^30] |
| Montage | Controller | CXL Memory Buffer Chips |
| Astera Labs | Controller | Leo Smart Memory Controller |
| Microchip | Controller | SMC 2000 Serie |
Marvells Structera absolvierte Interoperabilitätstests mit allen drei großen Speicheranbietern (Samsung, Micron, SK Hynix) auf Intel- und AMD-Plattformen.[^31]
Deployment-Planungshandbuch
Zeitleiste
| Zeitraum | CXL Generation | Erwartete Fähigkeit | Empfehlung |
|---|---|---|---|
| Jetzt-Q2 2026 | CXL 2.0 | Speichererweiterung, grundlegendes Pooling | Produktionsevaluierung |
| Q3 2026-Q4 2026 | CXL 3.0/3.1 | Fabric, Peer-to-Peer, 4K Knoten | Early Adoption für AI |
| 2027+ | CXL 4.0 | Multi-Rack Pooling, 1,5 TB/s | Planung beginnt jetzt |
ABI Research erwartet CXL 3.0/3.1-Lösungen mit ausreichender Software-Unterstützung für kommerzielle Adoption bis 2027.[^32]
Was jetzt evaluiert werden sollte
Sofort (2025): 1. Teste CXL 2.0-Speichererweiterungen auf bestehenden Intel Sapphire Rapids oder AMD EPYC Genoa Servern 2. Evaluiere XConn oder Astera Labs Switches für Memory P