CXL 4.0 Infrastruktur-Planungsleitfaden: Memory Pooling für KI im großen Maßstab

Umfassender CXL 4.0 Deployment-Leitfaden zu gebündelten Ports, Multi-Rack Memory Pooling, KV-Cache-Offloading, Hersteller-Ökosystem und Planungszeitrahmen 2026-2027.

CXL 4.0 Infrastruktur-Planungsleitfaden: Memory Pooling für KI im großen Maßstab

CXL 4.0 Infrastruktur-Planungsleitfaden: Memory Pooling für KI im großen Maßstab

13. Dezember 2025

Update Dezember 2025: Das CXL Consortium hat am 18. November 2025 CXL 4.0 veröffentlicht, das die Bandbreite über PCIe 7.0 auf 128 GT/s verdoppelt und gebündelte Ports für 1,5 TB/s-Verbindungen einführt. Dieser Leitfaden behandelt die Deployment-Planung für Organisationen, die sich auf die Implementierung von CXL-basiertem Memory Pooling in ihrer KI-Infrastruktur vorbereiten.


Zusammenfassung

CXL 4.0 ermöglicht Memory Pooling in einem bisher unerreichten Umfang und erlaubt KI-Inferenz-Workloads den Zugriff auf über 100 Terabyte gemeinsam genutzten Speicher mit Cache-Kohärenz über mehrere Racks hinweg. Die gebündelten Ports der Spezifikation aggregieren mehrere physische Verbindungen zu einzelnen logischen Anschlüssen mit 1,5 TB/s Bandbreite. Für Infrastrukturplaner umfassen die wichtigsten Entscheidungen das Verständnis, wann CXL eingeführt werden sollte (2026-2027 für Produktionsumgebungen), welche Produkte jetzt evaluiert werden sollten (CXL 2.0/3.0 Switches werden bereits ausgeliefert) und wie CXL NVLink und UALink ergänzt, anstatt sie zu ersetzen. Dieser Leitfaden bietet die technische Tiefe und Entscheidungsrahmen, die für die Planung von CXL-Deployments erforderlich sind.


Das Memory-Wall-Problem

Große Sprachmodelle stoßen an eine fundamentale Grenze: GPU-Speicherkapazität. Moderne KI-Inferenz-Workloads überschreiten routinemäßig 80-120 GB pro GPU, und der Key-Value (KV) Cache wächst mit der Kontextlänge.[^1] Eine einzelne Inferenzanfrage mit einem 128K-Kontextfenster kann allein für die KV-Cache-Speicherung mehrere zehn Gigabyte verbrauchen.

Das Problem verschärft sich im großen Maßstab. Modellgewichte für Frontier-LLMs verbrauchen Hunderte von Gigabytes. Der KV-Cache-Bedarf wächst linear sowohl mit der Batch-Größe als auch mit der Sequenzlänge. GPU-VRAM bleibt bei 80 GB (H100) oder 192 GB (B200) fixiert.[^2]

Traditionelle Lösungen greifen zu kurz:

Ansatz Einschränkung
Mehr GPUs hinzufügen Lineare Kostensteigerung, Speicher bleibt pro GPU isoliert
NVMe-Offloading ~100 μs Latenz, 100x langsamer als DRAM
RDMA-basiertes Sharing Immer noch 10-20 μs Latenz, komplexes Networking
Größerer GPU-Speicher Angebotsbeschränkt, teuer

CXL verändert diese Gleichung, indem es Memory Pooling mit DRAM-ähnlicher Latenz (200-500 ns) über das gesamte Rechenzentrum ermöglicht.[^3]


CXL 4.0 Technischer Deep Dive

Evolution von CXL 1.0 zu 4.0

CXL hat sich seit seiner Einführung 2019 rapide weiterentwickelt. Jede Generation erweiterte die Fähigkeiten:

Generation Veröffentlichung PCIe-Basis Geschwindigkeit Wichtigste Neuerung
CXL 1.0/1.1 2019/2020 PCIe 5.0 32 GT/s Grundlegende kohärente Speicheranbindung
CXL 2.0 2022 PCIe 5.0 32 GT/s Switching, Memory Pooling, Multi-Device
CXL 3.0/3.1 2023/2024 PCIe 6.0 64 GT/s Fabric-Unterstützung, Peer-to-Peer, 4.096 Knoten
CXL 4.0 Nov. 2025 PCIe 7.0 128 GT/s Gebündelte Ports, Multi-Rack, erweitertes RAS

CXL 2.0 führte das grundlegende Konzept des Memory Pooling ein. Mehrere Type-3-Speichergeräte verbinden sich mit einem Switch und bilden einen gemeinsamen Pool, aus dem der Switch dynamisch Ressourcen an verschiedene Hosts zuweist.[^4] Dies ermöglicht Verbesserungen der Speicherauslastung von typischerweise 50-60% auf über 85% in einem Cluster.

CXL 3.0 fügte Fabric-Fähigkeiten hinzu, die Multi-Level-Switching und bis zu 4.096 Knoten mit portbasiertem Routing (PBR) unterstützen.[^5] Der Wechsel zu 256-Byte-FLITs und die 64 GT/s von PCIe 6.0 verdoppelten die verfügbare Bandbreite.

CXL 4.0 verdoppelt die Bandbreite erneut und führt gleichzeitig Funktionen ein, die für Multi-Rack-KI-Deployments entscheidend sind.

Architektur der gebündelten Ports

Das bedeutendste Feature von CXL 4.0 für Hochleistungsrechnen: Gebündelte Ports aggregieren mehrere physische CXL-Geräteports zu einer einzigen logischen Einheit.[^6]

Funktionsweise gebündelter Ports:

  1. Ein Host und ein Type-1/2-Gerät kombinieren mehrere physische Ports
  2. Die Systemsoftware sieht ein einzelnes Gerät trotz mehrerer physischer Verbindungen
  3. Die Bandbreite wird über alle gebündelten Ports aggregiert
  4. Optimiert für den 256-Byte-FLIT-Modus, wodurch Legacy-Overhead eliminiert wird

Bandbreitenberechnungen:

Konfiguration Richtung Bandbreite
Einzelner x16-Port @ 128 GT/s Unidirektional 256 GB/s
Einzelner x16-Port @ 128 GT/s Bidirektional 512 GB/s
3 gebündelte x16-Ports @ 128 GT/s Unidirektional 768 GB/s
3 gebündelte x16-Ports @ 128 GT/s Bidirektional 1.536 GB/s

Zum Vergleich: HBM3e-Speicher auf einer H200 liefert 4,8 TB/s Bandbreite.[^7] Eine gebündelte CXL 4.0-Verbindung mit 1,5 TB/s entspricht etwa 30% dieser Bandbreite – ausreichend für viele Speichererweiterungsanwendungen, bei denen Kapazität wichtiger ist als Spitzenbandbreite.

PCIe 7.0-Grundlage

CXL 4.0 baut auf den Verbesserungen der physischen Schicht von PCIe 7.0 auf:[^8]

  • 128 GT/s Übertragungsrate: Doppelt so hoch wie die 64 GT/s von PCIe 6.0
  • PAM4-Signalisierung: Gleiches Kodierungsschema wie PCIe 6.0
  • Verbessertes FEC: Forward Error Correction für Signalintegrität
  • Optische Unterstützung: Ermöglicht Verbindungen über größere Entfernungen

Die Spezifikation behält das 256-Byte-FLIT-Format von CXL 3.x bei und fügt eine latenzoptimierte Variante für zeitkritische Operationen hinzu.[^9]

Multi-Rack-Fabric-Fähigkeiten

CXL 4.0 erweitert die Reichweite durch zwei Mechanismen:

Vier Retimer unterstützt: Frühere Generationen erlaubten zwei Retimer. Vier Retimer ermöglichen längere physische Verbindungen über mehrere Racks hinweg ohne Signalverschlechterung.[^10]

Native x2-Breite: Zuvor ein degradierter Fallback-Modus, arbeiten x2-Links nun mit voller Leistung. Dies ermöglicht Konfigurationen mit höherem Fan-out, bei denen viele Verbindungen mit niedrigerer Bandbreite mehr Endpunkte bedienen.[^11]

Diese Features kombinieren sich zu „Multi-Rack Memory Pooling" – eine Fähigkeit, die das CXL Consortium explizit für den Produktionseinsatz Ende 2026-2027 anstrebt.[^12]


CXL-Anwendungsfälle für KI-Infrastruktur

KV-Cache-Offloading für LLM-Inferenz

Der wirkungsvollste kurzfristige Anwendungsfall: Auslagerung des KV-Cache vom GPU-VRAM in CXL-angebundenen Speicher.

Das Problem: LLM-Inferenz mit langen Kontexten erzeugt massive KV-Caches. Ein 70B-Parameter-Modell mit 128K-Kontext und Batch-Größe 32 kann allein für den KV-Cache über 150 GB benötigen.[^13] Dies übersteigt den H100-VRAM und erzwingt teure Reduzierungen der Batch-Größe oder den Einsatz mehrerer GPUs.

Die CXL-Lösung: KV-Cache in gepooltem CXL-Speicher speichern, während Hot Layers im GPU-VRAM bleiben. XConn und MemVerge haben dies auf der SC25 und OCP 2025 demonstriert:[^14]

  • Zwei H100-GPUs (je 80 GB) mit OPT-6.7B
  • KV-Cache in gemeinsamen CXL-Speicherpool ausgelagert
  • 3,8x Beschleunigung gegenüber 200G RDMA
  • 6,5x Beschleunigung gegenüber 100G RDMA
  • >5x Verbesserung gegenüber SSD-basiertem KV-Cache

Akademische Forschung bestätigt das Potenzial. PNM-KV (Processing-Near-Memory für KV-Cache) erreicht bis zu 21,9x Durchsatzverbesserung durch Auslagerung der Token-Page-Selektion auf Beschleuniger innerhalb des CXL-Speichers.[^15]

Speichererweiterung für Training

Trainings-Workloads profitieren von erweiterter Speicherkapazität für:

  • Größere Batch-Größen: Mehr Samples pro Iteration ohne Gradientenakkumulation
  • Reduzierung von Activation Checkpointing: Mehr Aktivierungen im Speicher statt Neuberechnung
  • Optimizer-State: Der Adam-Optimizer benötigt 2x die Parameter für Momentum/Varianz

CXL-Speichererweiterung ermöglicht Trainingskonfigurationen, die zuvor Multi-Node-Verteilung erforderten, auf einzelnen Nodes zu laufen und reduziert so den Kommunikations-Overhead.

Wissenschaftliche und HPC-Workloads

Das Crete-Projekt von PNNL nutzt CXL-Pools für Hochdurchsatz-Speichersharing zwischen Compute-Nodes in wissenschaftlichen Simulationen.[^16] Anwendungsfälle umfassen:

  • Molekulardynamik mit großen Nachbarlisten
  • Graph-Analytik auf Datensätzen mit Billionen von Kanten
  • In-Memory-Datenbanken, die die Kapazität einzelner Server überschreiten

Die Interconnect-Landschaft

Um zu verstehen, wo CXL hingehört, muss man erkennen, dass diese Technologien unterschiedlichen Zwecken dienen:

Standard Primärer Zweck Am besten geeignet für
CXL Speicherkohärenz + Pooling CPU-Speichererweiterung, gemeinsame Speicherpools
NVLink GPU-zu-GPU-Skalierung GPU-Kommunikation innerhalb eines Knotens
UALink Beschleuniger-Interconnect Offene Standard-Alternative zu NVLink
Ultra Ethernet Scale-out-Networking Multi-Rack, über 10.000 Endpunkte

CXL läuft auf PCIe SerDes: niedrigere Fehlerrate, niedrigere Latenz, aber geringere Bandbreite als das Ethernet-artige SerDes von NVLink/UALink.[^17] NVLink 5 liefert 1,8 TB/s pro GPU – weit mehr als die 512 GB/s pro x16-Port von CXL 4.0.[^18]

Die Technologien ergänzen sich, anstatt zu konkurrieren:

  • Innerhalb eines GPU-Knotens: NVLink verbindet GPUs
  • Zwischen Knoten: UALink oder InfiniBand/Ethernet
  • Speichererweiterung: CXL fügt Kapazität zu CPUs und Beschleunigern hinzu
  • Fabric-weite Speicherpools: CXL-Switches ermöglichen Sharing über Hosts hinweg

Panmnesia schlägt „CXL-over-XLink"-Architekturen vor, die alle drei integrieren, und berichtet von 5,3x schnellerem KI-Training und 6x reduzierter Inferenzlatenz gegenüber PCIe/RDMA-Baselines.[^19]

Entscheidungsrahmen: Wann was verwenden

Szenario Empfohlener Interconnect Begründung
Multi-GPU-Training innerhalb des Servers NVLink Höchste Bandbreite, niedrigste Latenz
Multi-GPU-Inferenz-Pod (nicht NVIDIA) UALink Offener Standard, hohe Bandbreite
Speicher über VRAM hinaus erweitern CXL Cache-Kohärenz, DRAM-ähnliche Latenz
Multi-Rack-GPU-Cluster InfiniBand oder Ultra Ethernet Für Scale-out konzipiert
Gemeinsamer Speicherpool über Server hinweg CXL-Switches Memory Pooling mit Kohärenz
China/eingeschränkte Märkte UB-Mesh in Betracht ziehen Vermeidet westliche IP-Abhängigkeiten

CXL-Ökosystem: Hersteller und Produkte

Memory Expander

Die drei großen DRAM-Hersteller liefern alle CXL Memory Expander:

Hersteller Produkt Kapazität Interface Status
Samsung CMM-D 256 GB CXL 2.0 Massenproduktion 2025[^20]
SK Hynix CMM-DDR5 128 GB CXL 2.0 Massenproduktion Ende 2024[^21]
Micron CZ120 256 GB CXL 2.0 Sampling[^22]
SK Hynix CMS 512 GB CXL (compute-fähig) Angekündigt[^23]

Die CMS (Computational Memory Solution) von SK Hynix fügt Rechenfähigkeiten direkt im Speichermodul hinzu – eine frühe Implementierung von Processing-Near-Memory für CXL.

Switch-Hersteller

CXL-Switches ermöglichen Memory Pooling über mehrere Hosts:

Hersteller Produkt Generation Status Hauptmerkmal
XConn XC50256 CXL 2.0 Lieferbar 256-Lane-Switch, erster am Markt[^24]
XConn Apollo CXL 2.0 Lieferbar Memory-Pooling-Demonstrationen auf der SC25[^25]
Panmnesia Fabric Switch CXL 3.2 Sampling Nov. 2025 Erste PBR-Implementierung[^26]
Astera Labs Leo CXL 2.0 Lieferbar Smart Memory Controller[^27]
Microchip SMC 2000 CXL 2.0 Lieferbar Memory Expansion Controller[^28]

Der CXL 3.2 Fabric Switch von Panmnesia stellt einen Generationssprung dar: erstes Silizium, das portbasiertes Routing für echte Fabric-Architekturen mit bis zu 4.096 Knoten implementiert.[^29]

Controller-Hersteller

CXL Memory Controller übersetzen zwischen CXL-Protokoll und DRAM:

Hersteller Rolle Wichtige Produkte
Marvell Controller Structera CXL Controller[^30]
Montage Controller CXL Memory Buffer Chips
Astera Labs Controller Leo Smart Memory Controller
Microchip Controller SMC 2000 Serie

Marvells Structera hat Interoperabilitätstests mit allen drei großen Speicherlieferanten (Samsung, Micron, SK Hynix) auf Intel- und AMD-Plattformen abgeschlossen.[^31]


Deployment-Planungsleitfaden

Zeitplan

Zeitraum CXL-Generation Erwartete Fähigkeit Empfehlung
Jetzt bis Q2 2026 CXL 2.0 Speichererweiterung, einfaches Pooling Produktionsevaluierung
Q3 2026 bis Q4 2026 CXL 3.0/3.1 Fabric, Peer-to-Peer, 4K Knoten Frühe Adoption für KI
2027+ CXL 4.0 Multi-Rack-Pooling, 1,5 TB/s Planung beginnt jetzt

ABI Research erwartet CXL 3.0/3.1-Lösungen mit ausreichender Softwareunterstützung für kommerzielle Adoption bis 2027.[^32]

Was jetzt evaluiert werden sollte

Sofort (2025): 1. CXL 2.0 Memory Expander auf bestehenden Intel Sapphire Rapids oder AMD EPYC Genoa Servern testen 2. XConn- oder Astera Labs-Switches für Memory Pooling evaluieren

[Inhalt für Übersetzung gekürzt]

Angebot anfordern_

Erzählen Sie uns von Ihrem Projekt und wir antworten innerhalb von 72 Stunden.

> ÜBERTRAGUNG_ABGESCHLOSSEN

Anfrage erhalten_

Vielen Dank für Ihre Anfrage. Unser Team wird Ihre Anfrage prüfen und innerhalb von 72 Stunden antworten.

ZUR BEARBEITUNG EINGEREIHT