CXL 4.0 Infrastructuur Planningshandleiding: Memory Pooling voor AI op Schaal
13 december 2025
December 2025 Update: Het CXL Consortium heeft CXL 4.0 uitgebracht op 18 november 2025, wat de bandbreedte verdubbelt naar 128 GT/s via PCIe 7.0 en gebundelde poorten introduceert voor 1,5 TB/s verbindingen. Deze handleiding behandelt implementatieplanning voor organisaties die zich voorbereiden op het implementeren van CXL-gebaseerde memory pooling in hun AI infrastructuur.
TL;DR
CXL 4.0 maakt memory pooling mogelijk op ongekende schaal, waardoor AI inference workloads toegang krijgen tot 100+ terabytes aan gedeeld geheugen met cache coherency over meerdere racks. De bundled ports van de specificatie aggregeren meerdere fysieke verbindingen tot enkele logische attachments die 1,5 TB/s bandbreedte leveren. Voor infrastructuurplanners liggen de belangrijkste beslissingen in het begrijpen wanneer CXL te adopteren (2026-2027 voor productie), welke producten nu te evalueren (CXL 2.0/3.0 switches shipping), en hoe CXL NVLink en UALink aanvult in plaats van vervangt. Deze handleiding biedt de technische diepte en beslissingskaders die nodig zijn om CXL implementaties te plannen.
Het Memory Wall Probleem
Grote taalmodellen stuiten op een fundamentele beperking: GPU memory capaciteit. Moderne AI inference workloads overschrijden routinematig 80-120 GB per GPU, en de key-value (KV) cache groeit met contextlengte.[^1] Een enkele inference request met een 128K context window kan tientallen gigabytes consumeren alleen al voor KV cache opslag.
Het probleem intensifieert op schaal. Model weights voor frontier LLMs consumeren honderden gigabytes. KV cache vereisten groeien lineair met zowel batch size als sequence length. GPU VRAM blijft gefixeerd op 80GB (H100) of 192GB (B200).[^2]
Traditionele oplossingen schieten tekort:
| Aanpak | Beperking |
|---|---|
| Meer GPUs toevoegen | Lineaire kostenstijging, geheugen nog steeds geïsoleerd per GPU |
| NVMe offloading | ~100 μs latency, 100x langzamer dan DRAM |
| RDMA-gebaseerd delen | Nog steeds 10-20 μs latency, complex networking |
| Groter GPU geheugen | Supply-constrained, duur |
CXL verandert deze vergelijking door memory pooling mogelijk te maken met DRAM-achtige latency (200-500 ns) over het datacenter.[^3]
CXL 4.0 Technische Diepduik
Evolutie van CXL 1.0 naar 4.0
CXL is snel gerijpt sinds de introductie in 2019. Elke generatie breidde de mogelijkheden uit:
| Generatie | Release | PCIe Base | Snelheid | Belangrijkste Vooruitgang |
|---|---|---|---|---|
| CXL 1.0/1.1 | 2019/2020 | PCIe 5.0 | 32 GT/s | Basic coherent memory attach |
| CXL 2.0 | 2022 | PCIe 5.0 | 32 GT/s | Switching, memory pooling, multi-device |
| CXL 3.0/3.1 | 2023/2024 | PCIe 6.0 | 64 GT/s | Fabric support, peer-to-peer, 4,096 nodes |
| CXL 4.0 | Nov 2025 | PCIe 7.0 | 128 GT/s | Bundled ports, multi-rack, enhanced RAS |
CXL 2.0 introduceerde het fundamentele concept van memory pooling. Meerdere Type 3 memory devices verbinden met een switch, waardoor een gedeelde pool ontstaat waaruit de switch dynamisch resources toewijst aan verschillende hosts.[^4] Dit maakt verbeteringen in geheugenbenutting mogelijk van typisch 50-60% naar 85%+ over een cluster.
CXL 3.0 voegde fabric mogelijkheden toe die multi-level switching ondersteunen en tot 4,096 nodes met port-based routing (PBR).[^5] De verschuiving naar 256-byte FLITs en PCIe 6.0's 64 GT/s verdubbelde de beschikbare bandbreedte.
CXL 4.0 verdubbelt de bandbreedte opnieuw terwijl het features introduceert die cruciaal zijn voor multi-rack AI implementaties.
Bundled Ports Architectuur
CXL 4.0's meest significante feature voor high-performance computing: bundled ports aggregeren meerdere fysieke CXL device ports tot een enkele logische entiteit.[^6]
Hoe bundled ports werken:
- Een host en Type 1/2 device combineren meerdere fysieke ports
- System software ziet een enkel device ondanks meerdere fysieke verbindingen
- Bandbreedte aggregeert over alle bundled ports
- Geoptimaliseerd voor 256-byte FLIT mode, elimineert legacy overhead
Bandbreedte berekeningen:
| Configuratie | Richting | Bandbreedte |
|---|---|---|
| Enkele x16 port @ 128 GT/s | Unidirectioneel | 256 GB/s |
| Enkele x16 port @ 128 GT/s | Bidirectioneel | 512 GB/s |
| 3 bundled x16 ports @ 128 GT/s | Unidirectioneel | 768 GB/s |
| 3 bundled x16 ports @ 128 GT/s | Bidirectioneel | 1,536 GB/s |
Ter context, HBM3e memory op een H200 levert 4,8 TB/s bandbreedte.[^7] Een bundled CXL 4.0 verbinding op 1,5 TB/s vertegenwoordigt ongeveer 30% van die bandbreedte—voldoende voor veel memory expansion use cases waar capaciteit belangrijker is dan piekbandbreedte.
PCIe 7.0 Foundation
CXL 4.0 bouwt voort op PCIe 7.0's physical layer verbeteringen:[^8]
- 128 GT/s transfer rate: Dubbel de 64 GT/s van PCIe 6.0
- PAM4 signaling: Zelfde encoding scheme als PCIe 6.0
- Verbeterde FEC: Forward error correction voor signaalintegriteit
- Optische ondersteuning: Maakt langere verbindingen mogelijk
De specificatie behoudt het 256-byte FLIT formaat van CXL 3.x terwijl het een latency-geoptimaliseerde variant toevoegt voor tijdgevoelige operaties.[^9]
Multi-Rack Fabric Mogelijkheden
CXL 4.0 breidt het bereik uit via twee mechanismen:
Vier retimers ondersteund: Vorige generaties stonden twee retimers toe. Vier retimers maken langere fysieke verbindingen mogelijk die meerdere racks overspannen zonder signaaldegradatie.[^10]
Native x2 breedte: Voorheen een gedegradeerde fallback mode, x2 links werken nu op volledige prestaties. Dit maakt hogere fan-out configuraties mogelijk waar veel lagere-bandbreedte verbindingen meer endpoints bedienen.[^11]
Deze features combineren om "multi-rack memory pooling" mogelijk te maken—een mogelijkheid die het CXL Consortium expliciet richt op late 2026-2027 productie implementatie.[^12]
CXL Use Cases voor AI Infrastructuur
KV Cache Offloading voor LLM Inference
De hoogste impact nabije termijn use case: offloading van KV cache van GPU VRAM naar CXL-attached memory.
Het probleem: LLM inference met lange contexten genereert massieve KV caches. Een 70B parameter model met 128K context en batch size 32 kan 150+ GB nodig hebben alleen al voor KV cache.[^13] Dit overschrijdt H100 VRAM, wat dure batch size reducties of meerdere GPUs forceert.
De CXL oplossing: Sla KV cache op in pooled CXL memory terwijl hot layers in GPU VRAM blijven. XConn en MemVerge demonstreerden dit op SC25 en OCP 2025:[^14]
- Twee H100 GPUs (80GB elk) draaiend OPT-6.7B
- KV cache offloaded naar gedeelde CXL memory pool
- 3.8x speedup vs 200G RDMA
- 6.5x speedup vs 100G RDMA
- >5x verbetering vs SSD-gebaseerde KV cache
Onderzoek van universiteiten bevestigt de kans. PNM-KV (Processing-Near-Memory voor KV cache) behaalt tot 21,9x throughput verbetering door token page selectie te offloaden naar accelerators binnen CXL memory.[^15]
Memory Expansion voor Training
Training workloads profiteren van uitgebreide memory capaciteit voor:
- Grotere batch sizes: Meer samples per iteratie zonder gradient accumulation
- Activation checkpointing reductie: Sla meer activations op in memory vs recomputation
- Optimizer state: Adam optimizer vereist 2x parameters voor momentum/variance
CXL memory expansion maakt training configuraties mogelijk die voorheen multi-node distributie vereisten om op enkele nodes te draaien, wat communicatie overhead reduceert.
Scientific en HPC Workloads
PNNL's Crete project gebruikt CXL pools voor high-throughput memory sharing over compute nodes in wetenschappelijke simulaties.[^16] Use cases omvatten:
- Molecular dynamics met grote neighbor lists
- Graph analytics op trillion-edge datasets
- In-memory databases die single-server capaciteit overschrijden
Het Interconnect Landschap
CXL vs NVLink vs UALink
Begrijpen waar CXL past vereist erkenning dat deze technologieën verschillende doelen dienen:
| Standard | Primair Doel | Best Voor |
|---|---|---|
| CXL | Memory coherency + pooling | CPU-memory expansion, gedeelde memory pools |
| NVLink | GPU-to-GPU scaling | Within-node GPU communicatie |
| UALink | Accelerator interconnect | Open standard alternatief voor NVLink |
| Ultra Ethernet | Scale-out networking | Multi-rack, 10,000+ endpoints |
CXL draait op PCIe SerDes: lagere error rate, lagere latency, maar lagere bandbreedte dan NVLink/UALink's Ethernet-style SerDes.[^17] NVLink 5 levert 1,8 TB/s per GPU—ver boven CXL 4.0's 512 GB/s per x16 port.[^18]
De technologieën vullen elkaar aan in plaats van te concurreren:
- Binnen een GPU node: NVLink verbindt GPUs
- Tussen nodes: UALink of InfiniBand/Ethernet
- Memory expansion: CXL voegt capaciteit toe aan CPUs en accelerators
- Fabric-wide memory pools: CXL switches maken delen mogelijk over hosts
Panmnesia stelt "CXL-over-XLink" architecturen voor die alle drie integreren, rapporterend 5,3x snellere AI training en 6x inference latency reductie vs PCIe/RDMA baselines.[^19]
Beslissingskader: Wanneer Wat te Gebruiken
| Scenario | Aanbevolen Interconnect | Rationale |
|---|---|---|
| Multi-GPU training binnen server | NVLink | Hoogste bandbreedte, laagste latency |
| Multi-GPU inference pod (non-NVIDIA) | UALink | Open standard, hoge bandbreedte |
| Breid geheugen uit voorbij VRAM | CXL | Cache coherency, DRAM-achtige latency |
| Multi-rack GPU cluster | InfiniBand of Ultra Ethernet | Ontworpen voor scale-out |
| Gedeelde memory pool over servers | CXL switches | Memory pooling met coherency |
| China/beperkte markten | Overweeg UB-Mesh | Vermijdt Westerse IP afhankelijkheden |
CXL Ecosysteem: Leveranciers en Producten
Memory Expanders
De drie grote DRAM fabrikanten leveren allemaal CXL memory expanders:
| Leverancier | Product | Capaciteit | Interface | Status |
|---|---|---|---|---|
| Samsung | CMM-D | 256 GB | CXL 2.0 | Massaproductie 2025[^20] |
| SK Hynix | CMM-DDR5 | 128 GB | CXL 2.0 | Massaproductie eind 2024[^21] |
| Micron | CZ120 | 256 GB | CXL 2.0 | Sampling[^22] |
| SK Hynix | CMS | 512 GB | CXL (compute-enabled) | Aangekondigd[^23] |
SK Hynix's CMS (Computational Memory Solution) voegt compute mogelijkheden direct toe in de memory module—een vroege implementatie van processing-near-memory voor CXL.
Switch Leveranciers
CXL switches maken memory pooling mogelijk over meerdere hosts:
| Leverancier | Product | Generatie | Status | Belangrijkste Feature |
|---|---|---|---|---|
| XConn | XC50256 | CXL 2.0 | Shipping | 256-lane switch, eerste op markt[^24] |
| XConn | Apollo | CXL 2.0 | Shipping | Memory pooling demonstraties op SC25[^25] |
| Panmnesia | Fabric Switch | CXL 3.2 | Sampling Nov 2025 | Eerste PBR implementatie[^26] |
| Astera Labs | Leo | CXL 2.0 | Shipping | Smart memory controller[^27] |
| Microchip | SMC 2000 | CXL 2.0 | Shipping | Memory expansion controller[^28] |
Panmnesia's CXL 3.2 Fabric Switch vertegenwoordigt een generatiesprong: eerste silicium dat port-based routing implementeert voor echte fabric architecturen met tot 4,096 nodes.[^29]
Controller Leveranciers
CXL memory controllers vertalen tussen CXL protocol en DRAM:
| Leverancier | Rol | Belangrijkste Producten |
|---|---|---|
| Marvell | Controller | Structera CXL controllers[^30] |
| Montage | Controller | CXL memory buffer chips |
| Astera Labs | Controller | Leo smart memory controller |
| Microchip | Controller | SMC 2000 serie |
Marvell's Structera voltooide interoperability testing met alle drie grote memory leveranciers (Samsung, Micron, SK Hynix) op zowel Intel als AMD platforms.[^31]
Implementatie Planningshandleiding
Tijdlijn
| Periode | CXL Generatie | Verwachte Mogelijkheid | Aanbeveling |
|---|---|---|---|
| Nu-Q2 2026 | CXL 2.0 | Memory expansion, basis pooling | Productie evaluatie |
| Q3 2026-Q4 2026 | CXL 3.0/3.1 | Fabric, peer-to-peer, 4K nodes | Vroege adoptie voor AI |
| 2027+ | CXL 4.0 | Multi-rack pooling, 1,5 TB/s | Planning begint nu |
ABI Research verwacht CXL 3.0/3.1 oplossingen met voldoende software ondersteuning voor commerciële adoptie tegen 2027.[^32]
Wat Nu te Evalueren
Direct (2025): 1. Test CXL 2.0 memory expanders op bestaande Intel Sapphire Rapids of AMD EPYC Genoa servers 2. Evalueer XConn of Astera Labs switches voor memory p