CXL 4.0 Infrastructuur Planningshandleiding: Memory Pooling voor AI op Schaal

Complete CXL 4.0 implementatiehandleiding over gebundelde poorten, multi-rack memory pooling, KV cache offloading, leveranciersecosysteem, en 2026-2027 planningstijdlijn.

Madison Kersh

Apr 27, 2026 8 min read Disclaimer

CXL 4.0 Infrastructuur Planningshandleiding: Memory Pooling voor AI op Schaal

13 december 2025

December 2025 Update: Het CXL Consortium heeft CXL 4.0 uitgebracht op 18 november 2025, wat de bandbreedte verdubbelt naar 128 GT/s via PCIe 7.0 en gebundelde poorten introduceert voor 1,5 TB/s verbindingen. Deze handleiding behandelt implementatieplanning voor organisaties die zich voorbereiden op het implementeren van CXL-gebaseerde memory pooling in hun AI infrastructuur.

TL;DR

CXL 4.0 maakt memory pooling mogelijk op ongekende schaal, waardoor AI inference workloads toegang krijgen tot 100+ terabytes aan gedeeld geheugen met cache coherency over meerdere racks. De bundled ports van de specificatie aggregeren meerdere fysieke verbindingen tot enkele logische attachments die 1,5 TB/s bandbreedte leveren. Voor infrastructuurplanners liggen de belangrijkste beslissingen in het begrijpen wanneer CXL te adopteren (2026-2027 voor productie), welke producten nu te evalueren (CXL 2.0/3.0 switches shipping), en hoe CXL NVLink en UALink aanvult in plaats van vervangt. Deze handleiding biedt de technische diepte en beslissingskaders die nodig zijn om CXL implementaties te plannen.

Het Memory Wall Probleem

Grote taalmodellen stuiten op een fundamentele beperking: GPU memory capaciteit. Moderne AI inference workloads overschrijden routinematig 80-120 GB per GPU, en de key-value (KV) cache groeit met contextlengte.[^1] Een enkele inference request met een 128K context window kan tientallen gigabytes consumeren alleen al voor KV cache opslag.

Het probleem intensifieert op schaal. Model weights voor frontier LLMs consumeren honderden gigabytes. KV cache vereisten groeien lineair met zowel batch size als sequence length. GPU VRAM blijft gefixeerd op 80GB (H100) of 192GB (B200).[^2]

Traditionele oplossingen schieten tekort:

Aanpak	Beperking
Meer GPUs toevoegen	Lineaire kostenstijging, geheugen nog steeds geïsoleerd per GPU
NVMe offloading	~100 μs latency, 100x langzamer dan DRAM
RDMA-gebaseerd delen	Nog steeds 10-20 μs latency, complex networking
Groter GPU geheugen	Supply-constrained, duur

CXL verandert deze vergelijking door memory pooling mogelijk te maken met DRAM-achtige latency (200-500 ns) over het datacenter.[^3]

CXL 4.0 Technische Diepduik

Evolutie van CXL 1.0 naar 4.0

CXL is snel gerijpt sinds de introductie in 2019. Elke generatie breidde de mogelijkheden uit:

Generatie	Release	PCIe Base	Snelheid	Belangrijkste Vooruitgang
CXL 1.0/1.1	2019/2020	PCIe 5.0	32 GT/s	Basic coherent memory attach
CXL 2.0	2022	PCIe 5.0	32 GT/s	Switching, memory pooling, multi-device
CXL 3.0/3.1	2023/2024	PCIe 6.0	64 GT/s	Fabric support, peer-to-peer, 4,096 nodes
CXL 4.0	Nov 2025	PCIe 7.0	128 GT/s	Bundled ports, multi-rack, enhanced RAS

CXL 2.0 introduceerde het fundamentele concept van memory pooling. Meerdere Type 3 memory devices verbinden met een switch, waardoor een gedeelde pool ontstaat waaruit de switch dynamisch resources toewijst aan verschillende hosts.[^4] Dit maakt verbeteringen in geheugenbenutting mogelijk van typisch 50-60% naar 85%+ over een cluster.

CXL 3.0 voegde fabric mogelijkheden toe die multi-level switching ondersteunen en tot 4,096 nodes met port-based routing (PBR).[^5] De verschuiving naar 256-byte FLITs en PCIe 6.0's 64 GT/s verdubbelde de beschikbare bandbreedte.

CXL 4.0 verdubbelt de bandbreedte opnieuw terwijl het features introduceert die cruciaal zijn voor multi-rack AI implementaties.

Bundled Ports Architectuur

CXL 4.0's meest significante feature voor high-performance computing: bundled ports aggregeren meerdere fysieke CXL device ports tot een enkele logische entiteit.[^6]

Hoe bundled ports werken:

Een host en Type 1/2 device combineren meerdere fysieke ports
System software ziet een enkel device ondanks meerdere fysieke verbindingen
Bandbreedte aggregeert over alle bundled ports
Geoptimaliseerd voor 256-byte FLIT mode, elimineert legacy overhead

Bandbreedte berekeningen:

Configuratie	Richting	Bandbreedte
Enkele x16 port @ 128 GT/s	Unidirectioneel	256 GB/s
Enkele x16 port @ 128 GT/s	Bidirectioneel	512 GB/s
3 bundled x16 ports @ 128 GT/s	Unidirectioneel	768 GB/s
3 bundled x16 ports @ 128 GT/s	Bidirectioneel	1,536 GB/s

Ter context, HBM3e memory op een H200 levert 4,8 TB/s bandbreedte.[^7] Een bundled CXL 4.0 verbinding op 1,5 TB/s vertegenwoordigt ongeveer 30% van die bandbreedte—voldoende voor veel memory expansion use cases waar capaciteit belangrijker is dan piekbandbreedte.

PCIe 7.0 Foundation

CXL 4.0 bouwt voort op PCIe 7.0's physical layer verbeteringen:[^8]

128 GT/s transfer rate: Dubbel de 64 GT/s van PCIe 6.0
PAM4 signaling: Zelfde encoding scheme als PCIe 6.0
Verbeterde FEC: Forward error correction voor signaalintegriteit
Optische ondersteuning: Maakt langere verbindingen mogelijk

De specificatie behoudt het 256-byte FLIT formaat van CXL 3.x terwijl het een latency-geoptimaliseerde variant toevoegt voor tijdgevoelige operaties.[^9]

Multi-Rack Fabric Mogelijkheden

CXL 4.0 breidt het bereik uit via twee mechanismen:

Vier retimers ondersteund: Vorige generaties stonden twee retimers toe. Vier retimers maken langere fysieke verbindingen mogelijk die meerdere racks overspannen zonder signaaldegradatie.[^10]

Native x2 breedte: Voorheen een gedegradeerde fallback mode, x2 links werken nu op volledige prestaties. Dit maakt hogere fan-out configuraties mogelijk waar veel lagere-bandbreedte verbindingen meer endpoints bedienen.[^11]

Deze features combineren om "multi-rack memory pooling" mogelijk te maken—een mogelijkheid die het CXL Consortium expliciet richt op late 2026-2027 productie implementatie.[^12]

CXL Use Cases voor AI Infrastructuur

KV Cache Offloading voor LLM Inference

De hoogste impact nabije termijn use case: offloading van KV cache van GPU VRAM naar CXL-attached memory.

Het probleem: LLM inference met lange contexten genereert massieve KV caches. Een 70B parameter model met 128K context en batch size 32 kan 150+ GB nodig hebben alleen al voor KV cache.[^13] Dit overschrijdt H100 VRAM, wat dure batch size reducties of meerdere GPUs forceert.

De CXL oplossing: Sla KV cache op in pooled CXL memory terwijl hot layers in GPU VRAM blijven. XConn en MemVerge demonstreerden dit op SC25 en OCP 2025:[^14]

Twee H100 GPUs (80GB elk) draaiend OPT-6.7B
KV cache offloaded naar gedeelde CXL memory pool
3.8x speedup vs 200G RDMA
6.5x speedup vs 100G RDMA
>5x verbetering vs SSD-gebaseerde KV cache

Onderzoek van universiteiten bevestigt de kans. PNM-KV (Processing-Near-Memory voor KV cache) behaalt tot 21,9x throughput verbetering door token page selectie te offloaden naar accelerators binnen CXL memory.[^15]

Memory Expansion voor Training

Training workloads profiteren van uitgebreide memory capaciteit voor:

Grotere batch sizes: Meer samples per iteratie zonder gradient accumulation
Activation checkpointing reductie: Sla meer activations op in memory vs recomputation
Optimizer state: Adam optimizer vereist 2x parameters voor momentum/variance

CXL memory expansion maakt training configuraties mogelijk die voorheen multi-node distributie vereisten om op enkele nodes te draaien, wat communicatie overhead reduceert.

Scientific en HPC Workloads

PNNL's Crete project gebruikt CXL pools voor high-throughput memory sharing over compute nodes in wetenschappelijke simulaties.[^16] Use cases omvatten:

Molecular dynamics met grote neighbor lists
Graph analytics op trillion-edge datasets
In-memory databases die single-server capaciteit overschrijden

Het Interconnect Landschap

CXL vs NVLink vs UALink

Begrijpen waar CXL past vereist erkenning dat deze technologieën verschillende doelen dienen:

Standard	Primair Doel	Best Voor
CXL	Memory coherency + pooling	CPU-memory expansion, gedeelde memory pools
NVLink	GPU-to-GPU scaling	Within-node GPU communicatie
UALink	Accelerator interconnect	Open standard alternatief voor NVLink
Ultra Ethernet	Scale-out networking	Multi-rack, 10,000+ endpoints

CXL draait op PCIe SerDes: lagere error rate, lagere latency, maar lagere bandbreedte dan NVLink/UALink's Ethernet-style SerDes.[^17] NVLink 5 levert 1,8 TB/s per GPU—ver boven CXL 4.0's 512 GB/s per x16 port.[^18]

De technologieën vullen elkaar aan in plaats van te concurreren:

Binnen een GPU node: NVLink verbindt GPUs
Tussen nodes: UALink of InfiniBand/Ethernet
Memory expansion: CXL voegt capaciteit toe aan CPUs en accelerators
Fabric-wide memory pools: CXL switches maken delen mogelijk over hosts

Panmnesia stelt "CXL-over-XLink" architecturen voor die alle drie integreren, rapporterend 5,3x snellere AI training en 6x inference latency reductie vs PCIe/RDMA baselines.[^19]

Beslissingskader: Wanneer Wat te Gebruiken

Scenario	Aanbevolen Interconnect	Rationale
Multi-GPU training binnen server	NVLink	Hoogste bandbreedte, laagste latency
Multi-GPU inference pod (non-NVIDIA)	UALink	Open standard, hoge bandbreedte
Breid geheugen uit voorbij VRAM	CXL	Cache coherency, DRAM-achtige latency
Multi-rack GPU cluster	InfiniBand of Ultra Ethernet	Ontworpen voor scale-out
Gedeelde memory pool over servers	CXL switches	Memory pooling met coherency
China/beperkte markten	Overweeg UB-Mesh	Vermijdt Westerse IP afhankelijkheden

CXL Ecosysteem: Leveranciers en Producten

Memory Expanders

De drie grote DRAM fabrikanten leveren allemaal CXL memory expanders:

Leverancier	Product	Capaciteit	Interface	Status
Samsung	CMM-D	256 GB	CXL 2.0	Massaproductie 2025[^20]
SK Hynix	CMM-DDR5	128 GB	CXL 2.0	Massaproductie eind 2024[^21]
Micron	CZ120	256 GB	CXL 2.0	Sampling[^22]
SK Hynix	CMS	512 GB	CXL (compute-enabled)	Aangekondigd[^23]

SK Hynix's CMS (Computational Memory Solution) voegt compute mogelijkheden direct toe in de memory module—een vroege implementatie van processing-near-memory voor CXL.

Switch Leveranciers

CXL switches maken memory pooling mogelijk over meerdere hosts:

Leverancier	Product	Generatie	Status	Belangrijkste Feature
XConn	XC50256	CXL 2.0	Shipping	256-lane switch, eerste op markt[^24]
XConn	Apollo	CXL 2.0	Shipping	Memory pooling demonstraties op SC25[^25]
Panmnesia	Fabric Switch	CXL 3.2	Sampling Nov 2025	Eerste PBR implementatie[^26]
Astera Labs	Leo	CXL 2.0	Shipping	Smart memory controller[^27]
Microchip	SMC 2000	CXL 2.0	Shipping	Memory expansion controller[^28]

Panmnesia's CXL 3.2 Fabric Switch vertegenwoordigt een generatiesprong: eerste silicium dat port-based routing implementeert voor echte fabric architecturen met tot 4,096 nodes.[^29]

Controller Leveranciers

CXL memory controllers vertalen tussen CXL protocol en DRAM:

Leverancier	Rol	Belangrijkste Producten
Marvell	Controller	Structera CXL controllers[^30]
Montage	Controller	CXL memory buffer chips
Astera Labs	Controller	Leo smart memory controller
Microchip	Controller	SMC 2000 serie

Marvell's Structera voltooide interoperability testing met alle drie grote memory leveranciers (Samsung, Micron, SK Hynix) op zowel Intel als AMD platforms.[^31]

Implementatie Planningshandleiding

Tijdlijn

Periode	CXL Generatie	Verwachte Mogelijkheid	Aanbeveling
Nu-Q2 2026	CXL 2.0	Memory expansion, basis pooling	Productie evaluatie
Q3 2026-Q4 2026	CXL 3.0/3.1	Fabric, peer-to-peer, 4K nodes	Vroege adoptie voor AI
2027+	CXL 4.0	Multi-rack pooling, 1,5 TB/s	Planning begint nu

ABI Research verwacht CXL 3.0/3.1 oplossingen met voldoende software ondersteuning voor commerciële adoptie tegen 2027.[^32]

Wat Nu te Evalueren

Direct (2025): 1. Test CXL 2.0 memory expanders op bestaande Intel Sapphire Rapids of AMD EPYC Genoa servers 2. Evalueer XConn of Astera Labs switches voor memory p

CXL 4.0 Infrastructuur Planningshandleiding: Memory Pooling voor AI op Schaal

TL;DR

Het Memory Wall Probleem

CXL 4.0 Technische Diepduik

Evolutie van CXL 1.0 naar 4.0

Bundled Ports Architectuur

PCIe 7.0 Foundation

Multi-Rack Fabric Mogelijkheden

CXL Use Cases voor AI Infrastructuur

KV Cache Offloading voor LLM Inference

Memory Expansion voor Training

Scientific en HPC Workloads

Het Interconnect Landschap

CXL vs NVLink vs UALink

Beslissingskader: Wanneer Wat te Gebruiken

CXL Ecosysteem: Leveranciers en Producten

Memory Expanders

Switch Leveranciers

Controller Leveranciers

Implementatie Planningshandleiding

Tijdlijn

Wat Nu te Evalueren

You Might Also Like

AI Workload Scheduling: GPU-benutting optimaliseren over tij...

AI Infrastructure Beveiligingsoperaties: SOC Vereisten voor ...

De $600 miljard AI-infrastructuuruitbouw: Hyperscaler CapEx,...

Offerte aanvragen_

Aanvraag Ontvangen_