CXL 4.0 Infrastructuurplanningsgids: Memory Pooling voor AI op Schaal

Volledige CXL 4.0 implementatiegids met gebundelde poorten, multi-rack memory pooling, KV-cache offloading, leveranciersecosysteem en planningstijdlijn voor 2026-2027.

Blake Crosley

Mar 29, 2026 7 min read Disclaimer

CXL 4.0 Infrastructuurplanningsgids: Memory Pooling voor AI op Schaal

13 december 2025

Update december 2025: Het CXL Consortium heeft CXL 4.0 uitgebracht op 18 november 2025, met een verdubbeling van de bandbreedte naar 128 GT/s via PCIe 7.0 en de introductie van gebundelde poorten voor 1,5 TB/s verbindingen. Deze gids behandelt implementatieplanning voor organisaties die zich voorbereiden op CXL-gebaseerde memory pooling in hun AI-infrastructuur.

Samenvatting

CXL 4.0 maakt memory pooling mogelijk op ongekende schaal, waardoor AI-inferentieworkloads toegang krijgen tot meer dan 100 terabytes aan gedeeld geheugen met cache-coherentie over meerdere racks. De gebundelde poorten van de specificatie aggregeren meerdere fysieke verbindingen tot enkele logische koppelingen met 1,5 TB/s bandbreedte. Voor infrastructuurplanners draaien de belangrijkste beslissingen om het begrijpen wanneer CXL te adopteren (2026-2027 voor productie), welke producten nu te evalueren (CXL 2.0/3.0 switches worden al geleverd), en hoe CXL NVLink en UALink aanvult in plaats van vervangt. Deze gids biedt de technische diepgang en besliskaders die nodig zijn om CXL-implementaties te plannen.

Het Memory Wall Probleem

Grote taalmodellen stuiten op een fundamentele beperking: GPU-geheugencapaciteit. Moderne AI-inferentieworkloads overschrijden routinematig 80-120 GB per GPU, en de key-value (KV) cache groeit met de contextlengte.[^1] Een enkele inferentieverzoek met een contextvenster van 128K kan tientallen gigabytes verbruiken alleen voor KV-cacheopslag.

Het probleem intensiveert op schaal. Modelgewichten voor frontier LLM's verbruiken honderden gigabytes. KV-cachevereisten groeien lineair met zowel batchgrootte als sequentielengte. GPU VRAM blijft vast op 80GB (H100) of 192GB (B200).[^2]

Traditionele oplossingen schieten tekort:

Aanpak	Beperking
Meer GPU's toevoegen	Lineaire kostentoename, geheugen nog steeds geïsoleerd per GPU
NVMe offloading	~100 μs latentie, 100x langzamer dan DRAM
RDMA-gebaseerd delen	Nog steeds 10-20 μs latentie, complexe netwerken
Groter GPU-geheugen	Beperkt aanbod, duur

CXL verandert deze vergelijking door memory pooling mogelijk te maken met DRAM-achtige latentie (200-500 ns) door het hele datacenter.[^3]

CXL 4.0 Technische Diepgang

Evolutie van CXL 1.0 naar 4.0

CXL is snel gerijpt sinds de introductie in 2019. Elke generatie breidde de mogelijkheden uit:

Generatie	Release	PCIe Basis	Snelheid	Belangrijkste Vooruitgang
CXL 1.0/1.1	2019/2020	PCIe 5.0	32 GT/s	Basis coherent memory attach
CXL 2.0	2022	PCIe 5.0	32 GT/s	Switching, memory pooling, multi-device
CXL 3.0/3.1	2023/2024	PCIe 6.0	64 GT/s	Fabric-ondersteuning, peer-to-peer, 4.096 nodes
CXL 4.0	Nov 2025	PCIe 7.0	128 GT/s	Gebundelde poorten, multi-rack, verbeterde RAS

CXL 2.0 introduceerde het fundamentele concept van memory pooling. Meerdere Type 3 geheugenapparaten verbinden met een switch, waardoor een gedeelde pool ontstaat waaruit de switch dynamisch resources toewijst aan verschillende hosts.[^4] Dit maakt verbeteringen in geheugengebruik mogelijk van typische 50-60% naar 85%+ over een cluster.

CXL 3.0 voegde fabricmogelijkheden toe die multi-level switching en tot 4.096 nodes met port-based routing (PBR) ondersteunen.[^5] De verschuiving naar 256-byte FLIT's en de 64 GT/s van PCIe 6.0 verdubbelde de beschikbare bandbreedte.

CXL 4.0 verdubbelt de bandbreedte opnieuw terwijl het functies introduceert die cruciaal zijn voor multi-rack AI-implementaties.

Gebundelde Poorten Architectuur

De belangrijkste functie van CXL 4.0 voor high-performance computing: gebundelde poorten aggregeren meerdere fysieke CXL-apparaatpoorten tot een enkele logische entiteit.[^6]

Hoe gebundelde poorten werken:

Een host en Type 1/2 apparaat combineren meerdere fysieke poorten
Systeemsoftware ziet een enkel apparaat ondanks meerdere fysieke verbindingen
Bandbreedte aggregeert over alle gebundelde poorten
Geoptimaliseerd voor 256-byte FLIT-modus, elimineert legacy overhead

Bandbreedteberekeningen:

Configuratie	Richting	Bandbreedte
Enkele x16 poort @ 128 GT/s	Unidirectioneel	256 GB/s
Enkele x16 poort @ 128 GT/s	Bidirectioneel	512 GB/s
3 gebundelde x16 poorten @ 128 GT/s	Unidirectioneel	768 GB/s
3 gebundelde x16 poorten @ 128 GT/s	Bidirectioneel	1.536 GB/s

Ter context: HBM3e-geheugen op een H200 levert 4,8 TB/s bandbreedte.[^7] Een gebundelde CXL 4.0-verbinding van 1,5 TB/s vertegenwoordigt ongeveer 30% van die bandbreedte—voldoende voor veel geheugenuitbreidingsscenario's waar capaciteit belangrijker is dan piekbandbreedte.

PCIe 7.0 Fundament

CXL 4.0 bouwt voort op de verbeteringen in de fysieke laag van PCIe 7.0:[^8]

128 GT/s overdrachtssnelheid: Dubbel de 64 GT/s van PCIe 6.0
PAM4-signalering: Hetzelfde coderingsschema als PCIe 6.0
Verbeterde FEC: Forward error correction voor signaalintegriteit
Optische ondersteuning: Maakt langere verbindingen mogelijk

De specificatie behoudt het 256-byte FLIT-formaat van CXL 3.x terwijl een latentie-geoptimaliseerde variant wordt toegevoegd voor tijdgevoelige operaties.[^9]

Multi-Rack Fabric Mogelijkheden

CXL 4.0 vergroot het bereik via twee mechanismen:

Vier retimers ondersteund: Vorige generaties stonden twee retimers toe. Vier retimers maken langere fysieke verbindingen mogelijk die meerdere racks overspannen zonder signaalverlies.[^10]

Native x2-breedte: Voorheen een gedegradeerde fallback-modus, werken x2-links nu op volledige prestaties. Dit maakt configuraties met hogere fan-out mogelijk waarbij veel verbindingen met lagere bandbreedte meer eindpunten bedienen.[^11]

Deze functies combineren om "multi-rack memory pooling" mogelijk te maken—een mogelijkheid die het CXL Consortium expliciet richt op productie-implementatie in laat 2026-2027.[^12]

CXL Toepassingen voor AI-Infrastructuur

KV-Cache Offloading voor LLM-Inferentie

De meest impactvolle toepassing op korte termijn: offloading van KV-cache van GPU VRAM naar CXL-gekoppeld geheugen.

Het probleem: LLM-inferentie met lange contexten genereert enorme KV-caches. Een model met 70B parameters met 128K context en batchgrootte 32 kan meer dan 150 GB nodig hebben alleen voor KV-cache.[^13] Dit overschrijdt H100 VRAM, wat dure batchgrootte-reducties of meerdere GPU's afdwingt.

De CXL-oplossing: Sla KV-cache op in gepoold CXL-geheugen terwijl hot layers in GPU VRAM blijven. XConn en MemVerge demonstreerden dit op SC25 en OCP 2025:[^14]

Twee H100 GPU's (elk 80GB) met OPT-6.7B
KV-cache ge-offload naar gedeelde CXL-geheugenpool
3,8x versnelling vs 200G RDMA
6,5x versnelling vs 100G RDMA
>5x verbetering vs SSD-gebaseerde KV-cache

Academisch onderzoek bevestigt de kans. PNM-KV (Processing-Near-Memory voor KV-cache) bereikt tot 21,9x doorvoerverbetering door token page selection te offloaden naar accelerators binnen CXL-geheugen.[^15]

Geheugenuitbreiding voor Training

Trainingsworkloads profiteren van uitgebreide geheugencapaciteit voor:

Grotere batchgroottes: Meer samples per iteratie zonder gradient accumulation
Reductie van activation checkpointing: Sla meer activaties op in geheugen vs herberekening
Optimizer state: Adam optimizer vereist 2x parameters voor momentum/variance

CXL-geheugenuitbreiding maakt trainingsconfiguraties mogelijk die voorheen multi-node distributie vereisten om op enkele nodes te draaien, waardoor communicatie-overhead wordt verminderd.

Wetenschappelijke en HPC-Workloads

PNNL's Crete-project gebruikt CXL-pools voor high-throughput memory sharing over computenodes in wetenschappelijke simulaties.[^16] Toepassingen omvatten:

Moleculaire dynamica met grote neighbor lists
Grafiekanalyse op datasets met biljoenen edges
In-memory databases die single-server capaciteit overschrijden

Het Interconnect Landschap

CXL vs NVLink vs UALink

Om te begrijpen waar CXL past, moet worden erkend dat deze technologieën verschillende doelen dienen:

Standaard	Primair Doel	Beste Voor
CXL	Geheugencoherentie + pooling	CPU-geheugenuitbreiding, gedeelde geheugenpools
NVLink	GPU-naar-GPU schaling	Intra-node GPU-communicatie
UALink	Accelerator interconnect	Open standaard alternatief voor NVLink
Ultra Ethernet	Scale-out netwerken	Multi-rack, 10.000+ eindpunten

CXL draait op PCIe SerDes: lagere foutpercentage, lagere latentie, maar lagere bandbreedte dan de Ethernet-stijl SerDes van NVLink/UALink.[^17] NVLink 5 levert 1,8 TB/s per GPU—ruim boven de 512 GB/s per x16-poort van CXL 4.0.[^18]

De technologieën vullen elkaar aan in plaats van te concurreren:

Binnen een GPU-node: NVLink verbindt GPU's
Tussen nodes: UALink of InfiniBand/Ethernet
Geheugenuitbreiding: CXL voegt capaciteit toe aan CPU's en accelerators
Fabric-brede geheugenpools: CXL-switches maken delen over hosts mogelijk

Panmnesia stelt "CXL-over-XLink"-architecturen voor die alle drie integreren, met 5,3x snellere AI-training en 6x inferentielatentiereductie vs PCIe/RDMA-baselines.[^19]

Besliskader: Wanneer Wat te Gebruiken

Scenario	Aanbevolen Interconnect	Rationale
Multi-GPU training binnen server	NVLink	Hoogste bandbreedte, laagste latentie
Multi-GPU inferentiepod (niet-NVIDIA)	UALink	Open standaard, hoge bandbreedte
Geheugen uitbreiden voorbij VRAM	CXL	Cache-coherentie, DRAM-achtige latentie
Multi-rack GPU-cluster	InfiniBand of Ultra Ethernet	Ontworpen voor scale-out
Gedeelde geheugenpool over servers	CXL-switches	Memory pooling met coherentie
China/beperkte markten	Overweeg UB-Mesh	Vermijdt westerse IP-afhankelijkheden

CXL Ecosysteem: Leveranciers en Producten

Memory Expanders

De drie grote DRAM-fabrikanten leveren allemaal CXL memory expanders:

Leverancier	Product	Capaciteit	Interface	Status
Samsung	CMM-D	256 GB	CXL 2.0	Massaproductie 2025[^20]
SK Hynix	CMM-DDR5	128 GB	CXL 2.0	Massaproductie laat 2024[^21]
Micron	CZ120	256 GB	CXL 2.0	Sampling[^22]
SK Hynix	CMS	512 GB	CXL (compute-enabled)	Aangekondigd[^23]

SK Hynix's CMS (Computational Memory Solution) voegt rekenmogelijkheden direct toe in de geheugenmodule—een vroege implementatie van processing-near-memory voor CXL.

Switch-Leveranciers

CXL-switches maken memory pooling mogelijk over meerdere hosts:

Leverancier	Product	Generatie	Status	Belangrijkste Functie
XConn	XC50256	CXL 2.0	Leverbaar	256-lane switch, eerste op de markt[^24]
XConn	Apollo	CXL 2.0	Leverbaar	Memory pooling demonstraties op SC25[^25]
Panmnesia	Fabric Switch	CXL 3.2	Sampling nov 2025	Eerste PBR-implementatie[^26]
Astera Labs	Leo	CXL 2.0	Leverbaar	Smart memory controller[^27]
Microchip	SMC 2000	CXL 2.0	Leverbaar	Memory expansion controller[^28]

Panmnesia's CXL 3.2 Fabric Switch vertegenwoordigt een generatiesprong: eerste silicium dat port-based routing implementeert voor echte fabric-architecturen met tot 4.096 nodes.[^29]

Controller-Leveranciers

CXL memory controllers vertalen tussen CXL-protocol en DRAM:

Leverancier	Rol	Belangrijkste Producten
Marvell	Controller	Structera CXL controllers[^30]
Montage	Controller	CXL memory buffer chips
Astera Labs	Controller	Leo smart memory controller
Microchip	Controller	SMC 2000-serie

Marvell's Structera voltooide interoperabiliteitstesten met alle drie grote geheugenleveranciers (Samsung, Micron, SK Hynix) op zowel Intel- als AMD-platforms.[^31]

Implementatieplanningsgids

Tijdlijn

Periode	CXL-Generatie	Verwachte Mogelijkheid	Aanbeveling
Nu-Q2 2026	CXL 2.0	Geheugenuitbreiding, basis pooling	Productie-evaluatie
Q3 2026-Q4 2026	CXL 3.0/3.1	Fabric, peer-to-peer, 4K nodes	Vroege adoptie voor AI
2027+	CXL 4.0	Multi-rack pooling, 1,5 TB/s	Planning begint nu

ABI Research verwacht CXL 3.0/3.1-oplossingen met voldoende softwareondersteuning voor commerciële adoptie tegen 2027.[^32]

Wat Nu te Evalueren

Onmiddellijk (2025): 1. Test CXL 2.0 memory expanders op bestaande Intel Sapphire Rapids of AMD EPYC Genoa servers 2. Evalueer XConn of Astera Labs switches voor memory p

[Inhoud afgekapt voor vertaling]

CXL 4.0 Infrastructuurplanningsgids: Memory Pooling voor AI op Schaal

Samenvatting

Het Memory Wall Probleem

CXL 4.0 Technische Diepgang

Evolutie van CXL 1.0 naar 4.0

Gebundelde Poorten Architectuur

PCIe 7.0 Fundament

Multi-Rack Fabric Mogelijkheden

CXL Toepassingen voor AI-Infrastructuur

KV-Cache Offloading voor LLM-Inferentie

Geheugenuitbreiding voor Training

Wetenschappelijke en HPC-Workloads

Het Interconnect Landschap

CXL vs NVLink vs UALink

Besliskader: Wanneer Wat te Gebruiken

CXL Ecosysteem: Leveranciers en Producten

Memory Expanders

Switch-Leveranciers

Controller-Leveranciers

Implementatieplanningsgids

Tijdlijn

Wat Nu te Evalueren

You Might Also Like

Maleisië en Thailand: Opkomende AI-datacentercentra in Zuido...

Singapore's $27 miljard AI-infrastructuurboom: Kansen voor d...

Backup en Recovery voor AI: Bescherming van Petabyte-Schaal ...

Offerte aanvragen_

Aanvraag Ontvangen_