CXL 4.0 Infrastructuur Planningshandleiding: Memory Pooling voor AI op Schaal

Complete CXL 4.0 implementatiehandleiding over gebundelde poorten, multi-rack memory pooling, KV cache offloading, leveranciersecosysteem, en 2026-2027 planningstijdlijn.

CXL 4.0 Infrastructuur Planningshandleiding: Memory Pooling voor AI op Schaal

CXL 4.0 Infrastructuur Planningshandleiding: Memory Pooling voor AI op Schaal

13 december 2025

December 2025 Update: Het CXL Consortium heeft CXL 4.0 uitgebracht op 18 november 2025, wat de bandbreedte verdubbelt naar 128 GT/s via PCIe 7.0 en gebundelde poorten introduceert voor 1,5 TB/s verbindingen. Deze handleiding behandelt implementatieplanning voor organisaties die zich voorbereiden op het implementeren van CXL-gebaseerde memory pooling in hun AI infrastructuur.


TL;DR

CXL 4.0 maakt memory pooling mogelijk op ongekende schaal, waardoor AI inference workloads toegang krijgen tot 100+ terabytes aan gedeeld geheugen met cache coherency over meerdere racks. De bundled ports van de specificatie aggregeren meerdere fysieke verbindingen tot enkele logische attachments die 1,5 TB/s bandbreedte leveren. Voor infrastructuurplanners liggen de belangrijkste beslissingen in het begrijpen wanneer CXL te adopteren (2026-2027 voor productie), welke producten nu te evalueren (CXL 2.0/3.0 switches shipping), en hoe CXL NVLink en UALink aanvult in plaats van vervangt. Deze handleiding biedt de technische diepte en beslissingskaders die nodig zijn om CXL implementaties te plannen.


Het Memory Wall Probleem

Grote taalmodellen stuiten op een fundamentele beperking: GPU memory capaciteit. Moderne AI inference workloads overschrijden routinematig 80-120 GB per GPU, en de key-value (KV) cache groeit met contextlengte.[^1] Een enkele inference request met een 128K context window kan tientallen gigabytes consumeren alleen al voor KV cache opslag.

Het probleem intensifieert op schaal. Model weights voor frontier LLMs consumeren honderden gigabytes. KV cache vereisten groeien lineair met zowel batch size als sequence length. GPU VRAM blijft gefixeerd op 80GB (H100) of 192GB (B200).[^2]

Traditionele oplossingen schieten tekort:

Aanpak Beperking
Meer GPUs toevoegen Lineaire kostenstijging, geheugen nog steeds geïsoleerd per GPU
NVMe offloading ~100 μs latency, 100x langzamer dan DRAM
RDMA-gebaseerd delen Nog steeds 10-20 μs latency, complex networking
Groter GPU geheugen Supply-constrained, duur

CXL verandert deze vergelijking door memory pooling mogelijk te maken met DRAM-achtige latency (200-500 ns) over het datacenter.[^3]


CXL 4.0 Technische Diepduik

Evolutie van CXL 1.0 naar 4.0

CXL is snel gerijpt sinds de introductie in 2019. Elke generatie breidde de mogelijkheden uit:

Generatie Release PCIe Base Snelheid Belangrijkste Vooruitgang
CXL 1.0/1.1 2019/2020 PCIe 5.0 32 GT/s Basic coherent memory attach
CXL 2.0 2022 PCIe 5.0 32 GT/s Switching, memory pooling, multi-device
CXL 3.0/3.1 2023/2024 PCIe 6.0 64 GT/s Fabric support, peer-to-peer, 4,096 nodes
CXL 4.0 Nov 2025 PCIe 7.0 128 GT/s Bundled ports, multi-rack, enhanced RAS

CXL 2.0 introduceerde het fundamentele concept van memory pooling. Meerdere Type 3 memory devices verbinden met een switch, waardoor een gedeelde pool ontstaat waaruit de switch dynamisch resources toewijst aan verschillende hosts.[^4] Dit maakt verbeteringen in geheugenbenutting mogelijk van typisch 50-60% naar 85%+ over een cluster.

CXL 3.0 voegde fabric mogelijkheden toe die multi-level switching ondersteunen en tot 4,096 nodes met port-based routing (PBR).[^5] De verschuiving naar 256-byte FLITs en PCIe 6.0's 64 GT/s verdubbelde de beschikbare bandbreedte.

CXL 4.0 verdubbelt de bandbreedte opnieuw terwijl het features introduceert die cruciaal zijn voor multi-rack AI implementaties.

Bundled Ports Architectuur

CXL 4.0's meest significante feature voor high-performance computing: bundled ports aggregeren meerdere fysieke CXL device ports tot een enkele logische entiteit.[^6]

Hoe bundled ports werken:

  1. Een host en Type 1/2 device combineren meerdere fysieke ports
  2. System software ziet een enkel device ondanks meerdere fysieke verbindingen
  3. Bandbreedte aggregeert over alle bundled ports
  4. Geoptimaliseerd voor 256-byte FLIT mode, elimineert legacy overhead

Bandbreedte berekeningen:

Configuratie Richting Bandbreedte
Enkele x16 port @ 128 GT/s Unidirectioneel 256 GB/s
Enkele x16 port @ 128 GT/s Bidirectioneel 512 GB/s
3 bundled x16 ports @ 128 GT/s Unidirectioneel 768 GB/s
3 bundled x16 ports @ 128 GT/s Bidirectioneel 1,536 GB/s

Ter context, HBM3e memory op een H200 levert 4,8 TB/s bandbreedte.[^7] Een bundled CXL 4.0 verbinding op 1,5 TB/s vertegenwoordigt ongeveer 30% van die bandbreedte—voldoende voor veel memory expansion use cases waar capaciteit belangrijker is dan piekbandbreedte.

PCIe 7.0 Foundation

CXL 4.0 bouwt voort op PCIe 7.0's physical layer verbeteringen:[^8]

  • 128 GT/s transfer rate: Dubbel de 64 GT/s van PCIe 6.0
  • PAM4 signaling: Zelfde encoding scheme als PCIe 6.0
  • Verbeterde FEC: Forward error correction voor signaalintegriteit
  • Optische ondersteuning: Maakt langere verbindingen mogelijk

De specificatie behoudt het 256-byte FLIT formaat van CXL 3.x terwijl het een latency-geoptimaliseerde variant toevoegt voor tijdgevoelige operaties.[^9]

Multi-Rack Fabric Mogelijkheden

CXL 4.0 breidt het bereik uit via twee mechanismen:

Vier retimers ondersteund: Vorige generaties stonden twee retimers toe. Vier retimers maken langere fysieke verbindingen mogelijk die meerdere racks overspannen zonder signaaldegradatie.[^10]

Native x2 breedte: Voorheen een gedegradeerde fallback mode, x2 links werken nu op volledige prestaties. Dit maakt hogere fan-out configuraties mogelijk waar veel lagere-bandbreedte verbindingen meer endpoints bedienen.[^11]

Deze features combineren om "multi-rack memory pooling" mogelijk te maken—een mogelijkheid die het CXL Consortium expliciet richt op late 2026-2027 productie implementatie.[^12]


CXL Use Cases voor AI Infrastructuur

KV Cache Offloading voor LLM Inference

De hoogste impact nabije termijn use case: offloading van KV cache van GPU VRAM naar CXL-attached memory.

Het probleem: LLM inference met lange contexten genereert massieve KV caches. Een 70B parameter model met 128K context en batch size 32 kan 150+ GB nodig hebben alleen al voor KV cache.[^13] Dit overschrijdt H100 VRAM, wat dure batch size reducties of meerdere GPUs forceert.

De CXL oplossing: Sla KV cache op in pooled CXL memory terwijl hot layers in GPU VRAM blijven. XConn en MemVerge demonstreerden dit op SC25 en OCP 2025:[^14]

  • Twee H100 GPUs (80GB elk) draaiend OPT-6.7B
  • KV cache offloaded naar gedeelde CXL memory pool
  • 3.8x speedup vs 200G RDMA
  • 6.5x speedup vs 100G RDMA
  • >5x verbetering vs SSD-gebaseerde KV cache

Onderzoek van universiteiten bevestigt de kans. PNM-KV (Processing-Near-Memory voor KV cache) behaalt tot 21,9x throughput verbetering door token page selectie te offloaden naar accelerators binnen CXL memory.[^15]

Memory Expansion voor Training

Training workloads profiteren van uitgebreide memory capaciteit voor:

  • Grotere batch sizes: Meer samples per iteratie zonder gradient accumulation
  • Activation checkpointing reductie: Sla meer activations op in memory vs recomputation
  • Optimizer state: Adam optimizer vereist 2x parameters voor momentum/variance

CXL memory expansion maakt training configuraties mogelijk die voorheen multi-node distributie vereisten om op enkele nodes te draaien, wat communicatie overhead reduceert.

Scientific en HPC Workloads

PNNL's Crete project gebruikt CXL pools voor high-throughput memory sharing over compute nodes in wetenschappelijke simulaties.[^16] Use cases omvatten:

  • Molecular dynamics met grote neighbor lists
  • Graph analytics op trillion-edge datasets
  • In-memory databases die single-server capaciteit overschrijden

Het Interconnect Landschap

Begrijpen waar CXL past vereist erkenning dat deze technologieën verschillende doelen dienen:

Standard Primair Doel Best Voor
CXL Memory coherency + pooling CPU-memory expansion, gedeelde memory pools
NVLink GPU-to-GPU scaling Within-node GPU communicatie
UALink Accelerator interconnect Open standard alternatief voor NVLink
Ultra Ethernet Scale-out networking Multi-rack, 10,000+ endpoints

CXL draait op PCIe SerDes: lagere error rate, lagere latency, maar lagere bandbreedte dan NVLink/UALink's Ethernet-style SerDes.[^17] NVLink 5 levert 1,8 TB/s per GPU—ver boven CXL 4.0's 512 GB/s per x16 port.[^18]

De technologieën vullen elkaar aan in plaats van te concurreren:

  • Binnen een GPU node: NVLink verbindt GPUs
  • Tussen nodes: UALink of InfiniBand/Ethernet
  • Memory expansion: CXL voegt capaciteit toe aan CPUs en accelerators
  • Fabric-wide memory pools: CXL switches maken delen mogelijk over hosts

Panmnesia stelt "CXL-over-XLink" architecturen voor die alle drie integreren, rapporterend 5,3x snellere AI training en 6x inference latency reductie vs PCIe/RDMA baselines.[^19]

Beslissingskader: Wanneer Wat te Gebruiken

Scenario Aanbevolen Interconnect Rationale
Multi-GPU training binnen server NVLink Hoogste bandbreedte, laagste latency
Multi-GPU inference pod (non-NVIDIA) UALink Open standard, hoge bandbreedte
Breid geheugen uit voorbij VRAM CXL Cache coherency, DRAM-achtige latency
Multi-rack GPU cluster InfiniBand of Ultra Ethernet Ontworpen voor scale-out
Gedeelde memory pool over servers CXL switches Memory pooling met coherency
China/beperkte markten Overweeg UB-Mesh Vermijdt Westerse IP afhankelijkheden

CXL Ecosysteem: Leveranciers en Producten

Memory Expanders

De drie grote DRAM fabrikanten leveren allemaal CXL memory expanders:

Leverancier Product Capaciteit Interface Status
Samsung CMM-D 256 GB CXL 2.0 Massaproductie 2025[^20]
SK Hynix CMM-DDR5 128 GB CXL 2.0 Massaproductie eind 2024[^21]
Micron CZ120 256 GB CXL 2.0 Sampling[^22]
SK Hynix CMS 512 GB CXL (compute-enabled) Aangekondigd[^23]

SK Hynix's CMS (Computational Memory Solution) voegt compute mogelijkheden direct toe in de memory module—een vroege implementatie van processing-near-memory voor CXL.

Switch Leveranciers

CXL switches maken memory pooling mogelijk over meerdere hosts:

Leverancier Product Generatie Status Belangrijkste Feature
XConn XC50256 CXL 2.0 Shipping 256-lane switch, eerste op markt[^24]
XConn Apollo CXL 2.0 Shipping Memory pooling demonstraties op SC25[^25]
Panmnesia Fabric Switch CXL 3.2 Sampling Nov 2025 Eerste PBR implementatie[^26]
Astera Labs Leo CXL 2.0 Shipping Smart memory controller[^27]
Microchip SMC 2000 CXL 2.0 Shipping Memory expansion controller[^28]

Panmnesia's CXL 3.2 Fabric Switch vertegenwoordigt een generatiesprong: eerste silicium dat port-based routing implementeert voor echte fabric architecturen met tot 4,096 nodes.[^29]

Controller Leveranciers

CXL memory controllers vertalen tussen CXL protocol en DRAM:

Leverancier Rol Belangrijkste Producten
Marvell Controller Structera CXL controllers[^30]
Montage Controller CXL memory buffer chips
Astera Labs Controller Leo smart memory controller
Microchip Controller SMC 2000 serie

Marvell's Structera voltooide interoperability testing met alle drie grote memory leveranciers (Samsung, Micron, SK Hynix) op zowel Intel als AMD platforms.[^31]


Implementatie Planningshandleiding

Tijdlijn

Periode CXL Generatie Verwachte Mogelijkheid Aanbeveling
Nu-Q2 2026 CXL 2.0 Memory expansion, basis pooling Productie evaluatie
Q3 2026-Q4 2026 CXL 3.0/3.1 Fabric, peer-to-peer, 4K nodes Vroege adoptie voor AI
2027+ CXL 4.0 Multi-rack pooling, 1,5 TB/s Planning begint nu

ABI Research verwacht CXL 3.0/3.1 oplossingen met voldoende software ondersteuning voor commerciële adoptie tegen 2027.[^32]

Wat Nu te Evalueren

Direct (2025): 1. Test CXL 2.0 memory expanders op bestaande Intel Sapphire Rapids of AMD EPYC Genoa servers 2. Evalueer XConn of Astera Labs switches voor memory p

Offerte aanvragen_

Vertel ons over uw project en wij reageren binnen 72 uur.

> TRANSMISSIE_VOLTOOID

Aanvraag Ontvangen_

Bedankt voor uw aanvraag. Ons team zal uw verzoek beoordelen en binnen 72 uur reageren.

IN WACHTRIJ VOOR VERWERKING