CXL 4.0 Infrastructuurplanningsgids: Memory Pooling voor AI op Schaal

Volledige CXL 4.0 implementatiegids met gebundelde poorten, multi-rack memory pooling, KV-cache offloading, leveranciersecosysteem en planningstijdlijn voor 2026-2027.

CXL 4.0 Infrastructuurplanningsgids: Memory Pooling voor AI op Schaal

CXL 4.0 Infrastructuurplanningsgids: Memory Pooling voor AI op Schaal

13 december 2025

Update december 2025: Het CXL Consortium heeft CXL 4.0 uitgebracht op 18 november 2025, met een verdubbeling van de bandbreedte naar 128 GT/s via PCIe 7.0 en de introductie van gebundelde poorten voor 1,5 TB/s verbindingen. Deze gids behandelt implementatieplanning voor organisaties die zich voorbereiden op CXL-gebaseerde memory pooling in hun AI-infrastructuur.


Samenvatting

CXL 4.0 maakt memory pooling mogelijk op ongekende schaal, waardoor AI-inferentieworkloads toegang krijgen tot meer dan 100 terabytes aan gedeeld geheugen met cache-coherentie over meerdere racks. De gebundelde poorten van de specificatie aggregeren meerdere fysieke verbindingen tot enkele logische koppelingen met 1,5 TB/s bandbreedte. Voor infrastructuurplanners draaien de belangrijkste beslissingen om het begrijpen wanneer CXL te adopteren (2026-2027 voor productie), welke producten nu te evalueren (CXL 2.0/3.0 switches worden al geleverd), en hoe CXL NVLink en UALink aanvult in plaats van vervangt. Deze gids biedt de technische diepgang en besliskaders die nodig zijn om CXL-implementaties te plannen.


Het Memory Wall Probleem

Grote taalmodellen stuiten op een fundamentele beperking: GPU-geheugencapaciteit. Moderne AI-inferentieworkloads overschrijden routinematig 80-120 GB per GPU, en de key-value (KV) cache groeit met de contextlengte.[^1] Een enkele inferentieverzoek met een contextvenster van 128K kan tientallen gigabytes verbruiken alleen voor KV-cacheopslag.

Het probleem intensiveert op schaal. Modelgewichten voor frontier LLM's verbruiken honderden gigabytes. KV-cachevereisten groeien lineair met zowel batchgrootte als sequentielengte. GPU VRAM blijft vast op 80GB (H100) of 192GB (B200).[^2]

Traditionele oplossingen schieten tekort:

Aanpak Beperking
Meer GPU's toevoegen Lineaire kostentoename, geheugen nog steeds geïsoleerd per GPU
NVMe offloading ~100 μs latentie, 100x langzamer dan DRAM
RDMA-gebaseerd delen Nog steeds 10-20 μs latentie, complexe netwerken
Groter GPU-geheugen Beperkt aanbod, duur

CXL verandert deze vergelijking door memory pooling mogelijk te maken met DRAM-achtige latentie (200-500 ns) door het hele datacenter.[^3]


CXL 4.0 Technische Diepgang

Evolutie van CXL 1.0 naar 4.0

CXL is snel gerijpt sinds de introductie in 2019. Elke generatie breidde de mogelijkheden uit:

Generatie Release PCIe Basis Snelheid Belangrijkste Vooruitgang
CXL 1.0/1.1 2019/2020 PCIe 5.0 32 GT/s Basis coherent memory attach
CXL 2.0 2022 PCIe 5.0 32 GT/s Switching, memory pooling, multi-device
CXL 3.0/3.1 2023/2024 PCIe 6.0 64 GT/s Fabric-ondersteuning, peer-to-peer, 4.096 nodes
CXL 4.0 Nov 2025 PCIe 7.0 128 GT/s Gebundelde poorten, multi-rack, verbeterde RAS

CXL 2.0 introduceerde het fundamentele concept van memory pooling. Meerdere Type 3 geheugenapparaten verbinden met een switch, waardoor een gedeelde pool ontstaat waaruit de switch dynamisch resources toewijst aan verschillende hosts.[^4] Dit maakt verbeteringen in geheugengebruik mogelijk van typische 50-60% naar 85%+ over een cluster.

CXL 3.0 voegde fabricmogelijkheden toe die multi-level switching en tot 4.096 nodes met port-based routing (PBR) ondersteunen.[^5] De verschuiving naar 256-byte FLIT's en de 64 GT/s van PCIe 6.0 verdubbelde de beschikbare bandbreedte.

CXL 4.0 verdubbelt de bandbreedte opnieuw terwijl het functies introduceert die cruciaal zijn voor multi-rack AI-implementaties.

Gebundelde Poorten Architectuur

De belangrijkste functie van CXL 4.0 voor high-performance computing: gebundelde poorten aggregeren meerdere fysieke CXL-apparaatpoorten tot een enkele logische entiteit.[^6]

Hoe gebundelde poorten werken:

  1. Een host en Type 1/2 apparaat combineren meerdere fysieke poorten
  2. Systeemsoftware ziet een enkel apparaat ondanks meerdere fysieke verbindingen
  3. Bandbreedte aggregeert over alle gebundelde poorten
  4. Geoptimaliseerd voor 256-byte FLIT-modus, elimineert legacy overhead

Bandbreedteberekeningen:

Configuratie Richting Bandbreedte
Enkele x16 poort @ 128 GT/s Unidirectioneel 256 GB/s
Enkele x16 poort @ 128 GT/s Bidirectioneel 512 GB/s
3 gebundelde x16 poorten @ 128 GT/s Unidirectioneel 768 GB/s
3 gebundelde x16 poorten @ 128 GT/s Bidirectioneel 1.536 GB/s

Ter context: HBM3e-geheugen op een H200 levert 4,8 TB/s bandbreedte.[^7] Een gebundelde CXL 4.0-verbinding van 1,5 TB/s vertegenwoordigt ongeveer 30% van die bandbreedte—voldoende voor veel geheugenuitbreidingsscenario's waar capaciteit belangrijker is dan piekbandbreedte.

PCIe 7.0 Fundament

CXL 4.0 bouwt voort op de verbeteringen in de fysieke laag van PCIe 7.0:[^8]

  • 128 GT/s overdrachtssnelheid: Dubbel de 64 GT/s van PCIe 6.0
  • PAM4-signalering: Hetzelfde coderingsschema als PCIe 6.0
  • Verbeterde FEC: Forward error correction voor signaalintegriteit
  • Optische ondersteuning: Maakt langere verbindingen mogelijk

De specificatie behoudt het 256-byte FLIT-formaat van CXL 3.x terwijl een latentie-geoptimaliseerde variant wordt toegevoegd voor tijdgevoelige operaties.[^9]

Multi-Rack Fabric Mogelijkheden

CXL 4.0 vergroot het bereik via twee mechanismen:

Vier retimers ondersteund: Vorige generaties stonden twee retimers toe. Vier retimers maken langere fysieke verbindingen mogelijk die meerdere racks overspannen zonder signaalverlies.[^10]

Native x2-breedte: Voorheen een gedegradeerde fallback-modus, werken x2-links nu op volledige prestaties. Dit maakt configuraties met hogere fan-out mogelijk waarbij veel verbindingen met lagere bandbreedte meer eindpunten bedienen.[^11]

Deze functies combineren om "multi-rack memory pooling" mogelijk te maken—een mogelijkheid die het CXL Consortium expliciet richt op productie-implementatie in laat 2026-2027.[^12]


CXL Toepassingen voor AI-Infrastructuur

KV-Cache Offloading voor LLM-Inferentie

De meest impactvolle toepassing op korte termijn: offloading van KV-cache van GPU VRAM naar CXL-gekoppeld geheugen.

Het probleem: LLM-inferentie met lange contexten genereert enorme KV-caches. Een model met 70B parameters met 128K context en batchgrootte 32 kan meer dan 150 GB nodig hebben alleen voor KV-cache.[^13] Dit overschrijdt H100 VRAM, wat dure batchgrootte-reducties of meerdere GPU's afdwingt.

De CXL-oplossing: Sla KV-cache op in gepoold CXL-geheugen terwijl hot layers in GPU VRAM blijven. XConn en MemVerge demonstreerden dit op SC25 en OCP 2025:[^14]

  • Twee H100 GPU's (elk 80GB) met OPT-6.7B
  • KV-cache ge-offload naar gedeelde CXL-geheugenpool
  • 3,8x versnelling vs 200G RDMA
  • 6,5x versnelling vs 100G RDMA
  • >5x verbetering vs SSD-gebaseerde KV-cache

Academisch onderzoek bevestigt de kans. PNM-KV (Processing-Near-Memory voor KV-cache) bereikt tot 21,9x doorvoerverbetering door token page selection te offloaden naar accelerators binnen CXL-geheugen.[^15]

Geheugenuitbreiding voor Training

Trainingsworkloads profiteren van uitgebreide geheugencapaciteit voor:

  • Grotere batchgroottes: Meer samples per iteratie zonder gradient accumulation
  • Reductie van activation checkpointing: Sla meer activaties op in geheugen vs herberekening
  • Optimizer state: Adam optimizer vereist 2x parameters voor momentum/variance

CXL-geheugenuitbreiding maakt trainingsconfiguraties mogelijk die voorheen multi-node distributie vereisten om op enkele nodes te draaien, waardoor communicatie-overhead wordt verminderd.

Wetenschappelijke en HPC-Workloads

PNNL's Crete-project gebruikt CXL-pools voor high-throughput memory sharing over computenodes in wetenschappelijke simulaties.[^16] Toepassingen omvatten:

  • Moleculaire dynamica met grote neighbor lists
  • Grafiekanalyse op datasets met biljoenen edges
  • In-memory databases die single-server capaciteit overschrijden

Het Interconnect Landschap

Om te begrijpen waar CXL past, moet worden erkend dat deze technologieën verschillende doelen dienen:

Standaard Primair Doel Beste Voor
CXL Geheugencoherentie + pooling CPU-geheugenuitbreiding, gedeelde geheugenpools
NVLink GPU-naar-GPU schaling Intra-node GPU-communicatie
UALink Accelerator interconnect Open standaard alternatief voor NVLink
Ultra Ethernet Scale-out netwerken Multi-rack, 10.000+ eindpunten

CXL draait op PCIe SerDes: lagere foutpercentage, lagere latentie, maar lagere bandbreedte dan de Ethernet-stijl SerDes van NVLink/UALink.[^17] NVLink 5 levert 1,8 TB/s per GPU—ruim boven de 512 GB/s per x16-poort van CXL 4.0.[^18]

De technologieën vullen elkaar aan in plaats van te concurreren:

  • Binnen een GPU-node: NVLink verbindt GPU's
  • Tussen nodes: UALink of InfiniBand/Ethernet
  • Geheugenuitbreiding: CXL voegt capaciteit toe aan CPU's en accelerators
  • Fabric-brede geheugenpools: CXL-switches maken delen over hosts mogelijk

Panmnesia stelt "CXL-over-XLink"-architecturen voor die alle drie integreren, met 5,3x snellere AI-training en 6x inferentielatentiereductie vs PCIe/RDMA-baselines.[^19]

Besliskader: Wanneer Wat te Gebruiken

Scenario Aanbevolen Interconnect Rationale
Multi-GPU training binnen server NVLink Hoogste bandbreedte, laagste latentie
Multi-GPU inferentiepod (niet-NVIDIA) UALink Open standaard, hoge bandbreedte
Geheugen uitbreiden voorbij VRAM CXL Cache-coherentie, DRAM-achtige latentie
Multi-rack GPU-cluster InfiniBand of Ultra Ethernet Ontworpen voor scale-out
Gedeelde geheugenpool over servers CXL-switches Memory pooling met coherentie
China/beperkte markten Overweeg UB-Mesh Vermijdt westerse IP-afhankelijkheden

CXL Ecosysteem: Leveranciers en Producten

Memory Expanders

De drie grote DRAM-fabrikanten leveren allemaal CXL memory expanders:

Leverancier Product Capaciteit Interface Status
Samsung CMM-D 256 GB CXL 2.0 Massaproductie 2025[^20]
SK Hynix CMM-DDR5 128 GB CXL 2.0 Massaproductie laat 2024[^21]
Micron CZ120 256 GB CXL 2.0 Sampling[^22]
SK Hynix CMS 512 GB CXL (compute-enabled) Aangekondigd[^23]

SK Hynix's CMS (Computational Memory Solution) voegt rekenmogelijkheden direct toe in de geheugenmodule—een vroege implementatie van processing-near-memory voor CXL.

Switch-Leveranciers

CXL-switches maken memory pooling mogelijk over meerdere hosts:

Leverancier Product Generatie Status Belangrijkste Functie
XConn XC50256 CXL 2.0 Leverbaar 256-lane switch, eerste op de markt[^24]
XConn Apollo CXL 2.0 Leverbaar Memory pooling demonstraties op SC25[^25]
Panmnesia Fabric Switch CXL 3.2 Sampling nov 2025 Eerste PBR-implementatie[^26]
Astera Labs Leo CXL 2.0 Leverbaar Smart memory controller[^27]
Microchip SMC 2000 CXL 2.0 Leverbaar Memory expansion controller[^28]

Panmnesia's CXL 3.2 Fabric Switch vertegenwoordigt een generatiesprong: eerste silicium dat port-based routing implementeert voor echte fabric-architecturen met tot 4.096 nodes.[^29]

Controller-Leveranciers

CXL memory controllers vertalen tussen CXL-protocol en DRAM:

Leverancier Rol Belangrijkste Producten
Marvell Controller Structera CXL controllers[^30]
Montage Controller CXL memory buffer chips
Astera Labs Controller Leo smart memory controller
Microchip Controller SMC 2000-serie

Marvell's Structera voltooide interoperabiliteitstesten met alle drie grote geheugenleveranciers (Samsung, Micron, SK Hynix) op zowel Intel- als AMD-platforms.[^31]


Implementatieplanningsgids

Tijdlijn

Periode CXL-Generatie Verwachte Mogelijkheid Aanbeveling
Nu-Q2 2026 CXL 2.0 Geheugenuitbreiding, basis pooling Productie-evaluatie
Q3 2026-Q4 2026 CXL 3.0/3.1 Fabric, peer-to-peer, 4K nodes Vroege adoptie voor AI
2027+ CXL 4.0 Multi-rack pooling, 1,5 TB/s Planning begint nu

ABI Research verwacht CXL 3.0/3.1-oplossingen met voldoende softwareondersteuning voor commerciële adoptie tegen 2027.[^32]

Wat Nu te Evalueren

Onmiddellijk (2025): 1. Test CXL 2.0 memory expanders op bestaande Intel Sapphire Rapids of AMD EPYC Genoa servers 2. Evalueer XConn of Astera Labs switches voor memory p

[Inhoud afgekapt voor vertaling]

Offerte aanvragen_

Vertel ons over uw project en wij reageren binnen 72 uur.

> TRANSMISSIE_VOLTOOID

Aanvraag Ontvangen_

Bedankt voor uw aanvraag. Ons team zal uw verzoek beoordelen en binnen 72 uur reageren.

IN WACHTRIJ VOOR VERWERKING