CXL 4.0 Infrastructuurplanningsgids: Memory Pooling voor AI op Schaal
13 december 2025
Update december 2025: Het CXL Consortium heeft CXL 4.0 uitgebracht op 18 november 2025, met een verdubbeling van de bandbreedte naar 128 GT/s via PCIe 7.0 en de introductie van gebundelde poorten voor 1,5 TB/s verbindingen. Deze gids behandelt implementatieplanning voor organisaties die zich voorbereiden op CXL-gebaseerde memory pooling in hun AI-infrastructuur.
Samenvatting
CXL 4.0 maakt memory pooling mogelijk op ongekende schaal, waardoor AI-inferentieworkloads toegang krijgen tot meer dan 100 terabytes aan gedeeld geheugen met cache-coherentie over meerdere racks. De gebundelde poorten van de specificatie aggregeren meerdere fysieke verbindingen tot enkele logische koppelingen met 1,5 TB/s bandbreedte. Voor infrastructuurplanners draaien de belangrijkste beslissingen om het begrijpen wanneer CXL te adopteren (2026-2027 voor productie), welke producten nu te evalueren (CXL 2.0/3.0 switches worden al geleverd), en hoe CXL NVLink en UALink aanvult in plaats van vervangt. Deze gids biedt de technische diepgang en besliskaders die nodig zijn om CXL-implementaties te plannen.
Het Memory Wall Probleem
Grote taalmodellen stuiten op een fundamentele beperking: GPU-geheugencapaciteit. Moderne AI-inferentieworkloads overschrijden routinematig 80-120 GB per GPU, en de key-value (KV) cache groeit met de contextlengte.[^1] Een enkele inferentieverzoek met een contextvenster van 128K kan tientallen gigabytes verbruiken alleen voor KV-cacheopslag.
Het probleem intensiveert op schaal. Modelgewichten voor frontier LLM's verbruiken honderden gigabytes. KV-cachevereisten groeien lineair met zowel batchgrootte als sequentielengte. GPU VRAM blijft vast op 80GB (H100) of 192GB (B200).[^2]
Traditionele oplossingen schieten tekort:
| Aanpak | Beperking |
|---|---|
| Meer GPU's toevoegen | Lineaire kostentoename, geheugen nog steeds geïsoleerd per GPU |
| NVMe offloading | ~100 μs latentie, 100x langzamer dan DRAM |
| RDMA-gebaseerd delen | Nog steeds 10-20 μs latentie, complexe netwerken |
| Groter GPU-geheugen | Beperkt aanbod, duur |
CXL verandert deze vergelijking door memory pooling mogelijk te maken met DRAM-achtige latentie (200-500 ns) door het hele datacenter.[^3]
CXL 4.0 Technische Diepgang
Evolutie van CXL 1.0 naar 4.0
CXL is snel gerijpt sinds de introductie in 2019. Elke generatie breidde de mogelijkheden uit:
| Generatie | Release | PCIe Basis | Snelheid | Belangrijkste Vooruitgang |
|---|---|---|---|---|
| CXL 1.0/1.1 | 2019/2020 | PCIe 5.0 | 32 GT/s | Basis coherent memory attach |
| CXL 2.0 | 2022 | PCIe 5.0 | 32 GT/s | Switching, memory pooling, multi-device |
| CXL 3.0/3.1 | 2023/2024 | PCIe 6.0 | 64 GT/s | Fabric-ondersteuning, peer-to-peer, 4.096 nodes |
| CXL 4.0 | Nov 2025 | PCIe 7.0 | 128 GT/s | Gebundelde poorten, multi-rack, verbeterde RAS |
CXL 2.0 introduceerde het fundamentele concept van memory pooling. Meerdere Type 3 geheugenapparaten verbinden met een switch, waardoor een gedeelde pool ontstaat waaruit de switch dynamisch resources toewijst aan verschillende hosts.[^4] Dit maakt verbeteringen in geheugengebruik mogelijk van typische 50-60% naar 85%+ over een cluster.
CXL 3.0 voegde fabricmogelijkheden toe die multi-level switching en tot 4.096 nodes met port-based routing (PBR) ondersteunen.[^5] De verschuiving naar 256-byte FLIT's en de 64 GT/s van PCIe 6.0 verdubbelde de beschikbare bandbreedte.
CXL 4.0 verdubbelt de bandbreedte opnieuw terwijl het functies introduceert die cruciaal zijn voor multi-rack AI-implementaties.
Gebundelde Poorten Architectuur
De belangrijkste functie van CXL 4.0 voor high-performance computing: gebundelde poorten aggregeren meerdere fysieke CXL-apparaatpoorten tot een enkele logische entiteit.[^6]
Hoe gebundelde poorten werken:
- Een host en Type 1/2 apparaat combineren meerdere fysieke poorten
- Systeemsoftware ziet een enkel apparaat ondanks meerdere fysieke verbindingen
- Bandbreedte aggregeert over alle gebundelde poorten
- Geoptimaliseerd voor 256-byte FLIT-modus, elimineert legacy overhead
Bandbreedteberekeningen:
| Configuratie | Richting | Bandbreedte |
|---|---|---|
| Enkele x16 poort @ 128 GT/s | Unidirectioneel | 256 GB/s |
| Enkele x16 poort @ 128 GT/s | Bidirectioneel | 512 GB/s |
| 3 gebundelde x16 poorten @ 128 GT/s | Unidirectioneel | 768 GB/s |
| 3 gebundelde x16 poorten @ 128 GT/s | Bidirectioneel | 1.536 GB/s |
Ter context: HBM3e-geheugen op een H200 levert 4,8 TB/s bandbreedte.[^7] Een gebundelde CXL 4.0-verbinding van 1,5 TB/s vertegenwoordigt ongeveer 30% van die bandbreedte—voldoende voor veel geheugenuitbreidingsscenario's waar capaciteit belangrijker is dan piekbandbreedte.
PCIe 7.0 Fundament
CXL 4.0 bouwt voort op de verbeteringen in de fysieke laag van PCIe 7.0:[^8]
- 128 GT/s overdrachtssnelheid: Dubbel de 64 GT/s van PCIe 6.0
- PAM4-signalering: Hetzelfde coderingsschema als PCIe 6.0
- Verbeterde FEC: Forward error correction voor signaalintegriteit
- Optische ondersteuning: Maakt langere verbindingen mogelijk
De specificatie behoudt het 256-byte FLIT-formaat van CXL 3.x terwijl een latentie-geoptimaliseerde variant wordt toegevoegd voor tijdgevoelige operaties.[^9]
Multi-Rack Fabric Mogelijkheden
CXL 4.0 vergroot het bereik via twee mechanismen:
Vier retimers ondersteund: Vorige generaties stonden twee retimers toe. Vier retimers maken langere fysieke verbindingen mogelijk die meerdere racks overspannen zonder signaalverlies.[^10]
Native x2-breedte: Voorheen een gedegradeerde fallback-modus, werken x2-links nu op volledige prestaties. Dit maakt configuraties met hogere fan-out mogelijk waarbij veel verbindingen met lagere bandbreedte meer eindpunten bedienen.[^11]
Deze functies combineren om "multi-rack memory pooling" mogelijk te maken—een mogelijkheid die het CXL Consortium expliciet richt op productie-implementatie in laat 2026-2027.[^12]
CXL Toepassingen voor AI-Infrastructuur
KV-Cache Offloading voor LLM-Inferentie
De meest impactvolle toepassing op korte termijn: offloading van KV-cache van GPU VRAM naar CXL-gekoppeld geheugen.
Het probleem: LLM-inferentie met lange contexten genereert enorme KV-caches. Een model met 70B parameters met 128K context en batchgrootte 32 kan meer dan 150 GB nodig hebben alleen voor KV-cache.[^13] Dit overschrijdt H100 VRAM, wat dure batchgrootte-reducties of meerdere GPU's afdwingt.
De CXL-oplossing: Sla KV-cache op in gepoold CXL-geheugen terwijl hot layers in GPU VRAM blijven. XConn en MemVerge demonstreerden dit op SC25 en OCP 2025:[^14]
- Twee H100 GPU's (elk 80GB) met OPT-6.7B
- KV-cache ge-offload naar gedeelde CXL-geheugenpool
- 3,8x versnelling vs 200G RDMA
- 6,5x versnelling vs 100G RDMA
- >5x verbetering vs SSD-gebaseerde KV-cache
Academisch onderzoek bevestigt de kans. PNM-KV (Processing-Near-Memory voor KV-cache) bereikt tot 21,9x doorvoerverbetering door token page selection te offloaden naar accelerators binnen CXL-geheugen.[^15]
Geheugenuitbreiding voor Training
Trainingsworkloads profiteren van uitgebreide geheugencapaciteit voor:
- Grotere batchgroottes: Meer samples per iteratie zonder gradient accumulation
- Reductie van activation checkpointing: Sla meer activaties op in geheugen vs herberekening
- Optimizer state: Adam optimizer vereist 2x parameters voor momentum/variance
CXL-geheugenuitbreiding maakt trainingsconfiguraties mogelijk die voorheen multi-node distributie vereisten om op enkele nodes te draaien, waardoor communicatie-overhead wordt verminderd.
Wetenschappelijke en HPC-Workloads
PNNL's Crete-project gebruikt CXL-pools voor high-throughput memory sharing over computenodes in wetenschappelijke simulaties.[^16] Toepassingen omvatten:
- Moleculaire dynamica met grote neighbor lists
- Grafiekanalyse op datasets met biljoenen edges
- In-memory databases die single-server capaciteit overschrijden
Het Interconnect Landschap
CXL vs NVLink vs UALink
Om te begrijpen waar CXL past, moet worden erkend dat deze technologieën verschillende doelen dienen:
| Standaard | Primair Doel | Beste Voor |
|---|---|---|
| CXL | Geheugencoherentie + pooling | CPU-geheugenuitbreiding, gedeelde geheugenpools |
| NVLink | GPU-naar-GPU schaling | Intra-node GPU-communicatie |
| UALink | Accelerator interconnect | Open standaard alternatief voor NVLink |
| Ultra Ethernet | Scale-out netwerken | Multi-rack, 10.000+ eindpunten |
CXL draait op PCIe SerDes: lagere foutpercentage, lagere latentie, maar lagere bandbreedte dan de Ethernet-stijl SerDes van NVLink/UALink.[^17] NVLink 5 levert 1,8 TB/s per GPU—ruim boven de 512 GB/s per x16-poort van CXL 4.0.[^18]
De technologieën vullen elkaar aan in plaats van te concurreren:
- Binnen een GPU-node: NVLink verbindt GPU's
- Tussen nodes: UALink of InfiniBand/Ethernet
- Geheugenuitbreiding: CXL voegt capaciteit toe aan CPU's en accelerators
- Fabric-brede geheugenpools: CXL-switches maken delen over hosts mogelijk
Panmnesia stelt "CXL-over-XLink"-architecturen voor die alle drie integreren, met 5,3x snellere AI-training en 6x inferentielatentiereductie vs PCIe/RDMA-baselines.[^19]
Besliskader: Wanneer Wat te Gebruiken
| Scenario | Aanbevolen Interconnect | Rationale |
|---|---|---|
| Multi-GPU training binnen server | NVLink | Hoogste bandbreedte, laagste latentie |
| Multi-GPU inferentiepod (niet-NVIDIA) | UALink | Open standaard, hoge bandbreedte |
| Geheugen uitbreiden voorbij VRAM | CXL | Cache-coherentie, DRAM-achtige latentie |
| Multi-rack GPU-cluster | InfiniBand of Ultra Ethernet | Ontworpen voor scale-out |
| Gedeelde geheugenpool over servers | CXL-switches | Memory pooling met coherentie |
| China/beperkte markten | Overweeg UB-Mesh | Vermijdt westerse IP-afhankelijkheden |
CXL Ecosysteem: Leveranciers en Producten
Memory Expanders
De drie grote DRAM-fabrikanten leveren allemaal CXL memory expanders:
| Leverancier | Product | Capaciteit | Interface | Status |
|---|---|---|---|---|
| Samsung | CMM-D | 256 GB | CXL 2.0 | Massaproductie 2025[^20] |
| SK Hynix | CMM-DDR5 | 128 GB | CXL 2.0 | Massaproductie laat 2024[^21] |
| Micron | CZ120 | 256 GB | CXL 2.0 | Sampling[^22] |
| SK Hynix | CMS | 512 GB | CXL (compute-enabled) | Aangekondigd[^23] |
SK Hynix's CMS (Computational Memory Solution) voegt rekenmogelijkheden direct toe in de geheugenmodule—een vroege implementatie van processing-near-memory voor CXL.
Switch-Leveranciers
CXL-switches maken memory pooling mogelijk over meerdere hosts:
| Leverancier | Product | Generatie | Status | Belangrijkste Functie |
|---|---|---|---|---|
| XConn | XC50256 | CXL 2.0 | Leverbaar | 256-lane switch, eerste op de markt[^24] |
| XConn | Apollo | CXL 2.0 | Leverbaar | Memory pooling demonstraties op SC25[^25] |
| Panmnesia | Fabric Switch | CXL 3.2 | Sampling nov 2025 | Eerste PBR-implementatie[^26] |
| Astera Labs | Leo | CXL 2.0 | Leverbaar | Smart memory controller[^27] |
| Microchip | SMC 2000 | CXL 2.0 | Leverbaar | Memory expansion controller[^28] |
Panmnesia's CXL 3.2 Fabric Switch vertegenwoordigt een generatiesprong: eerste silicium dat port-based routing implementeert voor echte fabric-architecturen met tot 4.096 nodes.[^29]
Controller-Leveranciers
CXL memory controllers vertalen tussen CXL-protocol en DRAM:
| Leverancier | Rol | Belangrijkste Producten |
|---|---|---|
| Marvell | Controller | Structera CXL controllers[^30] |
| Montage | Controller | CXL memory buffer chips |
| Astera Labs | Controller | Leo smart memory controller |
| Microchip | Controller | SMC 2000-serie |
Marvell's Structera voltooide interoperabiliteitstesten met alle drie grote geheugenleveranciers (Samsung, Micron, SK Hynix) op zowel Intel- als AMD-platforms.[^31]
Implementatieplanningsgids
Tijdlijn
| Periode | CXL-Generatie | Verwachte Mogelijkheid | Aanbeveling |
|---|---|---|---|
| Nu-Q2 2026 | CXL 2.0 | Geheugenuitbreiding, basis pooling | Productie-evaluatie |
| Q3 2026-Q4 2026 | CXL 3.0/3.1 | Fabric, peer-to-peer, 4K nodes | Vroege adoptie voor AI |
| 2027+ | CXL 4.0 | Multi-rack pooling, 1,5 TB/s | Planning begint nu |
ABI Research verwacht CXL 3.0/3.1-oplossingen met voldoende softwareondersteuning voor commerciële adoptie tegen 2027.[^32]
Wat Nu te Evalueren
Onmiddellijk (2025): 1. Test CXL 2.0 memory expanders op bestaande Intel Sapphire Rapids of AMD EPYC Genoa servers 2. Evalueer XConn of Astera Labs switches voor memory p
[Inhoud afgekapt voor vertaling]