Guide de planification d'infrastructure CXL 4.0 : Pooling de mémoire pour l'IA à grande échelle

Guide complet de déploiement CXL 4.0 couvrant les ports groupés, le pooling de mémoire multi-rack, le déchargement du cache KV, l'écosystème des fournisseurs et le calendrier de planification 2026-2027.

Blake Crosley

Mar 29, 2026 10 min read Disclaimer

Guide de planification d'infrastructure CXL 4.0 : Pooling de mémoire pour l'IA à grande échelle

13 décembre 2025

Mise à jour de décembre 2025 : Le Consortium CXL a publié CXL 4.0 le 18 novembre 2025, doublant la bande passante à 128 GT/s via PCIe 7.0 et introduisant les ports groupés pour des connexions de 1,5 To/s. Ce guide couvre la planification du déploiement pour les organisations se préparant à implémenter le pooling de mémoire basé sur CXL dans leur infrastructure IA.

Résumé

CXL 4.0 permet le pooling de mémoire à une échelle sans précédent, permettant aux charges de travail d'inférence IA d'accéder à plus de 100 téraoctets de mémoire partagée avec cohérence de cache sur plusieurs racks. Les ports groupés de la spécification agrègent plusieurs connexions physiques en attachements logiques uniques offrant une bande passante de 1,5 To/s. Pour les planificateurs d'infrastructure, les décisions clés impliquent de comprendre quand adopter CXL (2026-2027 pour la production), quels produits évaluer maintenant (les switches CXL 2.0/3.0 sont disponibles), et comment CXL complète plutôt que remplace NVLink et UALink. Ce guide fournit la profondeur technique et les cadres de décision nécessaires pour planifier les déploiements CXL.

Le problème du mur de mémoire

Les grands modèles de langage rencontrent une contrainte fondamentale : la capacité de mémoire GPU. Les charges de travail d'inférence IA modernes dépassent régulièrement 80-120 Go par GPU, et le cache clé-valeur (KV) croît avec la longueur du contexte.[^1] Une seule requête d'inférence avec une fenêtre de contexte de 128K peut consommer des dizaines de gigaoctets uniquement pour le stockage du cache KV.

Le problème s'intensifie à grande échelle. Les poids des modèles pour les LLM de pointe consomment des centaines de gigaoctets. Les besoins en cache KV croissent linéairement avec la taille du batch et la longueur de séquence. La VRAM GPU reste fixée à 80 Go (H100) ou 192 Go (B200).[^2]

Les solutions traditionnelles sont insuffisantes :

Approche	Limitation
Ajouter plus de GPU	Augmentation linéaire des coûts, mémoire toujours isolée par GPU
Déchargement NVMe	~100 μs de latence, 100x plus lent que la DRAM
Partage basé sur RDMA	Encore 10-20 μs de latence, réseau complexe
Mémoire GPU plus grande	Approvisionnement contraint, coûteux

CXL change cette équation en permettant le pooling de mémoire avec une latence proche de la DRAM (200-500 ns) à travers le datacenter.[^3]

Analyse technique approfondie de CXL 4.0

Évolution de CXL 1.0 à 4.0

CXL a mûri rapidement depuis son introduction en 2019. Chaque génération a étendu les capacités :

Génération	Publication	Base PCIe	Vitesse	Avancée clé
CXL 1.0/1.1	2019/2020	PCIe 5.0	32 GT/s	Attachement mémoire cohérent de base
CXL 2.0	2022	PCIe 5.0	32 GT/s	Switching, pooling mémoire, multi-dispositifs
CXL 3.0/3.1	2023/2024	PCIe 6.0	64 GT/s	Support fabric, peer-to-peer, 4 096 nœuds
CXL 4.0	Nov 2025	PCIe 7.0	128 GT/s	Ports groupés, multi-rack, RAS amélioré

CXL 2.0 a introduit le concept fondateur du pooling de mémoire. Plusieurs dispositifs mémoire de Type 3 se connectent à un switch, formant un pool partagé à partir duquel le switch alloue dynamiquement des ressources aux différents hôtes.[^4] Cela permet des améliorations d'utilisation de la mémoire de typiquement 50-60% à plus de 85% sur un cluster.

CXL 3.0 a ajouté des capacités fabric supportant le switching multi-niveau et jusqu'à 4 096 nœuds avec routage basé sur les ports (PBR).[^5] Le passage aux FLITs de 256 octets et les 64 GT/s de PCIe 6.0 ont doublé la bande passante disponible.

CXL 4.0 double à nouveau la bande passante tout en introduisant des fonctionnalités critiques pour les déploiements IA multi-rack.

Architecture des ports groupés

La fonctionnalité la plus significative de CXL 4.0 pour le calcul haute performance : les ports groupés agrègent plusieurs ports physiques de dispositifs CXL en une seule entité logique.[^6]

Comment fonctionnent les ports groupés :

Un hôte et un dispositif Type 1/2 combinent plusieurs ports physiques
Le logiciel système voit un seul dispositif malgré les connexions physiques multiples
La bande passante s'agrège sur tous les ports groupés
Optimisé pour le mode FLIT 256 octets, éliminant la surcharge legacy

Calculs de bande passante :

Configuration	Direction	Bande passante
Port unique x16 @ 128 GT/s	Unidirectionnelle	256 Go/s
Port unique x16 @ 128 GT/s	Bidirectionnelle	512 Go/s
3 ports groupés x16 @ 128 GT/s	Unidirectionnelle	768 Go/s
3 ports groupés x16 @ 128 GT/s	Bidirectionnelle	1 536 Go/s

Pour contexte, la mémoire HBM3e sur un H200 délivre 4,8 To/s de bande passante.[^7] Une connexion CXL 4.0 groupée à 1,5 To/s représente environ 30% de cette bande passante—suffisant pour de nombreux cas d'usage d'expansion mémoire où la capacité importe plus que la bande passante de pointe.

Fondation PCIe 7.0

CXL 4.0 s'appuie sur les améliorations de la couche physique de PCIe 7.0 :[^8]

Taux de transfert 128 GT/s : Double des 64 GT/s de PCIe 6.0
Signalisation PAM4 : Même schéma d'encodage que PCIe 6.0
FEC amélioré : Correction d'erreur anticipée pour l'intégrité du signal
Support optique : Permet des connexions à plus longue portée

La spécification conserve le format FLIT 256 octets de CXL 3.x tout en ajoutant une variante optimisée pour la latence pour les opérations sensibles au temps.[^9]

Capacités fabric multi-rack

CXL 4.0 étend la portée via deux mécanismes :

Quatre retimers supportés : Les générations précédentes permettaient deux retimers. Quatre retimers permettent des connexions physiques plus longues couvrant plusieurs racks sans dégradation du signal.[^10]

Largeur native x2 : Précédemment un mode de repli dégradé, les liens x2 fonctionnent maintenant à pleine performance. Cela permet des configurations à plus haut fan-out où de nombreuses connexions à bande passante réduite desservent plus de points d'extrémité.[^11]

Ces fonctionnalités se combinent pour permettre le « pooling de mémoire multi-rack »—une capacité que le Consortium CXL cible explicitement pour un déploiement en production fin 2026-2027.[^12]

Cas d'usage CXL pour l'infrastructure IA

Déchargement du cache KV pour l'inférence LLM

Le cas d'usage à plus fort impact à court terme : décharger le cache KV de la VRAM GPU vers une mémoire attachée par CXL.

Le problème : L'inférence LLM avec de longs contextes génère des caches KV massifs. Un modèle de 70 milliards de paramètres avec un contexte de 128K et une taille de batch de 32 peut nécessiter plus de 150 Go uniquement pour le cache KV.[^13] Cela dépasse la VRAM H100, forçant des réductions coûteuses de taille de batch ou l'utilisation de plusieurs GPU.

La solution CXL : Stocker le cache KV dans une mémoire CXL mutualisée tout en gardant les couches chaudes dans la VRAM GPU. XConn et MemVerge ont démontré cela à SC25 et OCP 2025 :[^14]

Deux GPU H100 (80 Go chacun) exécutant OPT-6.7B
Cache KV déchargé vers un pool de mémoire CXL partagé
Accélération de 3,8x vs RDMA 200G
Accélération de 6,5x vs RDMA 100G
Amélioration de >5x vs cache KV basé sur SSD

La recherche académique confirme l'opportunité. PNM-KV (Processing-Near-Memory pour cache KV) atteint jusqu'à 21,9x d'amélioration de débit en déchargeant la sélection de pages de tokens vers des accélérateurs au sein de la mémoire CXL.[^15]

Expansion mémoire pour l'entraînement

Les charges de travail d'entraînement bénéficient d'une capacité mémoire étendue pour :

Tailles de batch plus grandes : Plus d'échantillons par itération sans accumulation de gradient
Réduction du checkpointing d'activation : Stocker plus d'activations en mémoire vs recalcul
État de l'optimiseur : L'optimiseur Adam nécessite 2x les paramètres pour momentum/variance

L'expansion mémoire CXL permet à des configurations d'entraînement nécessitant précédemment une distribution multi-nœuds de fonctionner sur des nœuds uniques, réduisant la surcharge de communication.

Charges de travail scientifiques et HPC

Le projet Crete du PNNL utilise des pools CXL pour le partage de mémoire à haut débit entre nœuds de calcul dans les simulations scientifiques.[^16] Les cas d'usage incluent :

Dynamique moléculaire avec de grandes listes de voisins
Analytique de graphes sur des ensembles de données à un trillion d'arêtes
Bases de données en mémoire dépassant la capacité d'un seul serveur

Le paysage des interconnexions

CXL vs NVLink vs UALink

Comprendre où CXL s'inscrit nécessite de reconnaître que ces technologies servent des objectifs différents :

Standard	Objectif principal	Meilleur pour
CXL	Cohérence mémoire + pooling	Expansion mémoire CPU, pools de mémoire partagée
NVLink	Mise à l'échelle GPU-à-GPU	Communication GPU intra-nœud
UALink	Interconnexion d'accélérateurs	Alternative standard ouverte à NVLink
Ultra Ethernet	Réseau scale-out	Multi-rack, 10 000+ points d'extrémité

CXL fonctionne sur les SerDes PCIe : taux d'erreur plus faible, latence plus faible, mais bande passante inférieure aux SerDes de style Ethernet de NVLink/UALink.[^17] NVLink 5 délivre 1,8 To/s par GPU—dépassant largement les 512 Go/s par port x16 de CXL 4.0.[^18]

Les technologies se complètent plutôt qu'elles ne sont en concurrence :

Au sein d'un nœud GPU : NVLink connecte les GPU
Entre nœuds : UALink ou InfiniBand/Ethernet
Expansion mémoire : CXL ajoute de la capacité aux CPU et accélérateurs
Pools de mémoire à l'échelle du fabric : Les switches CXL permettent le partage entre hôtes

Panmnesia propose des architectures « CXL-over-XLink » intégrant les trois, rapportant un entraînement IA 5,3x plus rapide et une réduction de latence d'inférence de 6x vs les références PCIe/RDMA.[^19]

Cadre de décision : Quand utiliser quoi

Scénario	Interconnexion recommandée	Justification
Entraînement multi-GPU au sein d'un serveur	NVLink	Plus haute bande passante, plus faible latence
Pod d'inférence multi-GPU (non-NVIDIA)	UALink	Standard ouvert, haute bande passante
Étendre la mémoire au-delà de la VRAM	CXL	Cohérence de cache, latence proche DRAM
Cluster GPU multi-rack	InfiniBand ou Ultra Ethernet	Conçu pour le scale-out
Pool de mémoire partagée entre serveurs	Switches CXL	Pooling mémoire avec cohérence
Chine/marchés restreints	Considérer UB-Mesh	Évite les dépendances IP occidentales

Écosystème CXL : Fournisseurs et produits

Extenseurs de mémoire

Les trois principaux fabricants de DRAM commercialisent tous des extenseurs de mémoire CXL :

Fournisseur	Produit	Capacité	Interface	Statut
Samsung	CMM-D	256 Go	CXL 2.0	Production de masse 2025[^20]
SK Hynix	CMM-DDR5	128 Go	CXL 2.0	Production de masse fin 2024[^21]
Micron	CZ120	256 Go	CXL 2.0	Échantillonnage[^22]
SK Hynix	CMS	512 Go	CXL (avec calcul intégré)	Annoncé[^23]

Le CMS (Computational Memory Solution) de SK Hynix ajoute des capacités de calcul directement dans le module mémoire—une implémentation précoce du processing-near-memory pour CXL.

Fournisseurs de switches

Les switches CXL permettent le pooling de mémoire entre plusieurs hôtes :

Fournisseur	Produit	Génération	Statut	Caractéristique clé
XConn	XC50256	CXL 2.0	Disponible	Switch 256 voies, premier sur le marché[^24]
XConn	Apollo	CXL 2.0	Disponible	Démonstrations de pooling mémoire à SC25[^25]
Panmnesia	Fabric Switch	CXL 3.2	Échantillonnage nov 2025	Première implémentation PBR[^26]
Astera Labs	Leo	CXL 2.0	Disponible	Contrôleur mémoire intelligent[^27]
Microchip	SMC 2000	CXL 2.0	Disponible	Contrôleur d'expansion mémoire[^28]

Le switch fabric CXL 3.2 de Panmnesia représente un saut générationnel : premier silicium implémentant le routage basé sur les ports pour de véritables architectures fabric avec jusqu'à 4 096 nœuds.[^29]

Fournisseurs de contrôleurs

Les contrôleurs mémoire CXL traduisent entre le protocole CXL et la DRAM :

Fournisseur	Rôle	Produits clés
Marvell	Contrôleur	Contrôleurs CXL Structera[^30]
Montage	Contrôleur	Puces tampon mémoire CXL
Astera Labs	Contrôleur	Contrôleur mémoire intelligent Leo
Microchip	Contrôleur	Série SMC 2000

Structera de Marvell a complété les tests d'interopérabilité avec les trois principaux fournisseurs de mémoire (Samsung, Micron, SK Hynix) sur les plateformes Intel et AMD.[^31]

Guide de planification du déploiement

Calendrier

Période	Génération CXL	Capacité attendue	Recommandation
Maintenant-T2 2026	CXL 2.0	Expansion mémoire, pooling basique	Évaluation production
T3 2026-T4 2026	CXL 3.0/3.1	Fabric, peer-to-peer, 4K nœuds	Adoption précoce pour l'IA
2027+	CXL 4.0	Pooling multi-rack, 1,5 To/s	La planification commence maintenant

ABI Research prévoit des solutions CXL 3.0/3.1 avec un support logiciel suffisant pour l'adoption commerciale d'ici 2027.[^32]

Ce qu'il faut évaluer maintenant

Immédiat (2025) : 1. Tester les extenseurs de mémoire CXL 2.0 sur les serveurs Intel Sapphire Rapids ou AMD EPYC Genoa existants 2. Évaluer les switches XConn ou Astera Labs pour le p

[Contenu tronqué pour la traduction]

Guide de planification d'infrastructure CXL 4.0 : Pooling de mémoire pour l'IA à grande échelle

Résumé

Le problème du mur de mémoire

Analyse technique approfondie de CXL 4.0

Évolution de CXL 1.0 à 4.0

Architecture des ports groupés

Fondation PCIe 7.0

Capacités fabric multi-rack

Cas d'usage CXL pour l'infrastructure IA

Déchargement du cache KV pour l'inférence LLM

Expansion mémoire pour l'entraînement

Charges de travail scientifiques et HPC

Le paysage des interconnexions

CXL vs NVLink vs UALink

Cadre de décision : Quand utiliser quoi

Écosystème CXL : Fournisseurs et produits

Extenseurs de mémoire

Fournisseurs de switches

Fournisseurs de contrôleurs

Guide de planification du déploiement

Calendrier

Ce qu'il faut évaluer maintenant

You Might Also Like

L'essor de 27 milliards de dollars de l'infrastructure IA à ...

Malaisie et Thaïlande : Pôles émergents de centres de donnée...

Sauvegarde et récupération pour l'IA : Protection des donnée...

Demander un devis_

Demande reçue_