Guide de planification d'infrastructure CXL 4.0 : Mise en pool de mémoire pour l'AI à grande échelle
13 décembre 2025
Mise à jour décembre 2025 : Le Consortium CXL a publié CXL 4.0 le 18 novembre 2025, doublant la bande passante à 128 GT/s via PCIe 7.0 et introduisant les ports groupés pour des connexions de 1,5 TB/s. Ce guide couvre la planification de déploiement pour les organisations qui se préparent à implémenter la mise en pool de mémoire basée sur CXL dans leur infrastructure AI.
Résumé exécutif
CXL 4.0 permet la mise en pool de mémoire à une échelle sans précédent, permettant aux charges de travail d'inférence AI d'accéder à plus de 100 téraoctets de mémoire partagée avec cohérence de cache sur plusieurs racks. Les ports groupés de la spécification agrègent plusieurs connexions physiques en attachements logiques uniques délivrant 1,5 TB/s de bande passante. Pour les planificateurs d'infrastructure, les décisions clés impliquent de comprendre quand adopter CXL (2026-2027 pour la production), quels produits évaluer maintenant (commutateurs CXL 2.0/3.0 expédiés), et comment CXL complète plutôt que remplace NVLink et UALink. Ce guide fournit la profondeur technique et les cadres de décision nécessaires pour planifier les déploiements CXL.
Le problème du mur de mémoire
Les grands modèles de langage atteignent une contrainte fondamentale : la capacité mémoire des GPU. Les charges de travail d'inférence AI modernes dépassent régulièrement 80-120 GB par GPU, et le cache clé-valeur (KV) croît avec la longueur du contexte.[^1] Une seule requête d'inférence avec une fenêtre de contexte de 128K peut consommer des dizaines de gigaoctets rien que pour le stockage du cache KV.
Le problème s'intensifie à grande échelle. Les poids des modèles pour les LLM de pointe consomment des centaines de gigaoctets. Les exigences de cache KV croissent linéairement avec à la fois la taille des lots et la longueur des séquences. La VRAM des GPU reste fixée à 80GB (H100) ou 192GB (B200).[^2]
Les solutions traditionnelles sont insuffisantes :
| Approche | Limitation |
|---|---|
| Ajouter plus de GPU | Augmentation linéaire des coûts, mémoire toujours isolée par GPU |
| Déchargement NVMe | ~100 μs de latence, 100x plus lent que la DRAM |
| Partage basé sur RDMA | Toujours 10-20 μs de latence, réseau complexe |
| Mémoire GPU plus grande | Contrainte d'approvisionnement, coûteux |
CXL change cette équation en permettant la mise en pool de mémoire avec une latence similaire à la DRAM (200-500 ns) à travers le centre de données.[^3]
Analyse technique approfondie de CXL 4.0
Évolution de CXL 1.0 à 4.0
CXL a mûri rapidement depuis son introduction en 2019. Chaque génération a étendu les capacités :
| Génération | Publication | Base PCIe | Vitesse | Avancement clé |
|---|---|---|---|---|
| CXL 1.0/1.1 | 2019/2020 | PCIe 5.0 | 32 GT/s | Attachement mémoire cohérent de base |
| CXL 2.0 | 2022 | PCIe 5.0 | 32 GT/s | Commutation, mise en pool de mémoire, multi-périphérique |
| CXL 3.0/3.1 | 2023/2024 | PCIe 6.0 | 64 GT/s | Support fabric, pair-à-pair, 4 096 nœuds |
| CXL 4.0 | Nov 2025 | PCIe 7.0 | 128 GT/s | Ports groupés, multi-rack, RAS amélioré |
CXL 2.0 a introduit le concept fondamental de mise en pool de mémoire. Plusieurs périphériques mémoire Type 3 se connectent à un commutateur, formant un pool partagé à partir duquel le commutateur alloue dynamiquement des ressources à différents hôtes.[^4] Cela permet d'améliorer l'utilisation de la mémoire de 50-60% typique à 85%+ dans un cluster.
CXL 3.0 a ajouté des capacités fabric supportant la commutation multi-niveau et jusqu'à 4 096 nœuds avec routage basé sur les ports (PBR).[^5] Le passage aux FLIT de 256 octets et aux 64 GT/s de PCIe 6.0 a doublé la bande passante disponible.
CXL 4.0 double à nouveau la bande passante tout en introduisant des fonctionnalités critiques pour les déploiements AI multi-rack.
Architecture des ports groupés
La fonctionnalité la plus significative de CXL 4.0 pour le calcul haute performance : les ports groupés agrègent plusieurs ports physiques de périphérique CXL en une seule entité logique.[^6]
Comment fonctionnent les ports groupés :
- Un hôte et un périphérique Type 1/2 combinent plusieurs ports physiques
- Le logiciel système voit un seul périphérique malgré plusieurs connexions physiques
- La bande passante s'agrège sur tous les ports groupés
- Optimisé pour le mode FLIT 256 octets, éliminant les frais généraux hérités
Calculs de bande passante :
| Configuration | Direction | Bande passante |
|---|---|---|
| Port x16 simple @ 128 GT/s | Unidirectionnelle | 256 GB/s |
| Port x16 simple @ 128 GT/s | Bidirectionnelle | 512 GB/s |
| 3 ports x16 groupés @ 128 GT/s | Unidirectionnelle | 768 GB/s |
| 3 ports x16 groupés @ 128 GT/s | Bidirectionnelle | 1 536 GB/s |
Pour le contexte, la mémoire HBM3e sur un H200 délivre 4,8 TB/s de bande passante.[^7] Une connexion CXL 4.0 groupée à 1,5 TB/s représente environ 30% de cette bande passante—suffisant pour de nombreux cas d'usage d'expansion mémoire où la capacité compte plus que la bande passante de pointe.
Fondation PCIe 7.0
CXL 4.0 s'appuie sur les améliorations de la couche physique de PCIe 7.0 :[^8]
- Taux de transfert 128 GT/s : Double les 64 GT/s de PCIe 6.0
- Signalisation PAM4 : Même schéma d'encodage que PCIe 6.0
- FEC amélioré : Correction d'erreur avant pour l'intégrité du signal
- Support optique : Permet des connexions de portée plus longue
La spécification conserve le format FLIT de 256 octets de CXL 3.x tout en ajoutant une variante optimisée pour la latence pour les opérations sensibles au temps.[^9]
Capacités fabric multi-rack
CXL 4.0 étend la portée par deux mécanismes :
Quatre retimers supportés : Les générations précédentes permettaient deux retimers. Quatre retimers permettent des connexions physiques plus longues couvrant plusieurs racks sans dégradation du signal.[^10]
Largeur x2 native : Précédemment un mode de repli dégradé, les liens x2 opèrent maintenant à pleine performance. Cela permet des configurations de fan-out plus élevées où de nombreuses connexions à bande passante plus faible servent plus de points de terminaison.[^11]
Ces fonctionnalités se combinent pour permettre la "mise en pool de mémoire multi-rack"—une capacité que le Consortium CXL cible explicitement pour le déploiement en production fin 2026-2027.[^12]
Cas d'usage CXL pour l'infrastructure AI
Déchargement de cache KV pour l'inférence LLM
Le cas d'usage à court terme le plus impactant : décharger le cache KV de la VRAM GPU vers la mémoire attachée CXL.
Le problème : L'inférence LLM avec de longs contextes génère des caches KV massifs. Un modèle de 70B paramètres avec un contexte de 128K et une taille de lot de 32 peut nécessiter 150+ GB rien que pour le cache KV.[^13] Cela dépasse la VRAM H100, forçant des réductions coûteuses de taille de lot ou plusieurs GPU.
La solution CXL : Stocker le cache KV dans un pool de mémoire CXL partagé tout en gardant les couches chaudes dans la VRAM GPU. XConn et MemVerge l'ont démontré à SC25 et OCP 2025 :[^14]
- Deux GPU H100 (80GB chacun) exécutant OPT-6.7B
- Cache KV déchargé vers un pool de mémoire CXL partagé
- Accélération de 3,8x vs RDMA 200G
- Accélération de 6,5x vs RDMA 100G
- Amélioration de >5x vs cache KV basé sur SSD
La recherche académique confirme l'opportunité. PNM-KV (Processing-Near-Memory for KV cache) atteint jusqu'à 21,9x d'amélioration de débit en déchargeant la sélection de pages de tokens vers des accélérateurs dans la mémoire CXL.[^15]
Expansion mémoire pour l'entraînement
Les charges de travail d'entraînement bénéficient de la capacité mémoire étendue pour :
- Tailles de lots plus grandes : Plus d'échantillons par itération sans accumulation de gradient
- Réduction de checkpoint d'activation : Stocker plus d'activations en mémoire vs recalcul
- État de l'optimiseur : L'optimiseur Adam nécessite 2x paramètres pour momentum/variance
L'expansion mémoire CXL permet des configurations d'entraînement nécessitant précédemment une distribution multi-nœud de fonctionner sur des nœuds uniques, réduisant les frais généraux de communication.
Charges de travail scientifiques et HPC
Le projet Crete de PNNL utilise des pools CXL pour le partage mémoire haute débit entre nœuds de calcul dans les simulations scientifiques.[^16] Les cas d'usage incluent :
- Dynamique moléculaire avec de grandes listes de voisins
- Analyse de graphes sur des ensembles de données de trillions d'arêtes
- Bases de données en mémoire dépassant la capacité d'un serveur unique
Le paysage des interconnexions
CXL vs NVLink vs UALink
Comprendre où CXL s'intègre nécessite de reconnaître que ces technologies servent des objectifs différents :
| Standard | Objectif principal | Meilleur pour |
|---|---|---|
| CXL | Cohérence mémoire + mise en pool | Expansion mémoire CPU, pools mémoire partagés |
| NVLink | Mise à l'échelle GPU-à-GPU | Communication GPU intra-nœud |
| UALink | Interconnexion accélérateur | Alternative standard ouverte à NVLink |
| Ultra Ethernet | Réseau scale-out | Multi-rack, 10 000+ points de terminaison |
CXL fonctionne sur des SerDes PCIe : taux d'erreur plus bas, latence plus basse, mais bande passante plus basse que les SerDes style Ethernet de NVLink/UALink.[^17] NVLink 5 délivre 1,8 TB/s par GPU—dépassant largement les 512 GB/s par port x16 de CXL 4.0.[^18]
Les technologies se complètent plutôt qu'elles ne concurrencent :
- Dans un nœud GPU : NVLink connecte les GPU
- Entre nœuds : UALink ou InfiniBand/Ethernet
- Expansion mémoire : CXL ajoute de la capacité aux CPU et accélérateurs
- Pools mémoire fabric-wide : Les commutateurs CXL permettent le partage entre hôtes
Panmnesia propose des architectures "CXL-over-XLink" intégrant les trois, rapportant un entraînement AI 5,3x plus rapide et une réduction de latence d'inférence de 6x vs les baselines PCIe/RDMA.[^19]
Cadre de décision : Quand utiliser quoi
| Scénario | Interconnexion recommandée | Justification |
|---|---|---|
| Entraînement multi-GPU dans serveur | NVLink | Bande passante la plus élevée, latence la plus faible |
| Pod d'inférence multi-GPU (non-NVIDIA) | UALink | Standard ouvert, bande passante élevée |
| Étendre la mémoire au-delà de la VRAM | CXL | Cohérence de cache, latence similaire à la DRAM |
| Cluster GPU multi-rack | InfiniBand ou Ultra Ethernet | Conçu pour le scale-out |
| Pool mémoire partagé entre serveurs | Commutateurs CXL | Mise en pool de mémoire avec cohérence |
| Marchés Chine/restreints | Considérer UB-Mesh | Évite les dépendances IP occidentales |
Écosystème CXL : Fournisseurs et produits
Expandeurs mémoire
Les trois principaux fabricants de DRAM expédient tous des expandeurs mémoire CXL :
| Fournisseur | Produit | Capacité | Interface | Statut |
|---|---|---|---|---|
| Samsung | CMM-D | 256 GB | CXL 2.0 | Production de masse 2025[^20] |
| SK Hynix | CMM-DDR5 | 128 GB | CXL 2.0 | Production de masse fin 2024[^21] |
| Micron | CZ120 | 256 GB | CXL 2.0 | Échantillonnage[^22] |
| SK Hynix | CMS | 512 GB | CXL (compute-enabled) | Annoncé[^23] |
Le CMS (Computational Memory Solution) de SK Hynix ajoute des capacités de calcul directement dans le module mémoire—une implémentation précoce du processing-near-memory pour CXL.
Fournisseurs de commutateurs
Les commutateurs CXL permettent la mise en pool de mémoire à travers plusieurs hôtes :
| Fournisseur | Produit | Génération | Statut | Fonctionnalité clé |
|---|---|---|---|---|
| XConn | XC50256 | CXL 2.0 | Expédié | Commutateur 256 voies, premier sur le marché[^24] |
| XConn | Apollo | CXL 2.0 | Expédié | Démonstrations de mise en pool mémoire à SC25[^25] |
| Panmnesia | Fabric Switch | CXL 3.2 | Échantillonnage Nov 2025 | Première implémentation PBR[^26] |
| Astera Labs | Leo | CXL 2.0 | Expédié | Contrôleur mémoire intelligent[^27] |
| Microchip | SMC 2000 | CXL 2.0 | Expédié | Contrôleur d'expansion mémoire[^28] |
Le Fabric Switch CXL 3.2 de Panmnesia représente un saut générationnel : premier silicium implémentant le routage basé sur les ports pour de vraies architectures fabric avec jusqu'à 4 096 nœuds.[^29]
Fournisseurs de contrôleurs
Les contrôleurs mémoire CXL traduisent entre le protocole CXL et la DRAM :
| Fournisseur | Rôle | Produits clés |
|---|---|---|
| Marvell | Contrôleur | Contrôleurs CXL Structera[^30] |
| Montage | Contrôleur | Puces buffer mémoire CXL |
| Astera Labs | Contrôleur | Contrôleur mémoire intelligent Leo |
| Microchip | Contrôleur | Série SMC 2000 |
Le Structera de Marvell a terminé les tests d'interopérabilité avec les trois principaux fournisseurs de mémoire (Samsung, Micron, SK Hynix) sur les plateformes Intel et AMD.[^31]
Guide de planification de déploiement
Calendrier
| Période | Génération CXL | Capacité attendue | Recommandation |
|---|---|---|---|
| Maintenant-T2 2026 | CXL 2.0 | Expansion mémoire, mise en pool de base | Évaluation production |
| T3 2026-T4 2026 | CXL 3.0/3.1 | Fabric, pair-à-pair, 4K nœuds | Adoption précoce pour AI |
| 2027+ | CXL 4.0 | Mise en pool multi-rack, 1,5 TB/s | Planification commence maintenant |
ABI Research s'attend à des solutions CXL 3.0/3.1 avec support logiciel suffisant pour adoption commerciale d'ici 2027.[^32]
Que évaluer maintenant
Immédiat (2025) : 1. Tester les expandeurs mémoire CXL 2.0 sur les serveurs Intel Sapphire Rapids ou AMD EPYC Genoa existants 2. Évaluer les commutateurs XConn ou Astera Labs pour la mise en pool de mémoire