Extension de mémoire CXL : Briser le mur de la mémoire dans les centres de données IA
Mis à jour le 11 décembre 2025
Mise à jour de décembre 2025 : Microsoft lance les premières instances cloud équipées CXL en novembre 2025. La spécification CXL 4.0 double la bande passante à 128GT/s. Le marché CXL est projeté à 15 milliards de dollars d'ici 2028 (plus de 12 milliards de dollars de DRAM derrière CXL). Le cache KV activé par CXL offre une amélioration du débit de 21,9x, une consommation d'énergie par token 60x inférieure. Les pools CXL commerciaux atteignent 100 Tio en 2025.
Les goulots d'étranglement de mémoire tuent les performances de l'IA. Les grands modèles de langage dépassent régulièrement 80 à 120 Go par GPU pour le cache KV seul, submergeant même les accélérateurs équipés de HBM les plus coûteux.¹ La technologie d'extension de mémoire Compute Express Link (CXL) répond directement à la crise de capacité mémoire en permettant aux serveurs d'accéder à des pools de mémoire au-delà des limites de la DRAM attachée au CPU. Avec le lancement par Microsoft des premières instances cloud équipées CXL du secteur en novembre 2025 et la spécification CXL 4.0 doublant la bande passante à 128GT/s, les architectures de mémoire désagrégée passent du concept de recherche à la réalité de production.²
Le marché reflète l'urgence. Les projections de revenus du marché CXL atteignent 15 milliards de dollars d'ici 2028, la DRAM derrière CXL devant constituer plus de 12 milliards de dollars de ce total.³ Pour les organisations déployant une infrastructure IA à grande échelle, comprendre les capacités d'extension de mémoire CXL détermine si les systèmes peuvent gérer les charges de travail de nouvelle génération sans mises à niveau matérielles constantes.
Comment fonctionne réellement l'extension de mémoire CXL
CXL fonctionne comme un protocole d'interconnexion cohérent avec le cache qui s'exécute sur les couches physiques PCIe standard. La technologie maintient une cohérence complète entre les caches du CPU et les dispositifs de mémoire externes, permettant aux applications d'accéder à la mémoire attachée CXL avec le même modèle de programmation que la DRAM locale.⁴ Trois sous-types de protocole gèrent différentes interactions de dispositifs : CXL.io gère les transactions de style PCIe, CXL.cache permet aux dispositifs de mettre en cache la mémoire hôte, et CXL.mem permet aux hôtes d'accéder à la mémoire attachée aux dispositifs.⁵
Les dispositifs d'extension de mémoire, désignés comme CXL Type-3, connectent des modules DDR5 aux serveurs via des emplacements PCIe ou des facteurs de forme EDSFF. Les contrôleurs CXL modernes ajoutent environ 70 nanosecondes de latence par rapport à la DRAM directement attachée.⁶ Bien que substantielle, la latence de la mémoire CXL est 20x à 50x plus rapide que le stockage NVMe, comblant un niveau de performance critique entre la mémoire hôte rapide et l'accès disque lent.⁷
L'évolution des spécifications s'est accélérée rapidement. CXL 2.0 a introduit le pooling de mémoire, permettant à plusieurs hôtes d'accéder à des dispositifs de mémoire communs avec des allocations distinctes.⁸ CXL 3.0 a permis la véritable mémoire partagée, où plusieurs hôtes accèdent simultanément au même segment de mémoire avec des vues de données cohérentes.⁹ La version CXL 4.0 de novembre 2025 a doublé la bande passante de 64GT/s à 128GT/s tout en maintenant le format FLIT de 256 octets, permettant jusqu'à 1,536 To/s de bande passante bidirectionnelle totale sur des liens x16 grâce à la nouvelle fonctionnalité de ports groupés.¹⁰
Le pooling de mémoire transforme l'économie des serveurs
Les architectures de serveurs traditionnelles forcent les opérateurs à des compromis difficiles. Les besoins en mémoire varient considérablement entre les charges de travail, mais les serveurs sont livrés avec des configurations DRAM fixes. La mémoire représente en moyenne environ 30 % de la valeur du serveur en 2022 et les projections poussent ce chiffre au-dessus de 40 % d'ici 2025.¹¹ Les organisations surprovoisionnent régulièrement la mémoire pour gérer les charges de pointe, laissant de la DRAM coûteuse inutilisée pendant les périodes d'utilisation moyenne.
Le pooling de mémoire CXL change fondamentalement l'équation. Plusieurs serveurs partagent l'accès à des pools de mémoire centralisés, allouant dynamiquement la capacité en fonction des demandes de charge de travail en temps réel. Microsoft a constaté que l'adoption du pooling de mémoire basé sur CXL pourrait réduire la mémoire totale nécessaire d'environ 10 %, produisant une réduction de 5 % du coût global du serveur.¹² SMART Modular Technologies estime que l'association de DIMM moins chères avec des cartes d'extension CXL offre jusqu'à 40 % d'économies pour des configurations de mémoire de 1 To par rapport à la mise à niveau vers des CPU prenant en charge plus de RAM.¹³
Les systèmes hybrides DRAM-CXL atteignent 95-100 % du débit des configurations DRAM pures tout en réduisant les coûts de mémoire de 50 % grâce à la compression et au pooling efficace.¹⁴ L'argument économique se renforce à mesure que les prix de la mémoire restent élevés en raison de la demande HBM consommant la capacité de production de DRAM. La hausse des coûts de la DRAM pousse les entreprises vers des logiciels d'efficacité mémoire et des solutions d'extension basées sur CXL comme alternatives aux mises à niveau de mémoire coûteuses.¹⁵
Les charges de travail d'inférence IA stimulent l'adoption de CXL
L'inférence des grands modèles de langage crée la demande la plus pressante pour une capacité mémoire étendue. Les besoins de stockage du cache KV évoluent linéairement avec la longueur du contexte, et les modèles modernes prenant en charge des contextes de plusieurs millions de tokens génèrent des tailles de cache qui dépassent entièrement la mémoire GPU. La recherche démontre que la gestion du cache KV activée par CXL offre jusqu'à 21,9x d'amélioration du débit, 60x moins d'énergie par token, et 7,3x de meilleure efficacité du coût total par rapport aux implémentations de référence.¹⁶
XConn Technologies et MemVerge ont démontré à Supercomputing 2025 comment les charges de travail d'inférence IA peuvent décharger et partager dynamiquement des ressources massives de cache KV entre GPU et CPU. La démonstration a atteint des améliorations de performances supérieures à 5x par rapport au caching basé sur SSD ou au déchargement de cache KV basé sur RDMA.¹⁷ Par rapport aux alternatives basées sur le réseau, le pool de mémoire CXL a atteint une accélération de 3,8x par rapport au RDMA 200G et une accélération de 6,5x par rapport au RDMA 100G pour les charges de travail d'inférence.¹⁸
Les pools de mémoire CXL commerciaux atteignant 100 Tio sont devenus disponibles en 2025, avec des déploiements encore plus importants prévus pour 2026.¹⁹ Astera Labs a démontré au OCP Global Summit 2025 comment les contrôleurs de mémoire intelligents Leo CXL éliminent les goulots d'étranglement de l'infrastructure IA, atteignant 3x d'instances LLM concurrentes à un débit plus élevé et une latence 3x plus faible avec CXL.²⁰ SK Hynix a présenté une machine IA centrée sur la mémoire connectant plusieurs serveurs et GPU sans réseau traditionnel, prenant en charge les tâches d'inférence distribuée grâce à la technologie de mémoire poolée CXL.²¹
Au-delà de l'inférence, l'extension de mémoire CXL bénéficie aux systèmes de recommandation, aux bases de données en mémoire et à l'analytique de graphes. Le système de mémoire désagrégée basé sur CXL H3 Falcon de Micron offre des gains de performance jusqu'à 20x pour les bases de données de graphes.²² Les contrôleurs Leo CXL associés aux processeurs AMD EPYC de 5e génération fournissent des améliorations de performances de 70 % pour les modèles de recommandation d'apprentissage profond.²³
Le paysage des contrôleurs CXL
Trois fournisseurs dominent la production de contrôleurs de mémoire CXL : Astera Labs, Montage Technology et Microchip. Leurs contrôleurs alimentent les modules de mémoire de tous les principaux fabricants de DRAM.
Astera Labs mène le marché avec les contrôleurs de mémoire intelligents Leo CXL prenant en charge CXL 2.0 avec jusqu'à 2 To de capacité mémoire par contrôleur.²⁴ Leo implémente les protocoles CXL.mem, CXL.cache et CXL.io, effectue l'entrelacement matériel pour présenter la mémoire agrégée aux systèmes d'exploitation, et fournit des fonctionnalités RAS via la suite de gestion COSMOS.²⁵ Les cartes d'extension A-Series permettent un déploiement plug-and-play, tandis que les implémentations E-Series et P-Series prennent en charge l'intégration personnalisée. La préversion de mémoire CXL d'Azure de Microsoft en novembre 2025 utilise des contrôleurs Leo, marquant le premier déploiement de cloud public du secteur de mémoire attachée CXL.²⁶
Montage Technology a livré le premier contrôleur CXL Memory eXpander (MXC) au monde et fournit actuellement des contrôleurs à Samsung, SK Hynix et d'autres grands fabricants de mémoire.²⁷ Le contrôleur CXL 3.1 de septembre 2025 de l'entreprise (M88MX6852) atteint des taux de transfert de données jusqu'à 64GT/s sur des configurations x8, intègre la DDR5 double canal à des vitesses de 8000MT/s, et n'ajoute que 70ns de latence.²⁸ Le boîtier de 25mm x 25mm prend en charge les facteurs de forme EDSFF E3.S et les cartes d'extension PCIe.²⁹ Samsung et SK Hynix ont tous deux passé les tests de conformité CXL 2.0 en utilisant des puces MXC Montage.³⁰
Microchip est entré dans le CXL avec le contrôleur SMC 1000 8x25G prenant en charge les applications d'extension et de pooling de mémoire. L'entreprise intègre les capacités CXL dans son portefeuille plus large de connectivité mémoire aux côtés des puces de tampon mémoire et des contrôleurs hub SPD.
Produits de modules mémoire des principaux fournisseurs
La série CMM-D (CXL Memory Module - DDR5) de Samsung représente la gamme CXL de production de l'entreprise. Le CMM-D 2.0 offre des capacités de 128 Go et 256 Go avec jusqu'à 36 Go/s de bande passante, une conformité CXL 2.0 et une prise en charge PCIe Gen 5.³¹ Samsung positionne le CMM-D comme complémentaire aux DIMM locales existantes, revendiquant une expansion de la capacité mémoire jusqu'à 50 % et des augmentations de bande passante jusqu'à 100 % tout en réduisant le coût total de possession.³² Des échantillons clients ont été expédiés en 2025, avec des variantes CXL 3.1 ciblées pour la fin de l'année.³³
SK Hynix a démontré plusieurs produits de mémoire CXL à Supercomputing 2025. Le CMM-DDR5 s'associe aux contrôleurs Montage pour étendre la capacité mémoire, tandis que le CMM-Ax (CXL Memory Module Accelerator) intègre des capacités de calcul directement dans la mémoire.³⁴ Le cloud IA Petasus de SK Telecom a déployé le CMM-Ax, démontrant des applications pratiques d'infrastructure IA.³⁵ SK Hynix se prépare à produire des contrôleurs CXL propriétaires pour CXL 3.0 et 3.1, réduisant la dépendance au silicium tiers.³⁶
Micron a déployé des modules d'extension de mémoire basés sur CXL 2.0 utilisant des capacités DDR5 de 96 Go.³⁷ L'entreprise positionne la mémoire CXL comme une technologie critique pour combler l'écart avec Samsung et SK Hynix dans le segment de mémoire serveur à haute marge. Le système H3 Falcon de Micron combine la mémoire désagrégée basée sur CXL avec le système de fichiers FAMFS pris en charge par Linux pour l'accélération des bases de données de graphes.³⁸
Support des plateformes serveur d'Intel et AMD
Les processeurs AMD EPYC Genoa sont arrivés en 2022 avec un support natif des dispositifs CXL Type-3, donnant à AMD une avance de plusieurs années sur Intel.³⁹ Les processeurs actuels EPYC 9005 Turin maintiennent la compatibilité CXL sur toute la gamme. Les benchmarks de performance démontrent des gains substantiels : les contrôleurs Leo CXL avec AMD EPYC de 5e génération offrent des améliorations de performances de 70 % pour les modèles de recommandation et permettent des architectures de mémoire hybride correspondant à 95-100 % des performances de la DRAM native.⁴⁰
Le parcours CXL d'Intel s'est avéré plus difficile. Les Xeon Scalable de 4e génération « Sapphire Rapids » ont été lancés sans support des dispositifs CXL Type-3 malgré l'implémentation du protocole CXL de base.⁴¹ Le support officiel Type-3 est arrivé avec la 5e génération « Emerald Rapids » il y a environ un an. Les processeurs Intel Xeon 6 incluent le CXL Flat Memory Mode, une capacité unique qui améliore la flexibilité du ratio calcul/mémoire sans sacrifier les performances.⁴² Microsoft a spécifiquement mis en avant les capacités du Flat Memory Mode lors de l'annonce de la préversion CXL d'Azure.⁴³
Les serveurs Lenovo ThinkSystem V4 avec processeurs Intel Xeon 6 prennent en charge la mémoire CXL 2.0 au format E3.S 2T.⁴⁴ Les leaders de l'industrie, notamment Dell Technologies, HPE, ASUS et Inventec, construisent des plateformes alignées sur CXL 3.0, se préparant à une adoption plus large de l'écosystème.⁴⁵ Les projections de DRAM derrière CXL atteignent environ 10 % de la DRAM serveur d'ici 2029.⁴⁶
CXL 4.0 trace l'avenir multi-rack
La publication de la spécification CXL 4.0 en novembre 2025 établit les fondations pour des architectures de centres de données véritablement désagrégées. Le doublement de la bande passante à 128GT/s via les couches physiques PCIe 7.0 répond aux préoccupations de performance qui ont limité l'adoption antérieure.⁴⁷ Les ports groupés agrègent plusieurs connexions physiques en attachements logiques uniques, permettant une bande passante de 768 Go/s dans chaque direction (1,536 To/s au total) sur les configurations x16 tout en maintenant des modèles logiciels simples.⁴⁸
Le support natif de la largeur de lien x2 augmente les capacités de fan-out pour les topologies de pooling de mémoire. Les versions CXL précédentes ne prenaient en charge x2 qu'en mode de secours pour les défaillances de voies ; CXL 4.0 optimise pleinement x2 pour les performances comme les largeurs x4 à x16.⁴⁹ Le support de portée étendue via jusqu'à quatre retimers permet des configurations multi-rack sans dégradation du signal.⁵⁰
Les systèmes multi-rack CXL 4.0 pourraient être déployés fin 2026 à 2027.⁵¹ La spécification maintient la rétrocompatibilité avec toutes les versions CXL antérieures, protégeant les investissements dans les équipements CXL 2.0 et 3.x existants.⁵² Avec la maturité de l'écosystème CXL 3.0 attendue tout au long de 2025, les centres de données commenceront à adopter des architectures où la mémoire et le calcul se désagrègent, se poolent et se réallouent dynamiquement d'ici 2026.⁵³
Construire la pile d'infrastructure CXL
Le déploiement de l'extension de mémoire CXL nécessite une coordination de l'écosystème au-delà
[Contenu tronqué pour la traduction]