UALink et CXL 4.0 : Les standards ouverts qui redéfinissent l'architecture des clusters GPU

UALink 1.0 défie NVLink avec une capacité de 1 024 GPU. CXL 4.0 double la bande passante à 128 GT/s. Guide technique des standards d'interconnexion ouverts pour l'infrastructure IA.

UALink et CXL 4.0 : Les standards ouverts qui redéfinissent l'architecture des clusters GPU

UALink et CXL 4.0 : Les standards ouverts qui redéfinissent l'architecture des clusters GPU

La spécification UALink 1.0 publiée en avril 2025 permet une mise à l'échelle jusqu'à 1 024 accélérateurs sur un seul fabric, défiant directement l'écosystème propriétaire NVLink et NVSwitch de Nvidia. Sept mois plus tard, le CXL Consortium a publié CXL 4.0 le 18 novembre 2025, doublant la bande passante à 128 GT/s et permettant le pooling mémoire multi-rack. Ensemble, ces standards ouverts représentent le défi le plus significatif à la domination de Nvidia en matière d'interconnexion depuis l'introduction de NVLink par l'entreprise en 2016.

En bref

UALink 1.0 offre 200 GT/s par lane avec un support jusqu'à 1 024 accélérateurs, contre un maximum de 576 GPU pour NVLink. CXL 4.0 double la bande passante mémoire à 128 GT/s et introduit des ports groupés pour les charges de travail IA nécessitant une mémoire partagée à l'échelle du téraoctet. Le matériel supportant UALink arrivera fin 2026 chez AMD, Intel et Astera Labs, tandis que les déploiements multi-rack CXL 4.0 visent 2027. Pour les équipes infrastructure planifiant les clusters GPU de nouvelle génération, ces spécifications signalent une transition vers des architectures neutres vis-à-vis des fournisseurs, réduisant la dépendance tout en permettant une échelle sans précédent.


Le paysage des interconnexions en 2025

Les interconnexions GPU déterminent l'efficacité de la mise à l'échelle des clusters IA. Plus les accélérateurs peuvent échanger des données rapidement, plus les modèles qu'ils peuvent entraîner sont grands et plus ils servent efficacement les requêtes d'inférence.

Technologies d'interconnexion actuelles

Technologie Propriétaire Bande passante Échelle max. Statut
NVLink 5.0 Nvidia 1,8 To/s par GPU 576 GPU Production (Blackwell)
NVLink 4.0 Nvidia 900 Go/s par GPU 256 GPU Production (Hopper)
Infinity Fabric AMD ~1,075 To/s par carte 8 GPU (mesh direct) Production (MI300X)
UALink 1.0 Consortium 800 Go/s (4 lanes) 1 024 accélérateurs Spec. publiée avril 2025
CXL 4.0 Consortium 128 GT/s Multi-rack Spec. publiée nov. 2025

Le NVLink de Nvidia domine les déploiements en production, mais le système GB200 NVL72 illustre à la fois sa puissance et ses contraintes : 72 GPU Blackwell interconnectés avec une bande passante agrégée de 130 To/s, mais exclusivement au sein de l'écosystème propriétaire de Nvidia.


Formation du consortium

Le Ultra Accelerator Link Consortium s'est constitué en octobre 2024 avec les membres fondateurs AMD, Astera Labs, AWS, Cisco, Google, HPE, Intel, Meta et Microsoft. L'effort s'appuie sur les travaux qu'AMD et Broadcom ont annoncés en décembre 2023.

En janvier 2025, Alibaba Cloud, Apple et Synopsys ont rejoint le conseil d'administration, portant le nombre total de membres à 75 organisations.

Spécifications techniques

La spécification UALink 200G 1.0 définit une interconnexion à faible latence et haute bande passante pour la communication entre accélérateurs et switches dans les pods de calcul IA.

Spécification UALink 1.0
Débit par lane 200 GT/s bidirectionnel
Taux de signalisation 212,5 GT/s (avec overhead FEC)
Largeurs de lien x1, x2, x4
Bande passante maximale 800 Go/s (config. x4)
Échelle maximale 1 024 accélérateurs
Longueur de câble <4 mètres optimisé
Objectif de latence <1 µs aller-retour (payloads 64B/640B)

Les switches UALink assignent un port par accélérateur et utilisent des identifiants uniques de 10 bits pour un routage précis à travers le fabric.

Métrique UALink 1.0 NVLink 4.0 (Hopper) NVLink 5.0 (Blackwell)
Bande passante par GPU 800 Go/s 900 Go/s 1,8 To/s
Liens par GPU 4 18 18
GPU maximum 1 024 256 576
Verrouillage fournisseur Standard ouvert Nvidia uniquement Nvidia uniquement
Disponibilité matériel Fin 2026/2027 Production Production

NVLink 5.0 offre plus de 3x la bande passante par connexion par rapport à UALink 1.0 (2 538 Go/s vs 800 Go/s). Cependant, UALink supporte près de 2x la taille maximale de cluster (1 024 vs 576 GPU) et fonctionne avec plusieurs fournisseurs.

Différences de philosophie de conception

NVLink optimise pour les clusters GPU denses et homogènes où la bande passante maximale entre accélérateurs étroitement groupés compte le plus. La technologie excelle dans les systèmes DGX et les racks NVL72 où tous les composants proviennent de Nvidia.

UALink cible les architectures modulaires à l'échelle du rack où les organisations mélangent des accélérateurs de différents fournisseurs ou nécessitent des clusters logiques plus grands. Le standard ouvert permet aux AMD série MI, Intel Gaudi et futurs accélérateurs de communiquer via un fabric commun.

Position actuelle d'AMD

L'Infinity Fabric d'AMD connecte jusqu'à huit GPU MI300X ou MI355X dans un mesh entièrement connecté. Chaque MI300X dispose de sept liens Infinity Fabric avec 16 lanes par lien, offrant environ 1,075 To/s de bande passante pair-à-pair.

La limitation : la mise à l'échelle au-delà de 8 GPU nécessite du réseau Ethernet. La feuille de route d'AMD inclut AFL (Accelerated Fabric Link) fonctionnant sur des liens PCIe Gen7, plus l'adoption d'UALink pour l'interopérabilité multi-fournisseurs.


CXL 4.0 : La mémoire sans frontières

Le problème du mur mémoire

Les charges de travail IA atteignent de plus en plus les goulots d'étranglement mémoire avant les limites de calcul. Les grands modèles de langage nécessitent des téraoctets de mémoire pour les caches KV pendant l'inférence, tandis que les sessions d'entraînement en demandent encore plus pour les activations et les états de l'optimiseur.

Les architectures serveur traditionnelles attachent la mémoire directement aux CPU, créant une capacité bloquée lorsque les charges de travail varient. CXL découple la mémoire du calcul, permettant une allocation dynamique entre les nœuds.

Spécifications CXL 4.0

Le CXL Consortium a publié CXL 4.0 lors de Supercomputing 2025 le 18 novembre 2025.

Spécification CXL 3.0/3.1 CXL 4.0
Taux de signalisation 64 GT/s 128 GT/s
Génération PCIe PCIe 6.0 PCIe 7.0
Bande passante 256 Go/s (x16) 512 Go/s (x16)
Retimers 2 4
Largeurs de lien x16, x8, x4, x1 x16, x8, x4, x2, x1
Topologie Mono-rack Multi-rack

Fonctionnalités clés de CXL 4.0

Ports groupés : CXL 4.0 introduit l'agrégation de ports permettant aux hôtes et appareils de combiner plusieurs ports physiques en une seule connexion logique. Cela offre une bande passante plus élevée tout en maintenant un modèle logiciel simple où le système voit un seul appareil.

Portée étendue : Quatre retimers permettent des configurations multi-rack sans sacrifier la qualité du signal. CXL 3.x limitait les déploiements aux topologies mono-rack ; CXL 4.0 étend le pooling mémoire à travers les allées du datacenter.

Capacité mémoire : Le pooling mémoire CXL permet plus de 100 téraoctets de mémoire attachés à un seul CPU, précieux pour les organisations exploitant de grands ensembles de données ou exécutant des charges de travail IA intensives en mémoire.

Liens x2 natifs : La nouvelle option de largeur de lien x2 réduit les coûts pour les applications nécessitant une bande passante modérée, améliorant l'économie CXL pour les déploiements edge.

Performance du pooling mémoire CXL

Les démonstrations lors de CXL DevCon 2025 ont montré deux serveurs avec des GPU NVIDIA H100 exécutant le modèle OPT-6.7B :

Configuration Performance
Pool mémoire CXL Référence
RDMA 200G 3,8x plus lent
RDMA 100G 6,5x plus lent

CXL fournit un accès sémantique mémoire avec une latence dans la plage 200-500 ns, contre ~100 µs pour NVMe et >10 ms pour le partage mémoire basé sur le stockage.

Gains en puissance et efficacité

La recherche montre que CXL peut [réduire la consommation électrique mémoire de 20 à 30%](https://computeexpresslink.org/blog/over

[Contenu tronqué pour la traduction]

Demander un devis_

Parlez-nous de votre projet et nous vous répondrons sous 72 heures.

> TRANSMISSION_TERMINÉE

Demande reçue_

Merci pour votre demande. Notre équipe examinera votre requête et vous répondra sous 72 heures.

EN ATTENTE DE TRAITEMENT