UALink et CXL 4.0 : Les standards ouverts qui redéfinissent l'architecture des clusters GPU

UALink 1.0 défie NVLink avec une capacité de 1 024 GPU. CXL 4.0 double la bande passante à 128 GT/s. Guide technique des standards d'interconnexion ouverts pour l'infrastructure IA.

Blake Crosley

Feb 06, 2026 6 min read Disclaimer

UALink et CXL 4.0 : Les standards ouverts qui redéfinissent l'architecture des clusters GPU

La spécification UALink 1.0 publiée en avril 2025 permet une mise à l'échelle jusqu'à 1 024 accélérateurs sur un seul fabric, défiant directement l'écosystème propriétaire NVLink et NVSwitch de Nvidia. Sept mois plus tard, le CXL Consortium a publié CXL 4.0 le 18 novembre 2025, doublant la bande passante à 128 GT/s et permettant le pooling mémoire multi-rack. Ensemble, ces standards ouverts représentent le défi le plus significatif à la domination de Nvidia en matière d'interconnexion depuis l'introduction de NVLink par l'entreprise en 2016.

En bref

UALink 1.0 offre 200 GT/s par lane avec un support jusqu'à 1 024 accélérateurs, contre un maximum de 576 GPU pour NVLink. CXL 4.0 double la bande passante mémoire à 128 GT/s et introduit des ports groupés pour les charges de travail IA nécessitant une mémoire partagée à l'échelle du téraoctet. Le matériel supportant UALink arrivera fin 2026 chez AMD, Intel et Astera Labs, tandis que les déploiements multi-rack CXL 4.0 visent 2027. Pour les équipes infrastructure planifiant les clusters GPU de nouvelle génération, ces spécifications signalent une transition vers des architectures neutres vis-à-vis des fournisseurs, réduisant la dépendance tout en permettant une échelle sans précédent.

Le paysage des interconnexions en 2025

Les interconnexions GPU déterminent l'efficacité de la mise à l'échelle des clusters IA. Plus les accélérateurs peuvent échanger des données rapidement, plus les modèles qu'ils peuvent entraîner sont grands et plus ils servent efficacement les requêtes d'inférence.

Technologies d'interconnexion actuelles

Technologie	Propriétaire	Bande passante	Échelle max.	Statut
NVLink 5.0	Nvidia	1,8 To/s par GPU	576 GPU	Production (Blackwell)
NVLink 4.0	Nvidia	900 Go/s par GPU	256 GPU	Production (Hopper)
Infinity Fabric	AMD	~1,075 To/s par carte	8 GPU (mesh direct)	Production (MI300X)
UALink 1.0	Consortium	800 Go/s (4 lanes)	1 024 accélérateurs	Spec. publiée avril 2025
CXL 4.0	Consortium	128 GT/s	Multi-rack	Spec. publiée nov. 2025

Le NVLink de Nvidia domine les déploiements en production, mais le système GB200 NVL72 illustre à la fois sa puissance et ses contraintes : 72 GPU Blackwell interconnectés avec une bande passante agrégée de 130 To/s, mais exclusivement au sein de l'écosystème propriétaire de Nvidia.

UALink 1.0 : Briser le verrouillage fournisseur

Formation du consortium

Le Ultra Accelerator Link Consortium s'est constitué en octobre 2024 avec les membres fondateurs AMD, Astera Labs, AWS, Cisco, Google, HPE, Intel, Meta et Microsoft. L'effort s'appuie sur les travaux qu'AMD et Broadcom ont annoncés en décembre 2023.

En janvier 2025, Alibaba Cloud, Apple et Synopsys ont rejoint le conseil d'administration, portant le nombre total de membres à 75 organisations.

Spécifications techniques

La spécification UALink 200G 1.0 définit une interconnexion à faible latence et haute bande passante pour la communication entre accélérateurs et switches dans les pods de calcul IA.

Spécification	UALink 1.0
Débit par lane	200 GT/s bidirectionnel
Taux de signalisation	212,5 GT/s (avec overhead FEC)
Largeurs de lien	x1, x2, x4
Bande passante maximale	800 Go/s (config. x4)
Échelle maximale	1 024 accélérateurs
Longueur de câble	<4 mètres optimisé
Objectif de latence	<1 µs aller-retour (payloads 64B/640B)

Les switches UALink assignent un port par accélérateur et utilisent des identifiants uniques de 10 bits pour un routage précis à travers le fabric.

UALink vs NVLink : Comparaison directe

Métrique	UALink 1.0	NVLink 4.0 (Hopper)	NVLink 5.0 (Blackwell)
Bande passante par GPU	800 Go/s	900 Go/s	1,8 To/s
Liens par GPU	4	18	18
GPU maximum	1 024	256	576
Verrouillage fournisseur	Standard ouvert	Nvidia uniquement	Nvidia uniquement
Disponibilité matériel	Fin 2026/2027	Production	Production

NVLink 5.0 offre plus de 3x la bande passante par connexion par rapport à UALink 1.0 (2 538 Go/s vs 800 Go/s). Cependant, UALink supporte près de 2x la taille maximale de cluster (1 024 vs 576 GPU) et fonctionne avec plusieurs fournisseurs.

Différences de philosophie de conception

NVLink optimise pour les clusters GPU denses et homogènes où la bande passante maximale entre accélérateurs étroitement groupés compte le plus. La technologie excelle dans les systèmes DGX et les racks NVL72 où tous les composants proviennent de Nvidia.

UALink cible les architectures modulaires à l'échelle du rack où les organisations mélangent des accélérateurs de différents fournisseurs ou nécessitent des clusters logiques plus grands. Le standard ouvert permet aux AMD série MI, Intel Gaudi et futurs accélérateurs de communiquer via un fabric commun.

Position actuelle d'AMD

L'Infinity Fabric d'AMD connecte jusqu'à huit GPU MI300X ou MI355X dans un mesh entièrement connecté. Chaque MI300X dispose de sept liens Infinity Fabric avec 16 lanes par lien, offrant environ 1,075 To/s de bande passante pair-à-pair.

La limitation : la mise à l'échelle au-delà de 8 GPU nécessite du réseau Ethernet. La feuille de route d'AMD inclut AFL (Accelerated Fabric Link) fonctionnant sur des liens PCIe Gen7, plus l'adoption d'UALink pour l'interopérabilité multi-fournisseurs.

CXL 4.0 : La mémoire sans frontières

Le problème du mur mémoire

Les charges de travail IA atteignent de plus en plus les goulots d'étranglement mémoire avant les limites de calcul. Les grands modèles de langage nécessitent des téraoctets de mémoire pour les caches KV pendant l'inférence, tandis que les sessions d'entraînement en demandent encore plus pour les activations et les états de l'optimiseur.

Les architectures serveur traditionnelles attachent la mémoire directement aux CPU, créant une capacité bloquée lorsque les charges de travail varient. CXL découple la mémoire du calcul, permettant une allocation dynamique entre les nœuds.

Spécifications CXL 4.0

Le CXL Consortium a publié CXL 4.0 lors de Supercomputing 2025 le 18 novembre 2025.

Spécification	CXL 3.0/3.1	CXL 4.0
Taux de signalisation	64 GT/s	128 GT/s
Génération PCIe	PCIe 6.0	PCIe 7.0
Bande passante	256 Go/s (x16)	512 Go/s (x16)
Retimers	2	4
Largeurs de lien	x16, x8, x4, x1	x16, x8, x4, x2, x1
Topologie	Mono-rack	Multi-rack

Fonctionnalités clés de CXL 4.0

Ports groupés : CXL 4.0 introduit l'agrégation de ports permettant aux hôtes et appareils de combiner plusieurs ports physiques en une seule connexion logique. Cela offre une bande passante plus élevée tout en maintenant un modèle logiciel simple où le système voit un seul appareil.

Portée étendue : Quatre retimers permettent des configurations multi-rack sans sacrifier la qualité du signal. CXL 3.x limitait les déploiements aux topologies mono-rack ; CXL 4.0 étend le pooling mémoire à travers les allées du datacenter.

Capacité mémoire : Le pooling mémoire CXL permet plus de 100 téraoctets de mémoire attachés à un seul CPU, précieux pour les organisations exploitant de grands ensembles de données ou exécutant des charges de travail IA intensives en mémoire.

Liens x2 natifs : La nouvelle option de largeur de lien x2 réduit les coûts pour les applications nécessitant une bande passante modérée, améliorant l'économie CXL pour les déploiements edge.

Performance du pooling mémoire CXL

Les démonstrations lors de CXL DevCon 2025 ont montré deux serveurs avec des GPU NVIDIA H100 exécutant le modèle OPT-6.7B :

Configuration	Performance
Pool mémoire CXL	Référence
RDMA 200G	3,8x plus lent
RDMA 100G	6,5x plus lent

CXL fournit un accès sémantique mémoire avec une latence dans la plage 200-500 ns, contre ~100 µs pour NVMe et >10 ms pour le partage mémoire basé sur le stockage.

Gains en puissance et efficacité

La recherche montre que CXL peut [réduire la consommation électrique mémoire de 20 à 30%](https://computeexpresslink.org/blog/over

[Contenu tronqué pour la traduction]

UALink et CXL 4.0 : Les standards ouverts qui redéfinissent l'architecture des clusters GPU

En bref

Le paysage des interconnexions en 2025

Technologies d'interconnexion actuelles

UALink 1.0 : Briser le verrouillage fournisseur

Formation du consortium

Spécifications techniques

UALink vs NVLink : Comparaison directe

Différences de philosophie de conception

Position actuelle d'AMD

CXL 4.0 : La mémoire sans frontières

Le problème du mur mémoire

Spécifications CXL 4.0

Fonctionnalités clés de CXL 4.0

Performance du pooling mémoire CXL

Gains en puissance et efficacité

You Might Also Like

Corridor IA du Royaume-Uni : Le Hub de Calcul Émergent de Lo...

Calculateur de ROI pour le refroidissement par immersion : r...

Efficacité de l'Utilisation de l'Eau : Refroidissement des C...

Demander un devis_

Demande reçue_