UALink et CXL 4.0 : Les standards ouverts qui redéfinissent l'architecture des clusters GPU
La spécification UALink 1.0 publiée en avril 2025 permet une mise à l'échelle jusqu'à 1 024 accélérateurs sur un seul fabric, défiant directement l'écosystème propriétaire NVLink et NVSwitch de Nvidia. Sept mois plus tard, le CXL Consortium a publié CXL 4.0 le 18 novembre 2025, doublant la bande passante à 128 GT/s et permettant le pooling mémoire multi-rack. Ensemble, ces standards ouverts représentent le défi le plus significatif à la domination de Nvidia en matière d'interconnexion depuis l'introduction de NVLink par l'entreprise en 2016.
En bref
UALink 1.0 offre 200 GT/s par lane avec un support jusqu'à 1 024 accélérateurs, contre un maximum de 576 GPU pour NVLink. CXL 4.0 double la bande passante mémoire à 128 GT/s et introduit des ports groupés pour les charges de travail IA nécessitant une mémoire partagée à l'échelle du téraoctet. Le matériel supportant UALink arrivera fin 2026 chez AMD, Intel et Astera Labs, tandis que les déploiements multi-rack CXL 4.0 visent 2027. Pour les équipes infrastructure planifiant les clusters GPU de nouvelle génération, ces spécifications signalent une transition vers des architectures neutres vis-à-vis des fournisseurs, réduisant la dépendance tout en permettant une échelle sans précédent.
Le paysage des interconnexions en 2025
Les interconnexions GPU déterminent l'efficacité de la mise à l'échelle des clusters IA. Plus les accélérateurs peuvent échanger des données rapidement, plus les modèles qu'ils peuvent entraîner sont grands et plus ils servent efficacement les requêtes d'inférence.
Technologies d'interconnexion actuelles
| Technologie | Propriétaire | Bande passante | Échelle max. | Statut |
|---|---|---|---|---|
| NVLink 5.0 | Nvidia | 1,8 To/s par GPU | 576 GPU | Production (Blackwell) |
| NVLink 4.0 | Nvidia | 900 Go/s par GPU | 256 GPU | Production (Hopper) |
| Infinity Fabric | AMD | ~1,075 To/s par carte | 8 GPU (mesh direct) | Production (MI300X) |
| UALink 1.0 | Consortium | 800 Go/s (4 lanes) | 1 024 accélérateurs | Spec. publiée avril 2025 |
| CXL 4.0 | Consortium | 128 GT/s | Multi-rack | Spec. publiée nov. 2025 |
Le NVLink de Nvidia domine les déploiements en production, mais le système GB200 NVL72 illustre à la fois sa puissance et ses contraintes : 72 GPU Blackwell interconnectés avec une bande passante agrégée de 130 To/s, mais exclusivement au sein de l'écosystème propriétaire de Nvidia.
UALink 1.0 : Briser le verrouillage fournisseur
Formation du consortium
Le Ultra Accelerator Link Consortium s'est constitué en octobre 2024 avec les membres fondateurs AMD, Astera Labs, AWS, Cisco, Google, HPE, Intel, Meta et Microsoft. L'effort s'appuie sur les travaux qu'AMD et Broadcom ont annoncés en décembre 2023.
En janvier 2025, Alibaba Cloud, Apple et Synopsys ont rejoint le conseil d'administration, portant le nombre total de membres à 75 organisations.
Spécifications techniques
La spécification UALink 200G 1.0 définit une interconnexion à faible latence et haute bande passante pour la communication entre accélérateurs et switches dans les pods de calcul IA.
| Spécification | UALink 1.0 |
|---|---|
| Débit par lane | 200 GT/s bidirectionnel |
| Taux de signalisation | 212,5 GT/s (avec overhead FEC) |
| Largeurs de lien | x1, x2, x4 |
| Bande passante maximale | 800 Go/s (config. x4) |
| Échelle maximale | 1 024 accélérateurs |
| Longueur de câble | <4 mètres optimisé |
| Objectif de latence | <1 µs aller-retour (payloads 64B/640B) |
Les switches UALink assignent un port par accélérateur et utilisent des identifiants uniques de 10 bits pour un routage précis à travers le fabric.
UALink vs NVLink : Comparaison directe
| Métrique | UALink 1.0 | NVLink 4.0 (Hopper) | NVLink 5.0 (Blackwell) |
|---|---|---|---|
| Bande passante par GPU | 800 Go/s | 900 Go/s | 1,8 To/s |
| Liens par GPU | 4 | 18 | 18 |
| GPU maximum | 1 024 | 256 | 576 |
| Verrouillage fournisseur | Standard ouvert | Nvidia uniquement | Nvidia uniquement |
| Disponibilité matériel | Fin 2026/2027 | Production | Production |
NVLink 5.0 offre plus de 3x la bande passante par connexion par rapport à UALink 1.0 (2 538 Go/s vs 800 Go/s). Cependant, UALink supporte près de 2x la taille maximale de cluster (1 024 vs 576 GPU) et fonctionne avec plusieurs fournisseurs.
Différences de philosophie de conception
NVLink optimise pour les clusters GPU denses et homogènes où la bande passante maximale entre accélérateurs étroitement groupés compte le plus. La technologie excelle dans les systèmes DGX et les racks NVL72 où tous les composants proviennent de Nvidia.
UALink cible les architectures modulaires à l'échelle du rack où les organisations mélangent des accélérateurs de différents fournisseurs ou nécessitent des clusters logiques plus grands. Le standard ouvert permet aux AMD série MI, Intel Gaudi et futurs accélérateurs de communiquer via un fabric commun.
Position actuelle d'AMD
L'Infinity Fabric d'AMD connecte jusqu'à huit GPU MI300X ou MI355X dans un mesh entièrement connecté. Chaque MI300X dispose de sept liens Infinity Fabric avec 16 lanes par lien, offrant environ 1,075 To/s de bande passante pair-à-pair.
La limitation : la mise à l'échelle au-delà de 8 GPU nécessite du réseau Ethernet. La feuille de route d'AMD inclut AFL (Accelerated Fabric Link) fonctionnant sur des liens PCIe Gen7, plus l'adoption d'UALink pour l'interopérabilité multi-fournisseurs.
CXL 4.0 : La mémoire sans frontières
Le problème du mur mémoire
Les charges de travail IA atteignent de plus en plus les goulots d'étranglement mémoire avant les limites de calcul. Les grands modèles de langage nécessitent des téraoctets de mémoire pour les caches KV pendant l'inférence, tandis que les sessions d'entraînement en demandent encore plus pour les activations et les états de l'optimiseur.
Les architectures serveur traditionnelles attachent la mémoire directement aux CPU, créant une capacité bloquée lorsque les charges de travail varient. CXL découple la mémoire du calcul, permettant une allocation dynamique entre les nœuds.
Spécifications CXL 4.0
Le CXL Consortium a publié CXL 4.0 lors de Supercomputing 2025 le 18 novembre 2025.
| Spécification | CXL 3.0/3.1 | CXL 4.0 |
|---|---|---|
| Taux de signalisation | 64 GT/s | 128 GT/s |
| Génération PCIe | PCIe 6.0 | PCIe 7.0 |
| Bande passante | 256 Go/s (x16) | 512 Go/s (x16) |
| Retimers | 2 | 4 |
| Largeurs de lien | x16, x8, x4, x1 | x16, x8, x4, x2, x1 |
| Topologie | Mono-rack | Multi-rack |
Fonctionnalités clés de CXL 4.0
Ports groupés : CXL 4.0 introduit l'agrégation de ports permettant aux hôtes et appareils de combiner plusieurs ports physiques en une seule connexion logique. Cela offre une bande passante plus élevée tout en maintenant un modèle logiciel simple où le système voit un seul appareil.
Portée étendue : Quatre retimers permettent des configurations multi-rack sans sacrifier la qualité du signal. CXL 3.x limitait les déploiements aux topologies mono-rack ; CXL 4.0 étend le pooling mémoire à travers les allées du datacenter.
Capacité mémoire : Le pooling mémoire CXL permet plus de 100 téraoctets de mémoire attachés à un seul CPU, précieux pour les organisations exploitant de grands ensembles de données ou exécutant des charges de travail IA intensives en mémoire.
Liens x2 natifs : La nouvelle option de largeur de lien x2 réduit les coûts pour les applications nécessitant une bande passante modérée, améliorant l'économie CXL pour les déploiements edge.
Performance du pooling mémoire CXL
Les démonstrations lors de CXL DevCon 2025 ont montré deux serveurs avec des GPU NVIDIA H100 exécutant le modèle OPT-6.7B :
| Configuration | Performance |
|---|---|
| Pool mémoire CXL | Référence |
| RDMA 200G | 3,8x plus lent |
| RDMA 100G | 6,5x plus lent |
CXL fournit un accès sémantique mémoire avec une latence dans la plage 200-500 ns, contre ~100 µs pour NVMe et >10 ms pour le partage mémoire basé sur le stockage.
Gains en puissance et efficacité
La recherche montre que CXL peut [réduire la consommation électrique mémoire de 20 à 30%](https://computeexpresslink.org/blog/over
[Contenu tronqué pour la traduction]