NVLink et le réseau scale-up : quand l'Ethernet 800G ne suffit plus
Mis à jour le 11 décembre 2025
Mise à jour de décembre 2025 : NVLink 5 offre 1,8 To/s par GPU (18 liens × 100 Go/s) — 14 fois la bande passante de PCIe Gen5. Le GB200 NVL72 connecte 72 GPU avec 130 To/s de bande passante agrégée. NVSwitch permet 576 GPU dans un fabric de calcul non bloquant avec une bande passante totale de 1 Po/s. La cinquième génération de NVLink atteint 12 fois la bande passante de la première génération (2014). Le réseau scale-up crée des capacités que les réseaux scale-out ne peuvent égaler.
Un seul GPU NVIDIA Blackwell prend en charge jusqu'à 18 connexions NVLink à 100 gigaoctets par seconde chacune, offrant une bande passante totale de 1,8 téraoctet par seconde — 14 fois la bande passante de PCIe Gen5.¹ Le système GB200 NVL72 connecte 72 GPU dans un seul domaine NVLink avec 130 téraoctets par seconde de bande passante agrégée.² Le NVLink Switch de NVIDIA permet 576 GPU dans un fabric de calcul non bloquant avec plus d'1 pétaoctet par seconde de bande passante totale.³ Le réseau scale-up crée des capacités d'infrastructure que les réseaux scale-out Ethernet et InfiniBand ne peuvent égaler.
La distinction entre réseau scale-up et scale-out définit l'architecture moderne des infrastructures d'IA. NVLink et NVSwitch gèrent la communication au sein des nœuds et des racks, offrant la bande passante et la latence requises pour le parallélisme tensoriel sur les grands modèles. InfiniBand et Ethernet gèrent la communication entre les racks, fournissant la portée requise pour le parallélisme de données sur des milliers de GPU. Comprendre quand chaque technologie s'applique détermine si les investissements en infrastructure offrent les performances attendues.
Spécifications de la cinquième génération NVLink
La cinquième génération NVLink double la bande passante par rapport à la génération précédente.⁴ Chaque lien fonctionne à 100 gigaoctets par seconde en bidirectionnel, avec 18 liens par GPU Blackwell fournissant 1,8 téraoctet par seconde de bande passante agrégée.⁵ L'amélioration dépasse la bande passante de PCIe Gen5 de plus de 14 fois.⁶
L'évolution à travers les générations démontre la trajectoire :
| Génération | Architecture | Liens | Bande passante par GPU |
|---|---|---|---|
| 1ère (2018) | Volta V100 | 6 | 300 Go/s |
| 2ème (2020) | Ampere A100 | 12 | 600 Go/s |
| 3ème (2022) | Hopper H100 | 18 | 900 Go/s |
| 4ème (2024) | Blackwell B200 | 18 | 1,8 To/s |
La cinquième génération NVLink atteint 12 fois la bande passante de la première génération NVLink introduite en 2014.⁷ Le doublement de Hopper à Blackwell reflète les besoins croissants en bande passante des modèles à mille milliards de paramètres.
L'augmentation de la bande passante par lien de 50 gigaoctets par seconde dans NVLink 4 à 100 gigaoctets par seconde dans NVLink 5 permet à la même configuration de 18 liens de doubler le débit total.⁸ L'architecture maintient le nombre de liens tout en améliorant les taux de signalisation.
Évolution de l'architecture NVSwitch
NVIDIA a introduit NVSwitch avec le système DGX-2 en 2018 pour permettre une interconnectivité complète entre les GPU au sein d'un seul système.⁹ NVSwitch agit comme un commutateur crossbar haute vitesse et non bloquant pour le trafic NVLink, permettant à chaque GPU d'un système de communiquer avec tous les autres à pleine vitesse.¹⁰
Le DGX-2 comportait 16 GPU V100 connectés via la première génération de NVSwitch.¹¹ Chaque puce NVSwitch fournissait 18 ports NVLink avec 900 gigaoctets par seconde de capacité de commutation agrégée.¹² La puce de 100 watts fabriquée en TSMC 12nm contenait 2 milliards de transistors.¹³
La deuxième génération NVSwitch est arrivée avec le DGX A100 en 2020, prenant en charge NVLink 3.0 à 600 gigaoctets par seconde par GPU.¹⁴ Six puces NVSwitch créaient une topologie réseau entièrement connectée pour huit GPU A100.¹⁵
La troisième génération NVSwitch pour Hopper a augmenté à 25,6 térabits par seconde de bande passante bidirectionnelle totale par puce.¹⁶ Quatre puces NVSwitch dans chaque système HGX H100 et HGX H200 fournissent 3,6 téraoctets par seconde de bande passante réseau bidirectionnelle sur huit GPU.¹⁷ La troisième génération NVSwitch a introduit la fonctionnalité SHARP pour le calcul dans le réseau, agrégeant et mettant à jour les résultats sur plusieurs unités GPU sans nécessiter d'allers-retours vers les GPU individuels.¹⁸
La quatrième génération NVSwitch pour Blackwell dispose de 72 ports NVLink 5.0 par puce.¹⁹ Le NVLink 5 Switch fournit 144 ports NVLink avec une capacité de commutation non bloquante de 14,4 téraoctets par seconde.²⁰ Cette génération a introduit la commutation au niveau du rack, déplaçant NVSwitch des serveurs vers des plateaux de commutation dédiés.
Architecture scale-up du GB200 NVL72
Le GB200 NVL72 connecte 36 CPU Grace et 72 GPU Blackwell dans une conception refroidie par liquide à l'échelle du rack.²¹ Le domaine NVLink de 72 GPU agit comme un GPU unique et massif et offre une inférence en temps réel 30 fois plus rapide pour les grands modèles de langage à mille milliards de paramètres par rapport aux générations précédentes.²²
L'architecture physique distribue les composants entre les plateaux de calcul et les plateaux de commutation.²³ Chaque plateau de calcul contient deux Superchips GB200, chaque Superchip comprenant deux GPU B200 et un CPU Grace.²⁴ Le système contient 18 plateaux de calcul totalisant 72 GPU.
Neuf plateaux de commutation NVLink fournissent une connectivité en maillage complet.²⁵ Chaque plateau de commutation contient deux puces NVLink Switch avec 144 ports NVLink au total.²⁶ Les neuf commutateurs connectent entièrement chacun des 18 ports NVLink de chaque GPU Blackwell.²⁷
Aucune connectivité GPU à GPU directe n'existe au sein d'un seul serveur ou plateau de calcul.²⁸ Toute communication passe par le fabric NVSwitch externe.²⁹ Cette architecture rend les 72 GPU équivalents du point de vue de la connectivité — n'importe quel GPU peut communiquer avec n'importe quel autre à la même bande passante et latence.³⁰
La bande passante NVLink agrégée de 130 téraoctets par seconde permet le parallélisme tensoriel sur les 72 GPU.³¹ Les grands modèles qui dépassent la capacité mémoire d'un seul GPU peuvent distribuer les tenseurs sur l'ensemble du domaine avec un surcoût de communication minimal. L'architecture élimine la frontière traditionnelle entre le réseau serveur et rack pour les charges de travail scale-up.
Réseau scale-up versus scale-out
Le réseau scale-up (NVLink) et le réseau scale-out (InfiniBand et Ethernet) servent des objectifs fondamentalement différents dans l'infrastructure d'IA.³²
NVLink excelle dans la communication rapide entre GPU au sein d'un seul domaine — bien plus rapidement qu'InfiniBand, avec une bande passante de l'ordre de téraoctets par seconde pour les connexions locales.³³ La faible latence et la haute bande passante supportent le parallélisme tensoriel, où les poids du modèle sont distribués entre les GPU et doivent se synchroniser à chaque couche. Les 1,8 téraoctet par seconde de NVLink par GPU permettent cette synchronisation sans devenir un goulot d'étranglement.
NVLink n'aide pas une fois que la communication franchit les limites des nœuds.³⁴ Le réseau inter-nœuds nécessite InfiniBand ou Ethernet indépendamment de la capacité NVLink intra-nœud. Les technologies opèrent à différents niveaux de la hiérarchie.
InfiniBand fournit le standard industriel pour connecter des milliers de nœuds serveurs.³⁵ L'accès direct à la mémoire distante (RDMA) permet aux serveurs d'échanger des données directement entre espaces mémoire, contournant le CPU et le système d'exploitation.³⁶ Cette fonctionnalité s'avère essentielle pour l'entraînement distribué à grande échelle utilisant le parallélisme de données, où chaque nœud traite différents lots et synchronise les gradients.
InfiniBand reste la référence pour l'entraînement d'IA à grande échelle, connectant plus de 270 des meilleurs supercalculateurs mondiaux.³⁷ Le routage adaptatif, le contrôle de congestion et les capacités RDMA ont été conçus spécifiquement pour le calcul haute performance synchrone.
Ethernet dépasse InfiniBand pour les déploiements scale-out.³⁸ Le Spectrum-X de NVIDIA apporte les innovations InfiniBand à Ethernet, incluant le contrôle de congestion basé sur la télémétrie, l'équilibrage de charge adaptatif et le placement direct des données.³⁹ Les systèmes à grande échelle avec Spectrum-X ont atteint 95 % de débit de données sans dégradation de latence applicative, comparé à seulement 60 % de débit des fabrics Ethernet standard.⁴⁰
Le modèle hiérarchique combine ces technologies de manière appropriée. NVLink gère le scale-up au sein du rack, offrant environ 18 fois la bande passante du réseau scale-out.⁴¹ InfiniBand ou Ethernet gère le scale-out entre les racks, fournissant une portée sur des milliers de nœuds. Chaque plateau GPU dans les systèmes GB200 NVL72 inclut des NIC RDMA de 800 gigabits par seconde pour la communication inter-rack.⁴²
Domaines de 576 GPU et architecture SuperPOD
Le NVLink Switch permet 576 GPU entièrement connectés dans un fabric de calcul non bloquant.⁴³ Huit racks GB200 NVL72 forment un SuperPOD, créant un supernœud de 576 GPU avec plus d'1 pétaoctet par seconde de bande passante totale et 240 téraoctets de mémoire rapide.⁴⁴
Le DGX SuperPOD est construit sur des unités évolutives (SU), chacune contenant huit systèmes DGX GB200.⁴⁵ La conception modulaire permet un déploiement rapide de SuperPODs à n'importe quelle échelle. L'architecture de référence inclut les spécifications pour InfiniBand, le réseau NVLink, les topologies de fabric Ethernet, les systèmes de stockage, les agencements de racks et le câblage.⁴⁶
Le domaine de 576 GPU maintient la topologie NVLink entièrement connectée sur tous les racks du SuperPOD.⁴⁷ N'importe quel GPU peut communiquer avec n'importe quel autre à 1,8 téraoctet par seconde sans traverser le réseau scale-out.⁴⁸ La taille du domaine correspond aux exigences des plus grands modèles de fondation actuellement en entraînement.
Le déploiement SuperPOD nécessite une installation sur site.⁴⁹ Les clients possèdent et gèrent le matériel dans leurs propres centres de données ou installations commerciales en colocation. L'architecture reflète les systèmes internes de recherche et développement de NVIDIA, ce qui signifie que les logiciels d'infrastructure, les applications et le support sont testés sur des configurations identiques.⁵⁰
Les fournisseurs cloud Microsoft Azure, Oracle Cloud et CoreWeave se sont engagés à prendre en charge l'architecture X800 lorsqu'elle sera disponible en 2025.⁵¹ Les déploiements cloud étendent les capacités SuperPOD aux organisations qui ne peuvent justifier une infrastructure dédiée sur site.
Déploiement Kubernetes en entreprise
Les systèmes Multi-Node NVLink (MNNVL) nécessitent une configuration Kubernetes spécialisée.⁵² Kubernetes ne reconnaît pas nativement l'architecture MNNVL de NVIDIA, rendant la gestion et l'ordonnancement des charges de travail plus complexes que les déploiements GPU standard.⁵³
Les exigences de déploiement incluent Kubernetes 1.32 ou ultérieur et NVIDIA GPU Operator version 25.3 ou supérieure.⁵⁴ La version du GPU Operator doit inclure le pilote Dynamic Resource Allocation (DRA), qui fournit le support des ressources réseau accélérées GB200 et la fonctionnalité ComputeDomain.⁵⁵ NVIDIA Network Operator gère la configuration réseau.
Le service IMEX prend en charge l'export et l'import de mémoire GPU entre les domaines OS dans les déploiements multi-nœuds NVLink.⁵⁶ Le service permet la communication pair-à-pair NVLink et les opérations de mémoire partagée à travers le domaine.
Lorsque des charges de travail distribuées ciblent des pools de nœuds MNNVL, la plateforme crée une définition de ressource personnalisée (CRD) ComputeDomain pour gérer les attributions de domaine NVLink.⁵⁷ Une référence au ComputeDomain s'attache automatiquement aux spécifications de charge de travail comme réclamation de ressource, permettant à l'ordonnanceur de lier les charges de travail à des domaines NVLink spécifiques.⁵⁸
Les règles d'affinité de pod utilisent la clé de label MNNVL (nvidia.com/gpu.clique) comme clé de topologie.⁵⁹ La configuration garantit que les pods des charges de travail distribuées atterrissent sur des nœuds avec des interconnexions NVLink, maintenant la topologie requise pour les performances.⁶⁰
Considérations de planification d'infrastructure
Les organisations évaluant l'infrastructure NVLink devraient d'abord considérer les caractéristiques des charges de travail. Le parallélisme tensoriel sur les grands modèles bénéficie directement de la bande passante NVLink. Le parallélisme de données sur de nombreux modèles plus petits peut ne pas nécessiter les capacités de NVLink et peut atteindre des performances adéquates avec le seul réseau scale-out.
Le GB200 NVL72 représente un engagement d'infrastructure significatif. Les exigences de refroidissement liquide, l'intégration à l'échelle du rack et le réseau spécialisé dépassent la complexité des architectures refroidies par air et centrées sur les serveurs. Les organisations devraient valider que les charges de travail nécessitent ces capacités avant de s'engager.
L'infrastructure d'alimentation et de refroidissement doit accommoder le refroidissement liquide dès le déploiement initial. Le GB200 NVL72 ne peut pas fonctionner avec un refroidissement par air. La mise à niveau des installations pour le refroidissement liquide après le déploiement est coûteuse et perturbatrice.
La planification réseau devrait aborder les exigences scale-up et scale-out. Le fabric NVLink gère la communication intra-rack, mais inter
[Contenu tronqué pour la traduction]