Commutateurs InfiniBand : NVIDIA Quantum-X800 et la génération XDR au cœur des supercalculateurs IA

Le marché InfiniBand atteint 25,7 milliards de dollars en 2025, avec une projection de 127 milliards de dollars d'ici 2030 (TCAC de 38 %). Le Quantum-X800 offre 144 ports à 800 Gbps XDR avec 14,4 TFLOPS de calcul intégré au réseau (9x par rapport au NDR). Latence port-à-port inférieure à 100 ns...

Commutateurs InfiniBand : NVIDIA Quantum-X800 et la génération XDR au cœur des supercalculateurs IA

Commutateurs InfiniBand : NVIDIA Quantum-X800 et la génération XDR au cœur des supercalculateurs IA

Mise à jour le 11 décembre 2025

Mise à jour de décembre 2025 : Le marché InfiniBand atteint 25,7 milliards de dollars en 2025, avec une projection de 126,99 milliards de dollars d'ici 2030 (TCAC de 37,60 %). Le Quantum-X800 offre 144 ports à 800 Gbps XDR avec 14,4 TFLOPS de calcul intégré au réseau (9x par rapport au NDR). Latence port-à-port inférieure à 100 ns. Les 64 000 GB200 de Stargate et le supercluster à l'échelle zetta de 131 000 GPU d'Oracle fonctionnent sur InfiniBand.

Les ventes de commutateurs InfiniBand ont bondi au T2 2025, portées par la demande en réseaux 800 Gbps générée par la plateforme Blackwell Ultra de NVIDIA.¹ Le marché InfiniBand, évalué à 25,74 milliards de dollars en 2025, devrait atteindre 126,99 milliards de dollars d'ici 2030, soit un taux de croissance annuel composé de 37,60 %.² Bien qu'Ethernet conserve sa position de leader sur le marché global des réseaux back-end pour l'IA, InfiniBand domine les déploiements les plus performants où une latence mesurée en centaines de nanosecondes détermine l'efficacité de l'entraînement.

La plateforme Quantum-X800 représente la réponse de NVIDIA aux exigences des modèles à mille milliards de paramètres. Avec 144 ports de connectivité à 800 Gbps, 14,4 téraflops de calcul intégré au réseau via SHARP v4 et une latence port-à-port inférieure à 100 nanosecondes, la génération XDR double la bande passante tout en offrant 9 fois plus de calcul intégré au réseau que la plateforme NDR précédente.³ Des installations majeures, notamment les 64 000 systèmes GB200 de Stargate et le supercluster à l'échelle zetta de 131 000 GPU d'Oracle, s'appuient sur NVIDIA InfiniBand pour maintenir la synchronisation étroite que nécessite l'entraînement distribué de l'IA.⁴

L'évolution du NDR vers le XDR

Les générations InfiniBand progressent par incréments de vitesse standardisés : QDR (40 Gbps), FDR (56 Gbps), EDR (100 Gbps), HDR (200 Gbps), NDR (400 Gbps), et maintenant XDR (800 Gbps).⁵ Chaque génération double la bande passante par port tout en maintenant la faible latence et la fiabilité matérielle qui différencient InfiniBand des alternatives Ethernet.

Le NDR (Next Data Rate), introduit en 2021, offrait des ports à 400 Gbps utilisant quatre voies de SerDes encodées en PAM-4 fonctionnant à 51,6 GHz.⁶ Les ASICs Quantum-2 alimentant les commutateurs NDR fournissent 256 voies SerDes avec une bande passante unidirectionnelle de 25,6 Tbps, traitant 66,5 milliards de paquets par seconde sur 64 ports de connectivité à 400 Gbps.⁷ Le NDR a introduit les connecteurs OSFP pour InfiniBand, permettant un ou deux liens en configurations 2x (NDR200) ou 4x (NDR400).⁸

La spécification XDR (eXtreme Data Rate), publiée par l'InfiniBand Trade Association en octobre 2023, double la bande passante pour répondre aux demandes des centres de données IA et HPC.⁹ La prise en charge SerDes à 200 Gbps par voie permet des ports à 800 Gbps, avec des connexions commutateur à commutateur atteignant 1,6 Tbps.¹⁰ Le XDR introduit la quatrième génération de SHARP, des améliorations de latence ultra-faible, des capacités d'auto-réparation et l'intégration de la photonique silicium.¹¹

La feuille de route se poursuit vers la technologie GDR (Giga Data Rate) offrant 1,6 Tbps par port pour les générations futures, garantissant qu'InfiniBand maintienne sa position de leader en performance.¹²

Architecture de la plateforme NVIDIA Quantum-X800

La plateforme Quantum-X800 offre la première implémentation InfiniBand XDR, conçue spécifiquement pour les modèles IA à l'échelle du billion de paramètres.¹³ Le commutateur Q3400-RA 4U exploite la technologie SerDes à 200 Gbps par voie, le premier silicium de commutation à atteindre cette classe de vitesse.¹⁴

La densité de ports augmente considérablement. Le commutateur fournit 144 ports de connectivité à 800 Gbps répartis sur 72 emplacements OSFP.¹⁵ Un radix élevé permet des topologies de fabric efficaces, avec un fat-tree à deux niveaux capable de connecter jusqu'à 10 368 NICs ConnectX-8 avec une latence minimale et une localité de tâches optimale.¹⁶

Les spécifications de performance ciblent les charges de travail IA les plus exigeantes. La latence port-à-port est inférieure à 100 nanosecondes.¹⁷ Le routage adaptatif distribue dynamiquement le trafic sur les chemins disponibles. Le contrôle de congestion basé sur la télémétrie prévient la saturation du réseau avant qu'elle n'impacte l'utilisation des GPU.¹⁸

Les boîtiers à double commutateur dans des modèles comme le Q3200-RA fournissent 72 ports à 800 Gbps avec une bande passante agrégée de 1,6 Tbps commutateur à commutateur, permettant les topologies spine-leaf que nécessitent les grands clusters IA.¹⁹ Des capacités de routeur optionnelles facilitent l'expansion des clusters InfiniBand sur plusieurs sites, prenant en charge les environnements d'entraînement distribué s'étendant sur plusieurs emplacements géographiques.²⁰

Le calcul intégré au réseau SHARP élimine les goulots d'étranglement

Le protocole SHARP (Scalable Hierarchical Aggregation and Reduction Protocol) de NVIDIA représente l'avantage technologique déterminant d'InfiniBand par rapport aux alternatives Ethernet. En déchargeant les opérations collectives comme all-reduce et broadcast vers les commutateurs réseau, SHARP réduit significativement le volume de transfert de données et minimise la gigue serveur pendant l'entraînement distribué.²¹

L'évolution à travers quatre générations a progressivement étendu les capacités de SHARP :

SHARPv1 s'est concentré sur les opérations de réduction de petits messages pour le calcul scientifique, démontrant des améliorations de performance substantielles adoptées par les principales bibliothèques MPI.²²

SHARPv2, introduit avec les commutateurs Quantum HDR 200 Gbps, a ajouté la prise en charge des charges de travail IA, y compris les opérations de réduction de grands messages. Les benchmarks ont démontré une amélioration de 17 % des performances d'entraînement BERT.²³

SHARPv3 a permis le calcul intégré au réseau multi-tenant, permettant à plusieurs charges de travail IA d'exploiter simultanément les capacités SHARP. Microsoft Azure a présenté un bénéfice de performance de près d'un ordre de grandeur pour la latence AllReduce avec cette génération.²⁴

SHARPv4 est livré en standard avec les commutateurs Quantum-X800 et Quantum-X Photonics, permettant l'agrégation et la réduction intégrées au réseau qui minimisent les surcoûts de communication GPU à GPU.²⁵ Combiné à la prise en charge de la précision FP8, SHARP v4 accélère l'entraînement des modèles à mille milliards de paramètres en réduisant à la fois les demandes de bande passante et de calcul, offrant une convergence plus rapide et un débit plus élevé.²⁶

La technologie s'intègre avec NVIDIA Collective Communication Library (NCCL), permettant aux frameworks d'entraînement IA distribué d'exploiter SHARP automatiquement. Les fournisseurs de services rapportent des améliorations de performance de 10 à 20 % pour les charges de travail IA grâce à l'intégration SHARP.²⁷ Les commutateurs réseau effectuent l'agrégation et la réduction directement, contournant les CPU et GPU pour ces tâches tout en doublant la bande passante AllReduce par rapport aux configurations sans SHARP.²⁸

Le SuperNIC ConnectX-8 offre des terminaux à 800 Gbps

La plateforme Quantum-X800 s'associe aux adaptateurs SuperNIC ConnectX-8 pour atteindre un débit de bout en bout de 800 Gbps.²⁹ Le C8180 représente le premier SuperNIC double protocole 800 Gbps de NVIDIA prenant en charge à la fois InfiniBand et Ethernet, conçu pour les clusters de calcul haute performance IA, les réseaux de supercalcul et les architectures de centres de données de nouvelle génération.³⁰

Les spécifications techniques font progresser considérablement les capacités des adaptateurs. L'interface OSFP à port unique fournit 800 Gbps InfiniBand XDR ou deux ports Ethernet à 400 Gbps.³¹ La connectivité PCIe Gen6 x16 fournit la bande passante d'interface hôte correspondant aux vitesses réseau.³² L'auto-négociation prend en charge la rétrocompatibilité avec les vitesses InfiniBand XDR, NDR, NDR200, HDR, HDR100, EDR, FDR et SDR.³³

Les innovations architecturales vont au-delà de la bande passante brute. ConnectX-8 intègre la prise en charge native de PCIe Gen6 avec un fabric de commutation PCIe intégré, éliminant les exigences de commutateur PCIe externe.³⁴ L'adaptateur contient 48 voies PCIe Gen6 derrière l'interface de connecteur x16.³⁵ La prise en charge native de SHARP accélère les opérations d'agrégation et de réduction directement dans le matériel de l'adaptateur.³⁶

La technologie Socket Direct répond aux architectures de serveurs à double socket. L'accès direct de chaque CPU au réseau via des interfaces PCIe dédiées améliore les performances dans les systèmes où la topologie CPU-réseau impacte la latence.³⁷ Le GB300 NVL72 représente le premier déploiement de la capacité SuperNIC PCIe Gen6, se connectant aux CPU Grace à des vitesses Gen5 tout en maintenant des liens Gen6 vers les GPU B300.³⁸

Unified Fabric Manager orchestre à grande échelle

La plateforme UFM révolutionne la gestion du fabric InfiniBand en combinant la télémétrie réseau en temps réel avec des analyses alimentées par l'IA.³⁹ La solution basée sur l'hôte fournit une visibilité complète sur la gestion du fabric, le routage, le provisionnement et le dépannage.

L'architecture UFM s'étend sur plusieurs composants. Le serveur UFM maintient une visibilité complète du fabric et gère le routage sur tous les appareils. Les dispositifs de commutation gérés incluent les commutateurs fabric, les passerelles et les routeurs sous contrôle UFM. Les agents hôtes UFM optionnels sur les nœuds de calcul fournissent des données hôtes locales et des fonctionnalités de gestion des appareils.⁴⁰

Trois niveaux de plateforme répondent à différentes exigences opérationnelles :

UFM Telemetry collecte plus de 120 compteurs uniques par port, y compris le taux d'erreur binaire, la température, les histogrammes et les retransmissions.⁴¹ Les données permettent de prédire les câbles marginaux avant que les défaillances n'impactent les charges de travail de production.

UFM Enterprise ajoute la surveillance réseau, la gestion, les optimisations de charge de travail et la validation périodique de la configuration.⁴² L'intégration avec les planificateurs de tâches Slurm et Platform LSF permet le provisionnement réseau automatisé aligné sur la planification des charges de travail. Les intégrations OpenStack et Azure prennent en charge les modèles de déploiement cloud.⁴³

UFM Cyber-AI fournit des capacités de maintenance préventive et de cybersécurité pour réduire les coûts opérationnels des supercalculateurs.⁴⁴ Le déploiement sur appliance dédiée permet l'analyse de fabric alimentée par l'IA sur site.

Le SDK UFM offre des intégrations tierces étendues, notamment des plug-ins Grafana, FluentD, Zabbix et Slurm via l'accès API REST.⁴⁵ Des projets open source permettent l'intégration SLURM pour surveiller la bande passante réseau, la congestion, les erreurs et l'utilisation des ressources sur les nœuds de calcul des tâches.

Les principaux déploiements de supercalculateurs valident la plateforme

Les plus grands systèmes IA du monde se standardisent sur le réseau NVIDIA InfiniBand. Les déploiements actuels et planifiés démontrent les capacités de la plateforme Quantum à grande échelle.

Le centre de données IA Stargate a commencé l'installation de 64 000 systèmes GB200 en mars 2025, interconnectés par InfiniBand 800 Gbps pour des services IA multi-exaflop.⁴⁶ Le déploiement représente l'une des premières implémentations XDR à grande échelle.

xAI Colossus exploite 100 000 GPU H100 utilisant des commutateurs Quantum-2, maintenant une latence de 850 nanosecondes dans le pire des cas sur trois niveaux de réseau.⁴⁷ Le cluster de Memphis entraîne la famille Grok de grands modèles de langage de xAI.

Le supercluster à l'échelle zetta d'Oracle prévoit 131 000 GPU GB200 connectés via le fabric Quantum InfiniBand, démontrant l'engagement des fournisseurs cloud envers InfiniBand pour une infrastructure IA à performance maximale.⁴⁸

El Capitan au Lawrence Livermore National Laboratory dépassera 2 exaflops en utilisant InfiniBand 200 Gbps, démontrant la pertinence continue du réseau de classe NDR pour le calcul scientifique.⁴⁹

JUPITER (250 millions d'euros) et Blue Lion (250 millions d'euros) en Europe ont choisi les fabrics Quantum-2 répondant à des exigences strictes d'efficacité énergétique tout en offrant les performances que demandent les charges de travail scientifiques.⁵⁰

Le chiffre d'affaires réseau de NVIDIA a atteint 10 milliards de dollars par an, presque entièrement lié aux fabrics InfiniBand alimentant les clouds IA commerciaux.⁵¹ Microsoft Azure et Oracle Cloud Infrastructure représentent les premiers adoptants de Quantum InfiniBand parmi les fournisseurs hyperscale.⁵²

Positionnement InfiniBand versus Ethernet

Les dynamiques de marché reflètent un positionnement distinct pour chaque technologie. Lorsque Dell'Oro Group a commencé la couverture des réseaux back-end IA fin 2023, InfiniBand détenait plus de 80 % de part de marché.⁵³ Ethernet a depuis gagné du terrain grâce à l'adoption par les hyperscalers et aux avantages de coût, maintenant le leadership global du marché en 2025.⁵⁴

Les caractéristiques de performance différencient les technologies. InfiniBand offre une latence sous la microseconde grâce au RDMA accéléré matériellement et au calcul intégré au réseau. Ethernet atteint un débit compétitif lorsqu'il est correctement configuré avec RoCE, mais nécessite une configuration réseau sans perte soigneuse et manque de capacités équivalentes de calcul intégré au réseau.

Les structures de coût favorisent Ethernet pour de nombreux déploiements. Les entreprises de niveau 2 et 3 déployant des clusters de 256 à 1 024 GPU trouvent généralement qu'Ethernet avec RoCE offre des performances acceptables pour environ la moitié du coût réseau.⁵⁵ La proposition de valeur d'InfiniBand se renforce à plus grande échelle où le calcul intégré au réseau SHARP et des limites de latence plus strictes se traduisent

[Contenu tronqué pour la traduction]

Demander un devis_

Parlez-nous de votre projet et nous vous répondrons sous 72 heures.

> TRANSMISSION_TERMINÉE

Demande reçue_

Merci pour votre demande. Notre équipe examinera votre requête et vous répondra sous 72 heures.

EN ATTENTE DE TRAITEMENT