InfiniBand vs Ethernet pour les clusters GPU : Guide de décision pour les architectures réseau 800G
Mis à jour le 8 décembre 2025
Mise à jour de décembre 2025 : Le NVIDIA Spectrum-X 800G Ethernet est désormais disponible et validé pour les déploiements Blackwell, réduisant l'avantage d'InfiniBand pour certaines charges de travail spécifiques. Le NDR 400G InfiniBand reste dominant pour les clusters d'entraînement, avec le déploiement progressif du XDR 800G. L'Ultra Ethernet Consortium a publié la spécification UEC 1.0 en 2024, avec des produits conformes attendus pour 2025-2026. Les réseaux de clusters IA deviennent de plus en plus hybrides—InfiniBand pour l'entraînement, Ethernet pour l'inférence. Les optiques 1,6T commencent à apparaître dans les feuilles de route pour 2026-2027.
Le réseau connectant 10 000 GPU détermine s'ils fonctionnent comme un supercalculateur unifié ou comme une collection coûteuse de processeurs isolés, pourtant la plupart des équipes d'infrastructure prennent cette décision à 50 millions de dollars sur la base du marketing des fournisseurs plutôt que d'une analyse technique.¹ Meta s'est standardisé sur Ethernet après avoir découvert que l'avantage de 15 % en performance d'InfiniBand ne pouvait justifier un coût total de possession 2,3 fois plus élevé sur leur flotte de 600 000 GPU.² Pendant ce temps, OpenAI attribue au contrôle de congestion supérieur d'InfiniBand le mérite d'avoir permis à l'entraînement de GPT-4 de se terminer 40 % plus rapidement que les tentatives initiales basées sur Ethernet.³ Ces expériences contradictoires révèlent une vérité fondamentale : le choix « correct » dépend entièrement des caractéristiques de la charge de travail, des ambitions de mise à l'échelle et des contraintes économiques.
Les décisions d'architecture réseau se répercutent pendant des années sur tous les aspects de l'infrastructure IA. L'écosystème propriétaire d'InfiniBand verrouille les organisations dans la feuille de route de NVIDIA mais offre des performances prévisibles pour l'entraînement distribué. Les standards ouverts d'Ethernet permettent la flexibilité des fournisseurs et l'optimisation des coûts mais nécessitent un réglage sophistiqué pour égaler l'efficacité native d'InfiniBand. Le choix affecte non seulement les déploiements actuels mais aussi la scalabilité future, car changer de technologie ultérieurement signifie remplacer des millions de dollars en commutateurs, câbles et cartes réseau.
Les enjeux s'intensifient à chaque génération de matériel. Le Spectrum-X de NVIDIA promet d'apporter des performances similaires à InfiniBand sur Ethernet à des vitesses de 800 Gbps, rendant potentiellement obsolète l'avantage d'InfiniBand.⁴ L'Ultra Ethernet Consortium d'Intel pousse des standards ouverts qui pourraient fragmenter davantage le marché.⁵ Les organisations déployant leur infrastructure aujourd'hui doivent prédire quelle technologie dominera en 2030, lorsque les investissements actuels seront entièrement amortis. De mauvaises prédictions bloquent les actifs et contraignent les capacités au moment même où la concurrence en IA s'intensifie.
Les architectures techniques révèlent des différences fondamentales
InfiniBand a émergé des exigences du supercalcul où les microsecondes déterminent le succès ou l'échec. L'architecture suppose une transmission sans perte grâce à un contrôle de flux basé sur les crédits, où les émetteurs ne transmettent que lorsque les récepteurs garantissent la disponibilité des tampons.⁶ Cela élimine les pertes de paquets mais nécessite un couplage étroit entre les points de terminaison. Chaque appareil InfiniBand participe aux décisions de routage centralisées d'un gestionnaire de sous-réseau, créant des chemins déterministes optimisés pour des modèles de trafic spécifiques. L'approche offre une latence constante inférieure à la microseconde mais peine avec les charges de travail dynamiques qui s'écartent des modèles attendus.
Ethernet a évolué à partir des réseaux locaux où la simplicité et l'interopérabilité importaient plus que la performance absolue. L'architecture suppose une transmission avec pertes et une livraison au mieux, s'appuyant sur des protocoles de couche supérieure pour la fiabilité. Les pertes de paquets déclenchent des algorithmes de contrôle de congestion qui réduisent les taux de transmission, empêchant l'effondrement du réseau mais augmentant la variance de latence. Les décisions de routage distribuées d'Ethernet permettent une échelle et une flexibilité massives mais créent des performances imprévisibles sous charge. L'Ethernet moderne des centres de données ajoute des fonctionnalités comme le Priority Flow Control et l'Explicit Congestion Notification pour approcher le comportement sans perte d'InfiniBand.⁷
Les capacités RDMA (Remote Direct Memory Access) distinguent les deux technologies de la mise en réseau traditionnelle. InfiniBand a inclus RDMA nativement, permettant des transferts de mémoire directs entre systèmes sans intervention du CPU.⁸ RDMA sur InfiniBand atteint une latence de 0,5 microseconde pour les petits messages, 10 fois mieux que la mise en réseau basée sur le noyau. Ethernet a ajouté RDMA via RoCE (RDMA over Converged Ethernet), offrant des performances similaires lorsqu'il est correctement configuré. Cependant, RoCE nécessite des conditions réseau impeccables qui s'avèrent difficiles à maintenir à grande échelle.
Les architectures de commutation diffèrent fondamentalement entre les technologies. Les commutateurs InfiniBand fonctionnent comme des fabrics crossbar avec une bande passante non bloquante entre tous les ports.⁹ Un commutateur InfiniBand HDR à 40 ports fournit 16 Tb/s de bande passante agrégée avec une latence constante quel que soit le modèle de trafic. Les commutateurs Ethernet utilisent des architectures à mémoire partagée avec multiplexage statistique, atteignant des densités de ports plus élevées mais des performances variables sous congestion. La différence architecturale signifie qu'InfiniBand maintient des performances prévisibles tandis qu'Ethernet offre une meilleure économie.
Les plans de gestion reflètent des approches philosophiques différentes. Le Subnet Manager d'InfiniBand fournit un contrôle centralisé avec une visibilité globale sur la topologie et le trafic.¹⁰ Le gestionnaire calcule les routes optimales, gère les pannes et maintient la qualité de service sans intervention manuelle. Ethernet s'appuie sur des protocoles distribués comme spanning tree, OSPF ou BGP qui nécessitent une configuration soigneuse. Le réseau défini par logiciel apporte un contrôle centralisé à Ethernet mais ajoute de la complexité et des points de défaillance potentiels. La différence de gestion affecte significativement la charge opérationnelle à grande échelle.
Les métriques de performance au-delà de la bande passante brute
Les mesures de latence révèlent des différences nuancées entre les technologies. InfiniBand HDR atteint une latence de 0,6 microseconde de port à port de manière constante pour toutes les tailles de messages.¹¹ Ethernet à 100 Gbps montre une latence de base de 1,2 microseconde qui se dégrade à plus de 50 microsecondes sous congestion. La différence de base de 2x devient 100x sous charge. Pour l'entraînement distribué où la synchronisation des gradients se produit des millions de fois, les différences en microsecondes se composent en heures de temps d'entraînement supplémentaires.
L'efficacité de la bande passante raconte une histoire différente des spécifications marketing. InfiniBand délivre 95 % de la bande passante théorique pour les grands transferts grâce à un encodage efficace et un overhead protocolaire minimal.¹² InfiniBand 200 Gbps maintient un débit réel de 190 Gbps. L'overhead d'Ethernet varie selon la configuration : l'Ethernet standard atteint 85 % d'efficacité, tandis que RoCE v2 atteint 92 % avec un réglage approprié. L'écart d'efficacité se réduit aux vitesses de 800 Gbps où les deux technologies utilisent un encodage PAM4 similaire.
Le comportement en cas de congestion sépare les technologies de manière dramatique. Le contrôle de flux basé sur les crédits d'InfiniBand empêche la congestion en arrêtant la transmission avant que les tampons ne débordent.¹³ Les performances se dégradent gracieusement à mesure que la charge augmente. Les pertes de paquets d'Ethernet déclenchent des algorithmes de recul de type TCP qui créent des modèles de débit en dents de scie. Les scénarios d'incast où plusieurs émetteurs submergent un seul récepteur causent un effondrement catastrophique des performances sur un Ethernet mal réglé. InfiniBand gère le même scénario avec une dégradation minimale.
Les tests de scalabilité exposent les limites architecturales. Les fabrics InfiniBand peuvent évoluer jusqu'à 48 000 nœuds dans un seul sous-réseau avec des topologies fat tree à trois niveaux.¹⁴ Les déploiements plus importants nécessitent plusieurs sous-réseaux connectés par des routeurs, ajoutant de la complexité. Ethernet évolue jusqu'à des millions de nœuds en utilisant un routage hiérarchique mais nécessite une conception soigneuse pour maintenir les performances. Les centres de données de Facebook connectent plus de 100 000 serveurs en utilisant Ethernet avec des protocoles personnalisés pour l'ingénierie du trafic.¹⁵ Les exemples montrent que les deux technologies évoluent, mais par des mécanismes différents.
Les métriques de fiabilité favorisent légèrement InfiniBand dans les environnements contrôlés. La transmission sans perte et la migration automatique de chemin d'InfiniBand atteignent 99,999 % de livraison des paquets.¹⁶ Ethernet avec une redondance appropriée atteint 99,995 % de fiabilité, acceptable pour la plupart des charges de travail. Cependant, l'intégration plus étroite d'InfiniBand signifie que des défaillances de composants uniques peuvent déstabiliser des fabrics entiers. Le couplage lâche d'Ethernet contient mieux les pannes, empêchant les effets de cascade. La différence de fiabilité compte le plus pour les travaux d'entraînement de longue durée où toute interruption gaspille des millions en temps de calcul.
L'analyse des coûts bouleverse la sagesse conventionnelle
Les coûts matériels ne racontent qu'une partie de l'histoire économique. Les adaptateurs InfiniBand HDR coûtent 2 000-3 000 $ par port contre 800-1 500 $ pour des cartes Ethernet équivalentes.¹⁷ Un commutateur InfiniBand à 40 ports coûte 50 000 $ contre 25 000 $ pour Ethernet. Le câblage ajoute une autre prime : les câbles DAC InfiniBand coûtent 500-800 $ tandis que les équivalents Ethernet sont à 200-400 $. Pour un cluster de 1 000 GPU, le matériel InfiniBand coûte 15 millions de dollars contre 7 millions pour Ethernet, une prime de 8 millions de dollars qui semble prohibitive.
Les dépenses opérationnelles modifient significativement le calcul. La gestion automatisée d'InfiniBand réduit la charge administrative de 60 % par rapport à Ethernet.¹⁸ Un ingénieur réseau peut gérer 10 000 ports InfiniBand contre 4 000 ports Ethernet nécessitant une configuration manuelle. Les économies de main-d'œuvre s'élèvent à 500 000 $ annuellement pour les grands déploiements. L'efficacité supérieure d'InfiniBand réduit également la consommation d'énergie de 15 %, économisant 200 000 $ par an pour une installation d'un mégawatt.
Les licences logicielles créent des dépenses cachées que beaucoup négligent. La pile OFED (OpenFabrics Enterprise Distribution) d'InfiniBand est open source avec des contrats de support optionnels.¹⁹ L'Ethernet d'entreprise nécessite souvent des licences logicielles coûteuses pour les fonctionnalités avancées : VMware NSX coûte 5 000 $ par CPU, Cisco ACI atteint 50 000 $ par commutateur.²⁰ Ces licences peuvent dépasser les coûts matériels sur des cycles de déploiement de cinq ans. Les initiatives de mise en réseau ouverte comme SONiC réduisent les coûts logiciels Ethernet mais nécessitent un investissement en ingénierie.
Les modèles de coût total de possession dépendent fortement des hypothèses d'utilisation. Si l'avantage de 15 % en performance d'InfiniBand se traduit par un entraînement 15 % plus rapide, les économies de temps justifient le prix premium pour les organisations où la vitesse détermine l'avantage concurrentiel. Une organisation dépensant 1 million de dollars par mois en calcul GPU économise 150 000 $ grâce à une complétion plus rapide. Sur trois ans, les économies dépassent le premium d'InfiniBand. Cependant, si les charges de travail ne bénéficient pas des avantages d'InfiniBand, le premium devient un pur gaspillage.
Les coûts de verrouillage fournisseur s'avèrent difficiles à quantifier mais impactent significativement l'économie à long terme. InfiniBand verrouille les organisations dans l'écosystème NVIDIA, limitant le pouvoir de négociation et les choix technologiques.²¹ La diversité des fournisseurs Ethernet permet des appels d'offres compétitifs qui réduisent les coûts de 20-30 %. Cependant, changer de fournisseur Ethernet nécessite une ré-ingénierie qui coûte des millions. La véritable indépendance vis-à-vis des fournisseurs reste illusoire quel que soit le choix technologique.
La maturité de l'écosystème logiciel varie considérablement
La stabilité des pilotes affecte la fiabilité en production plus que les spécifications matérielles. Les pilotes OFED Mellanox d'InfiniBand subissent des tests extensifs avec les GPU NVIDIA, assurant la compatibilité sur toutes les piles logicielles.²² La version 5.8 d'OFED supporte chaque version de CUDA de manière transparente. La qualité des pilotes Ethernet varie selon le fournisseur : le pilote ice d'Intel s'avère solide comme un roc, tandis que certains fournisseurs livrent des pilotes qui causent des kernel panic sous charge. Les problèmes de pilotes causent des défaillances mystérieuses qui gaspillent des semaines de temps de débogage.
L'intégration des frameworks détermine la productivité des développeurs. PyTorch et TensorFlow optimisent pour InfiniBand grâce au support natif UCX, atteignant des performances quasi-théoriques sans réglage.²³ NCCL (NVIDIA Collective Communications Library) inclut des optimisations spécifiques à InfiniBand qui accélèrent les opérations all-reduce de 30 %.²⁴ Le support Ethernet existe mais nécessite une configuration manuelle des paramètres RoCE, des algorithmes de contrôle de congestion et des tailles de tampons. L'écart d'intégration se réduit à mesure que les frameworks ajoutent des optimisations Ethernet, mais InfiniBand maintient un avantage de facilité d'utilisation.
Les outils de gestion reflètent les différences de maturité de l'écosystème. L'UFM (Unified Fabric Manager) de NVIDIA fournit une surveillance complète d'InfiniBand, détectant automatiquement
[Contenu tronqué pour la traduction]