Réseau 800G pour l'IA : planifier votre fabric GPU de nouvelle génération
Mis à jour le 11 décembre 2025
Mise à jour de décembre 2025 : Les plateformes InfiniBand Quantum-X800 et Ethernet Spectrum-X800 de NVIDIA sont désormais livrées en volume. Microsoft Azure déploie des fabrics fat-tree 800G entièrement non-bloquants pour les clusters GB200/GB300. L'Ultra Ethernet Consortium accélère les améliorations spécifiques à l'IA tandis que les essais 1,6T commencent. La densité de puissance reste la contrainte de déploiement : les modules 800G consommant 14 à 20 W par port mettent à rude épreuve les conceptions de refroidissement des racks.
La majorité des ports de commutation livrés dans les clusters IA en 2025 fonctionnent à 800 gigabits par seconde.¹ D'ici 2027, la majorité passera à 1,6 térabits. D'ici 2030, la plupart des ports fonctionneront à 3,2 térabits.² Cela implique que les couches électriques des réseaux de data centers devront être remplacées à chaque génération de bande passante, un cycle de mise à niveau bien plus agressif que ce qui a été historiquement observé dans les réseaux d'entreprise. Les organisations planifiant leur infrastructure IA doivent tenir compte de transitions réseau qui se produiront plus rapidement que toute génération technologique précédente.
Le chiffre d'affaires réseau de NVIDIA a presque doublé en glissement annuel pour atteindre 7,3 milliards de dollars, porté par la forte adoption d'Ethernet Spectrum-X, d'InfiniBand XDR et des systèmes de scale-up NVLink.³ Spectrum-X a dépassé un taux de revenus annualisé de 10 milliards de dollars.⁴ Cet investissement signale que le réseau pour l'IA représente un marché distinct du réseau traditionnel de data center, avec des exigences et une économie qui justifient un développement de produits dédié et une planification d'infrastructure spécifique.
Le 800G devient le standard de 2025
Les recherches industrielles et les feuilles de route des fournisseurs positionnent les optiques 800G comme la technologie dominante pour les nouveaux déploiements de clusters IA et de grands data centers en 2025, particulièrement dans les formats OSFP et QSFP-DD.⁵ Les fournisseurs et analystes s'attendent à ce que les transceivers 800G soient le fer de lance des grands fabrics IA, avec des essais précoces pour le 1,6T déjà en cours de développement.⁶
La montée en puissance rapide de la plateforme Blackwell Ultra de NVIDIA a alimenté une forte demande de commutateurs InfiniBand 800 Gbps, propulsant une hausse des ventes de commutateurs InfiniBand au T2 2025.⁷ Alors que les ventes de commutateurs InfiniBand dans les réseaux back-end IA ont bondi, Ethernet maintient sa position de leader global. Les commutateurs 800 Gbps constituent l'essentiel des livraisons et des revenus de commutateurs Ethernet et InfiniBand dans les réseaux back-end IA.⁸
Les derniers déploiements NVIDIA GB200 et GB300 de Microsoft communiquent via NVLink et NVSwitch à des térabits par seconde au niveau du rack.⁹ Pour connecter plusieurs racks en un pod, Azure utilise à la fois des fabrics InfiniBand et Ethernet délivrant 800 Gbps dans une architecture fat-tree entièrement non-bloquante.¹⁰ L'approche hybride reflète les rôles complémentaires des différentes technologies réseau dans l'infrastructure IA à grande échelle.
La connectivité optique pilotée par l'IA, incluant les modules 400G et 800G, croîtra à un taux annuel composé supérieur à 22 % d'ici 2030, en grande partie grâce aux clusters d'entraînement et d'inférence IA à grande échelle.¹¹ Cette trajectoire de croissance justifie des investissements d'infrastructure qui anticipent une expansion pluriannuelle des besoins réseau pour l'IA.
Les plateformes réseau 800G de NVIDIA
NVIDIA Quantum-X800 InfiniBand et Spectrum-X800 Ethernet représentent les premières plateformes réseau au monde capables d'un débit de bout en bout de 800 Gb/s.¹² La plateforme Quantum-X800, conçue spécifiquement pour les modèles IA à l'échelle du trillion de paramètres, comprend le commutateur InfiniBand Quantum-X800, le SuperNIC ConnectX-8, le SuperNIC ConnectX-9, ainsi que les câbles et transceivers LinkX.¹³
Le commutateur InfiniBand Quantum-X800 fournit 144 ports de connectivité 800 Gb/s par port.¹⁴ Cette densité de ports permet de construire des fabrics à grande échelle avec moins de niveaux de commutation, réduisant la latence et la complexité. Pour les organisations entraînant les plus grands modèles IA, InfiniBand continue d'offrir la plus faible latence et la meilleure cohérence de performance à grande échelle.
Les commutateurs photoniques Quantum-X et Spectrum-X de NVIDIA intègrent la photonique sur silicium directement dans le boîtier du commutateur, offrant 128 à 512 ports de 800 Gb/s avec des bandes passantes totales allant de 100 Tb/s à 400 Tb/s.¹⁵ Cette intégration offre une efficacité énergétique 3,5 fois supérieure et une résilience 10 fois meilleure par rapport aux optiques traditionnelles.¹⁶
Cisco Nexus Hyperfabric AI avec le commutateur Cisco G200 Silicon One géré dans le cloud offre de l'Ethernet 800G haute densité, désormais disponible à la commande comme option de déploiement dans les AI PODs.¹⁷ Le partenariat entre Cisco et NVIDIA sur le réseau IA démontre comment les fournisseurs traditionnels de réseau d'entreprise s'adaptent aux exigences de l'infrastructure IA.
Considérations InfiniBand versus Ethernet
Ethernet dominera la plupart des déploiements IA d'entreprise en raison de ses avantages de coût et d'écosystème, tandis qu'InfiniBand restera le choix pour les clusters IA et HPC à très grande échelle.¹⁸ Cette distinction est importante pour la planification d'infrastructure : les organisations devraient choisir la technologie en fonction des caractéristiques de la charge de travail plutôt que de se rabattre sur des options familières.
InfiniBand offre une latence plus faible d'environ 1 à 2 microsecondes et une meilleure cohérence de performance à grande échelle.¹⁹ Ethernet avec RoCEv2 offre une latence d'environ 5 à 10 microsecondes et peut être optimisé pour les charges de travail IA.²⁰ La différence de latence compte pour les tâches d'entraînement où les opérations collectives se synchronisent sur des milliers de GPU. Les charges de travail d'inférence avec des exigences de synchronisation moindres peuvent ne pas bénéficier des avantages de latence d'InfiniBand.
Les analystes projettent qu'Ethernet deviendra la technologie la plus importante pour le réseau IA, dépassant InfiniBand à mesure que le 800G monte en puissance et que le 1,6T prend forme.²¹ L'adhésion fondatrice de NVIDIA à l'Ultra Ethernet Consortium et la sortie des commutateurs Ethernet Spectrum-X 800G optimisés pour l'IA signalent leur confiance dans l'avenir d'Ethernet pour l'IA.²² L'Ultra Ethernet Consortium développe des améliorations spécifiquement pour les charges de travail IA.
Déployer un fabric Ethernet 800G haute performance et sans perte maximise la valeur de l'investissement IA.²³ Le réseau sert de système nerveux central, crucial pour maximiser l'efficacité et le retour sur investissement. L'optimisation fine du fabric réseau accélère le temps de complétion des tâches et assure une utilisation élevée des GPU.²⁴
Défis de migration et planification
Les optiques 800G introduisent de nouveaux défis que les organisations doivent aborder lors de la planification de la migration. La densité de puissance et thermique augmente substantiellement, les modules 800G consommant 14 à 20 watts ou plus, mettant à rude épreuve la conception du refroidissement des commutateurs et les budgets de puissance des racks.²⁵ Les organisations doivent vérifier que l'infrastructure existante peut supporter les exigences accrues de puissance et de refroidissement.
La gestion des fibres devient plus complexe. Migrer vers le 800G nécessite souvent des comptages de fibres plus élevés, du câblage MTP, et des exigences de polarité et de propreté plus strictes.²⁶ L'infrastructure de couche physique qui fonctionnait pour le 100G ou le 400G peut ne pas supporter le 800G sans mises à niveau. Les investissements dans l'infrastructure de câblage devraient anticiper les besoins futurs en bande passante pour éviter des remplacements d'infrastructure répétés.
L'interopérabilité et la validation entre différents fournisseurs de commutateurs et de NIC nécessitent une planification minutieuse.²⁷ Les environnements multi-fournisseurs peuvent rencontrer des problèmes de compatibilité que les déploiements homogènes évitent. Les organisations devraient valider l'interopérabilité dans des environnements de laboratoire avant le déploiement en production.
Le cycle de mise à niveau agressif du 800G vers le 1,6T puis le 3,2T en moins de cinq ans diffère des transitions réseau historiques. La planification devrait tenir compte d'un remplacement d'infrastructure plus fréquent que ce que le réseau traditionnel de data center a connu. Les conceptions modulaires permettant des mises à niveau au niveau des composants peuvent réduire les coûts totaux de remplacement.
Recommandations stratégiques
Les organisations planifiant leur infrastructure IA devraient évaluer les exigences réseau avec la même rigueur appliquée à la sélection des GPU. Le réseau détermine l'efficacité d'utilisation des ressources GPU coûteuses. Sous-investir dans le réseau crée des goulots d'étranglement qui gaspillent la capacité GPU.
Pour les nouveaux déploiements IA en 2025, le 800G devrait être la spécification par défaut pour la connectivité au niveau spine. La connectivité au niveau leaf peut utiliser du 400G selon les configurations GPU et la tolérance à la sursouscription. L'investissement dans l'infrastructure 800G offre une marge de manœuvre pour la croissance des charges de travail et prépare les transitions futures.
InfiniBand reste approprié pour les plus grands clusters d'entraînement IA où la minimisation de la latence améliore directement l'efficacité de l'entraînement. Les déploiements IA d'entreprise, les services IA basés sur le cloud et les charges de travail d'inférence bénéficient généralement des avantages de coût d'Ethernet et de son intégration dans l'écosystème sans sacrifier de performance significative.
Les contraintes de puissance et de refroidissement peuvent limiter l'adoption du 800G plus que les besoins en bande passante. Les organisations devraient auditer la capacité de leur infrastructure avant de s'engager dans des déploiements 800G. Le budget de puissance pour le réseau peut entrer en concurrence avec les besoins de puissance des GPU dans les installations contraintes.
Cadre de décision rapide
Sélection de la technologie :
| Si votre charge de travail est... | Choisissez | Justification |
|---|---|---|
| Entraînement LLM (>1000 GPU) | InfiniBand 800G | Latence 1-2µs, meilleure cohérence |
| IA d'entreprise/inférence | Ethernet 800G | Rentable, intégration écosystème |
| Entraînement + inférence hybride | Double fabric | InfiniBand pour l'entraînement, Ethernet pour l'inférence |
| IA déployée dans le cloud | Dépend du fournisseur | GCP est Ethernet uniquement ; AWS/Azure offrent les deux |
Planification de la bande passante :
| Échelle du cluster | Spine | Leaf | Sursouscription |
|---|---|---|---|
| <256 GPU | 400G | 100G | 4:1 acceptable |
| 256-1024 GPU | 800G | 400G | 2:1 recommandé |
| 1024-4096 GPU | 800G | 800G | 1:1 (non-bloquant) |
| >4096 GPU | 800G multi-niveau | 800G | Conception fat-tree |
Points clés à retenir
Pour les architectes réseau : - Le 800G est le standard 2025 ; planifiez le 1,6T pour 2027, le 3,2T pour 2030 - NVIDIA Quantum-X800 délivre 144 ports × 800 Gb/s par commutateur - InfiniBand : ~1-2µs de latence ; Ethernet avec RoCEv2 : ~5-10µs - Consommation électrique : les modules 800G consomment 14-20 W, impactant les budgets des racks
Pour les planificateurs d'infrastructure : - Les couches électriques du réseau nécessitent un remplacement à chaque génération de bande passante - Les optiques 800G nécessitent des comptages de fibres plus élevés, du câblage MTP, une propreté plus stricte - La validation de l'interopérabilité est critique dans les environnements multi-fournisseurs - Les conceptions modulaires réduisent les coûts totaux de remplacement pendant les transitions
Pour la planification stratégique : - Ethernet devrait dépasser InfiniBand pour le réseau IA à mesure que le 800G monte en puissance - NVIDIA Spectrum-X a atteint un taux annualisé de 10 milliards de dollars — le réseau IA est un marché distinct - L'Ultra Ethernet Consortium développe des améliorations spécifiques à l'IA - L'investissement réseau détermine l'utilisation des GPU — sous-investir gaspille le calcul
Le réseau représente une composante significative mais souvent sous-estimée du coût de l'infrastructure IA. L'investissement requis pour supporter les clusters GPU avec une bande passante appropriée justifie une planification minutieuse et une évaluation des fournisseurs. Les organisations qui traitent le réseau comme une considération secondaire découvriront que les limitations réseau contraignent les capacités IA que leurs investissements GPU pourraient autrement permettre.
Références
-
Dell'Oro Group. "Beyond the GPU Arms Race — The Potential Role of OXC in Building Next Gen AI Infrastructure." 2025. https://www.delloro.com/beyond-the-gpu-arms-race-the-potential-role-of-oxc-in-building-next-gen-ai-infrastructure/
-
Dell'Oro Group. "Beyond the GPU Arms Race."
-
NVIDIA Newsroom. "NVIDIA Announces New Switches Optimized for Trillion-Parameter GPU Computing and AI Infrastructure." 2025. https://nvidianews.nvidia.com/news/networking-switches-gpu-computing-ai
-
NVIDIA Newsroom. "NVIDIA Announces New Switches."
-
QSFP DD 800G. "2025 800G Optical Module Trends for AI Data Centers." 2025. https://qsfpdd800g.com/blogs/artical/2025-800g-optical-module-trends-ai-data-centers
-
QSFP DD 800G. "2025 800G Optical Module Trends."
-
Lightwave Online. "Ethernet maintains a lead over InfiniBand in the AI race." 2025. https://www.lightwaveonline.com/home/article/55315256/ethernet-maintains-a-lead-over-infiniband-in-the-ai-race
-
Lightwave Online. "Ethernet maintains a lead over InfiniBand."
-
Microsoft Blog. "Inside the world's most powerful AI datacenter." September 18, 2025. https://blogs.microsoft.com/blog/2025/09/18/inside-the-worlds-most-powerf
[Contenu tronqué pour la traduction]