Réseau optique pour l'IA : 400ZR et optique cohérente pour l'interconnexion GPU
Mis à jour le 8 décembre 2025
Mise à jour de décembre 2025 : L'optique cohérente 800G (800ZR+) est désormais disponible chez plusieurs fournisseurs, notamment Cisco, Ciena et Infinera. Démonstrations d'optique co-packagée (CPO) avec une capacité de commutation de 51,2T. L'optique enfichable à commande linéaire réduit la consommation de 40 % par rapport aux solutions basées sur DSP. Le NVLink-C2C de NVIDIA utilise la photonique silicium pour l'interconnexion optique puce à puce dans les racks GB200 NVL72. Le marché de l'optique pour les centres de données IA devrait atteindre 8,2 milliards de dollars d'ici 2028, porté par les interconnexions GPU à l'échelle du rack nécessitant plus de 400G par liaison.
Le superordinateur TPU v5p de Google atteint 8,5 exaflops de puissance de calcul en interconnectant 8 960 puces à l'aide de commutateurs à circuits optiques qui délivrent 4 pétabits par seconde de bande passante agrégée avec des temps de commutation inférieurs à 10 nanosecondes, permettant une reconfiguration dynamique de la topologie qui améliore la vitesse d'entraînement de 2,7x par rapport à la commutation électronique traditionnelle.¹ L'interconnexion optique du géant de la recherche consomme 5 watts par liaison de 100 Gbps contre 35 watts pour les commutateurs électroniques — un gain d'efficacité énergétique de 7x qui économise 24 millions de dollars annuellement en coûts d'électricité sur l'ensemble de leur infrastructure IA. Les câbles en cuivre traditionnels atteignent leurs limites physiques à 3 mètres pour les connexions 400 Gbps, obligeant les centres de données à adopter des interconnexions optiques qui maintiennent l'intégrité du signal sur 2 kilomètres tout en éliminant les interférences électromagnétiques qui corrompent les calculs de gradient pendant l'entraînement distribué. Les organisations déployant des réseaux optiques pour l'IA rapportent une réduction de 50 % de la complexité du câblage, une variance de latence inférieure de 85 %, et la capacité de reconfigurer dynamiquement la topologie réseau pour correspondre à des architectures de modèles spécifiques.²
La croissance explosive des paramètres des modèles d'IA — de 175 milliards pour GPT-3 à 1,7 trillion estimé pour GPT-4 — exige une bande passante réseau qui double tous les 6 mois, dépassant largement les améliorations de la loi de Moore en matière de calcul.³ La technologie optique cohérente, empruntée aux télécommunications longue distance, apparaît désormais à l'intérieur des centres de données avec des émetteurs-récepteurs 400ZR délivrant 400 Gbps sur fibre monomode à 4 $ par gigabit contre 12 $ pour l'optique traditionnelle. La photonique silicium promet d'intégrer les composants optiques directement sur les GPU, éliminant la conversion électrique-optique qui consomme actuellement 30 % du budget énergétique réseau. Les organisations maîtrisant les interconnexions optiques pour l'infrastructure IA acquièrent des avantages durables grâce à une densité de bande passante supérieure, une consommation d'énergie réduite et une flexibilité réseau impossible avec les architectures basées sur le cuivre.
Fondamentaux de l'optique cohérente pour les centres de données
La technologie optique cohérente révolutionne les réseaux de centres de données en encodant l'information à la fois dans l'amplitude et la phase des ondes lumineuses :
Principes de détection cohérente : La détection directe traditionnelle mesure uniquement l'intensité lumineuse, atteignant un maximum de 100 Gbps par longueur d'onde. La détection cohérente capture les informations d'amplitude, de phase et de polarisation, permettant 800 Gbps par longueur d'onde en utilisant la modulation 16-QAM.⁴ Les processeurs de signaux numériques compensent la dispersion chromatique et la dispersion modale de polarisation en temps réel. Les récepteurs cohérents atteignent une sensibilité supérieure de 20 dB à la détection directe, étendant la portée de 10 km à 120 km sans amplification.
Implémentation du standard 400ZR : La spécification OIF 400ZR définit des interfaces cohérentes interopérables de 400 Gbps optimisées pour l'interconnexion de centres de données.⁵ La modulation 16-QAM encode 4 bits par symbole sur double polarisation. La correction d'erreurs directe concaténée atteint un taux d'erreur binaire de 10^-15. Le format QSFP-DD maintient la rétrocompatibilité avec l'infrastructure existante. La consommation d'énergie reste sous 15 watts permettant un déploiement haute densité.
Intégration de la photonique silicium : Les émetteurs-récepteurs photoniques silicium d'Intel intègrent lasers, modulateurs et détecteurs sur des puces uniques.⁶ Les processus de fabrication CMOS réduisent les coûts de 90 % par rapport aux composants discrets. Les guides d'ondes gravés dans le silicium acheminent les signaux optiques avec une perte de 0,1 dB/cm. Les résonateurs à micro-anneaux permettent le multiplexage en longueur d'onde sur puce. L'intégration monolithique élimine 80 % des connexions optiques qui causent des problèmes de fiabilité.
Avantages de l'optique cohérente pour les charges de travail IA : - 8x plus de bande passante par fibre par rapport à la détection directe - Portée de 100 km sans stations d'amplification - Compensation numérique des dégradations optiques - Modulation flexible s'adaptant aux exigences de distance - Accordabilité en longueur d'onde permettant le routage dynamique - Correction d'erreurs directe garantissant l'intégrité des données
Modèles d'architecture réseau
Les réseaux optiques pour l'IA suivent des modèles architecturaux distincts optimisant la bande passante et la flexibilité :
Fabric optique Spine-Leaf : L'architecture spine-leaf entièrement optique élimine la commutation électronique dans le chemin de données. Les commutateurs leaf se connectent aux serveurs GPU en utilisant des émetteurs-récepteurs 400ZR. La couche spine utilise des commutateurs sélectifs en longueur d'onde routant des lambdas spécifiques. Chaque liaison spine-leaf transporte 32 longueurs d'onde à 400 Gbps totalisant 12,8 Tbps. Les amplificateurs optiques amplifient les signaux sans conversion optique-électrique-optique. Le trafic est-ouest entre GPU contourne entièrement la commutation électronique.
Commutation de circuits optiques : Le réseau Jupiter de Google utilise des commutateurs à circuits optiques pour le transfert de données en masse.⁷ Un contrôleur SDN centralisé programme les chemins optiques en fonction des demandes de trafic. L'établissement de circuit prend 10 nanosecondes contre 500 nanosecondes pour la commutation de paquets. Les chemins optiques dédiés éliminent la mise en file d'attente et la congestion. Les tâches d'entraînement réservent de la bande passante garantissant des performances constantes. La reconfiguration dynamique s'adapte aux modèles de trafic changeants.
Réseaux optiques désagrégés : Séparation du transport optique des fonctions de traitement des paquets. Le transport optique fournit des longueurs d'onde point à point. Le traitement des paquets n'intervient qu'aux bordures du réseau. Élimine 60 % des équipements réseau du chemin de données. Réduit la latence de 5 microsecondes à 200 nanosecondes. Simplifie les opérations grâce à la mise à l'échelle indépendante des couches optique et paquets.
Réseaux Clos photoniques : Fabrics de commutation optique multi-étages inspirés des réseaux Clos. Les commutateurs photoniques silicium fournissent une connectivité non bloquante. Les réseaux de guides d'ondes à diffraction routent les longueurs d'onde sans consommation d'énergie. Monte à 100 000 ports avec une architecture à trois étages. Commutation sub-nanoseconde permettant une ingénierie de trafic fine. Tolérance aux pannes grâce à de multiples chemins optiques.
Meilleures pratiques d'implémentation
Les déploiements de réseaux optiques réussis suivent des pratiques établies :
Planification de l'infrastructure fibre : La fibre monomode supporte des distances jusqu'à 120 km avec l'optique cohérente. Les spécifications de fibre grade OS2 garantissent une atténuation <0,4 dB/km. Un rayon de courbure minimum de 15 mm prévient les pertes par microcourbure. Les systèmes de codage couleur et d'étiquetage préviennent les mauvaises connexions. La caractérisation de la fibre par OTDR identifie les dégradations avant le déploiement. Maintenir 20 % de capacité fibre de réserve pour l'expansion future.
Gestion de la puissance optique : Les puissances de lancement entre -10 dBm et +5 dBm préviennent les effets non linéaires. Les amplificateurs optiques maintiennent une puissance constante sur le spectre des longueurs d'onde. Les atténuateurs optiques variables équilibrent la puissance sur les chemins parallèles. Les moniteurs de puissance à chaque point de connexion permettent le dépannage. Le contrôle automatique de puissance compense le vieillissement des composants. Les protocoles de sécurité préviennent les dommages oculaires dus à la lumière infrarouge invisible.
Planification et gestion des longueurs d'onde : La grille ITU-T définit les canaux de longueur d'onde standard évitant les interférences. Les systèmes DWDM supportent 96 canaux en bande C (1530-1565 nm). Les algorithmes d'attribution de longueur d'onde préviennent les contentions. Les bandes de garde entre canaux réduisent la diaphonie. Les verrouillages de longueur d'onde maintiennent la stabilité de fréquence à 2,5 GHz près. La conversion de longueur d'onde permet un routage flexible.
Tests et validation : Les testeurs de taux d'erreur binaire vérifient les performances de liaison avant la production. Les analyseurs de spectre optique mesurent la qualité du signal et l'OSNR. Les tests de dispersion modale de polarisation garantissent la stabilité à long terme. L'analyse de diagramme de l'œil confirme l'intégrité du signal. Les tests en boucle isolent les problèmes sur des segments spécifiques. La surveillance continue détecte la dégradation avant les pannes.
Introl conçoit et déploie des solutions de réseau optique pour l'infrastructure IA dans notre zone de couverture mondiale, avec une expertise en optique cohérente et photonique silicium pour les interconnexions GPU.⁸ Nos équipes d'ingénierie optique ont implémenté plus de 200 clusters IA haute bande passante utilisant des technologies photoniques avancées.
La révolution de la photonique silicium
La photonique silicium intègre les composants optiques sur les mêmes puces que les processeurs :
Optique co-packagée : Le NVLink de NVIDIA utilise des câbles en cuivre limitant la portée à 2 mètres. L'optique co-packagée place les émetteurs-récepteurs à quelques millimètres des dies GPU. Élimine le sérialiseur/désérialiseur consommant 10 watts par 100 Gbps. Réduit la latence de 100 nanosecondes à 10 nanosecondes. Permet 1,6 Tbps par bord de package GPU. L'OCP 2.0 d'Intel démontre l'optique co-packagée à 51,2 Tbps.⁹
Commutateurs entièrement optiques : Les commutateurs photoniques routent les signaux optiques sans conversion. Les miroirs MEMS redirigent les faisceaux lumineux en 10 microsecondes. Les commutateurs photoniques silicium atteignent une reconfiguration nanoseconde. Consommation d'énergie nulle à l'état stable. Monte à des ports 1000x1000 sur une seule puce. Élimine 95 % de la puissance par rapport aux commutateurs électroniques.
Interconnexions de calcul optique : Remplacement du PCIe par des liaisons optiques entre GPU et CPU. CXL sur optique étend les domaines de cohérence mémoire à l'échelle du rack. Les fabrics optiques cohérents en cache permettent des clusters de 10 000 GPU. Les interconnexions mémoire optiques fournissent une bande passante de 10 To/s. Attachement optique direct aux piles de mémoire HBM. Passage de Lightmatter démontre une bande passante puce à puce de 100 Tbps.¹⁰
Lasers à points quantiques : Les lasers à points quantiques intégrés sur silicium fournissent des sources lumineuses. Le fonctionnement insensible à la température élimine les besoins de refroidissement. Une durée de vie de 100 000 heures dépasse la fiabilité des composants électroniques. Les réseaux de lasers permettent un parallélisme massif. Efficacité énergétique de 0,1 picojoule par bit. Production de masse utilisant des processus semi-conducteurs standards.
Déploiements optiques réels
AI Research SuperCluster de Meta : - Échelle : 16 000 GPU A100 avec liaisons optiques de 200 Gbps - Bande passante : 13 pétabits/seconde de bande passante fabric agrégée - Architecture : Clos à trois niveaux avec couche spine optique - Technologie : Optique cohérente 400ZR pour les liaisons inter-bâtiments - Latence : 1,5 microsecondes sur un campus de 600 mètres - Résultat : Entraînement de modèles 3x plus rapide par rapport à l'infrastructure précédente
Project Sirius de Microsoft Azure : - Innovation : Commutation entièrement optique pour les charges de travail IA - Performance : 12,8 Tbps par commutateur optique - Efficacité : Réduction de puissance de 85 % par rapport à la commutation électronique - Échelle : Connexion optique de 100 000 GPU - Commutation : Établissement de circuit optique sub-microseconde - Impact : Réduction de 40 % des coûts d'entraînement
Centre de données optique d'Alibaba Cloud : - Déploiement : Optique cohérente 400G dans tout l'établissement - Portée : Connectivité campus de 40 km sans amplification - Densité : 38,4 Tbps par rack utilisant la commutation optique - Puissance : 3 watts par liaison optique de 100 Gbps - Flexibilité : Routage dynamique des longueurs d'onde basé sur la charge de travail - Économies : Réduction annuelle des coûts d'énergie de 15 millions de dollars
Frontier du Oak Ridge National Laboratory : - Calcul : 37 000 GPU AMD MI250X - Interconnexion : Fabric Slingshot avec liaisons optiques - Bande passante : 100 Go/s de bande passante d'injection par nœud - Topologie : Dragonfly+ avec connexions de groupe optiques - Distance : Liaisons optiques couvrant une installation de 300 mètres - Réalisation : Premier système exascale au monde
Analyse de l'efficacité énergétique
Les réseaux optiques réduisent considérablement la consommation d'énergie des centres de données :
Comparaison de puissance par liaison (par 100 Gbps) : - DAC cuivre (3 m) : 35 watts - Câble optique actif (100 m) : 12 watts - Photonique silicium (2 km) : 5 watts - Optique cohérente (40 km) : 3,5 watts - Photonique future : <1 watt projeté
Économies au niveau système : La couche d'agrégation fabric de Facebook utilise 90 % d'interconnexions optiques. L'efficacité d'utilisation de l'énergie s'améliore de 1,4 à 1,15 avec la commutation optique. La puissance des équipements réseau passe de 15 % à 5 % d