Optimisation de la bande passante pour l'entraînement distribué : Gérer un trafic réseau de plus de 400 Gbps
Mis à jour le 8 décembre 2025
Mise à jour décembre 2025 : Les modèles de pointe nécessitent désormais plus de 800 Gbps d'interconnexion par GPU, le GB200 NVL72 utilisant 1,8 To/s de bande passante NVLink au sein des racks. NCCL 2.20+ est optimisé pour les architectures Blackwell. Le ring-allreduce est de plus en plus remplacé par des algorithmes hiérarchiques optimisés pour les topologies multi-rack. La compression des gradients atteint une réduction de 100x avec l'entraînement FP8 sur Blackwell. Le DeepSpeed-Ulysses de Microsoft permet l'entraînement avec des fenêtres de contexte de plus de 100K grâce à une communication optimisée de parallélisme de séquence.
L'entraînement distribué de GPT-4 génère 400 téraoctets de trafic réseau chaque heure à travers 25 000 GPU, tout goulot d'étranglement de bande passante pouvant potentiellement gaspiller des millions en temps de calcul inutilisé. Lorsque Meta entraîne les modèles LLaMA, leur réseau maintient 1,6 térabits par seconde de trafic d'échange de gradients, nécessitant une optimisation sophistiquée pour empêcher la communication de devenir le facteur limitant. La différence entre une utilisation réseau optimisée et naïve peut multiplier le temps d'entraînement par 3 et augmenter les coûts de 50 millions de dollars pour les grandes sessions d'entraînement de modèles. Ce guide examine les techniques éprouvées pour gérer les exigences extrêmes de bande passante dans l'entraînement IA distribué.
Modèles de trafic réseau dans l'entraînement distribué
Les opérations all-reduce dominent la communication de l'entraînement distribué, consommant 89 % de la bande passante réseau lors de l'entraînement de grands modèles. Chaque itération d'entraînement nécessite que chaque GPU partage ses gradients calculés avec tous les autres GPU, créant un modèle de communication N-vers-N qui génère N²/2 flux réseau. Pour un modèle de 70 milliards de paramètres s'entraînant sur 512 GPU, cela se traduit par 280 Go de données de gradient qui doivent être synchronisées toutes les 2 secondes, nécessitant une bande passante agrégée de 140 Go/s soit 1,12 Tbps.
Les architectures de serveur de paramètres créent des modèles de trafic différents avec des goulots d'étranglement centralisés. Les nœuds de travail envoient des gradients aux serveurs de paramètres qui agrègent et redistribuent les poids mis à jour. Ce modèle en étoile concentre les besoins en bande passante sur les serveurs de paramètres, qui doivent gérer 2N fois le volume de gradients. Les modèles de recommandation d'Amazon utilisant des serveurs de paramètres voient 90 % du trafic passer par seulement 10 % des nœuds, nécessitant une planification soigneuse de la topologie réseau pour éviter la congestion.
Le parallélisme de pipeline génère du trafic point à point entre les étapes de pipeline adjacentes. Les activations circulent vers l'avant à travers le pipeline tandis que les gradients circulent vers l'arrière, créant des modèles de trafic bidirectionnels. Chaque limite de pipeline transfère environ 10 Go de données d'activation par lot pour les grands modèles. L'implémentation pipeline DeepSpeed de Microsoft atteint 95 % d'efficacité de bande passante grâce à un ordonnancement soigneux qui chevauche le calcul avec la communication.
Le trafic de parallélisme de données évolue linéairement avec la taille du modèle mais reste constant avec le nombre de GPU. Chaque GPU doit recevoir le tenseur de gradient complet quel que soit le degré de parallélisme. Un modèle de 175 milliards de paramètres génère 700 Go de données de gradient par itération, qu'il s'entraîne sur 100 ou 1 000 GPU. Cette caractéristique rend les besoins en bande passante prévisibles mais substantiels pour les grands modèles.
Le parallélisme de tenseur crée une communication fine au sein des couches du modèle. Les multiplications matricielles réparties sur les GPU nécessitent des échanges de résultats intermédiaires en cours de calcul. Cela génère un trafic sensible à la latence avec des exigences de synchronisation strictes. L'implémentation Megatron de NVIDIA masque 70 % de la latence de communication du parallélisme de tenseur par le chevauchement de calcul, mais nécessite toujours 200 Gb/s de bande passante entre les GPU en parallélisme de tenseur.
Techniques et stratégies d'optimisation
La compression des gradients réduit le volume de communication de 10 à 100 fois avec un impact minimal sur la précision. La sparsification ne transmet que les top-k gradients, généralement le 1 % le plus grand en magnitude. La quantification réduit la précision des gradients de 32 bits à 8 bits voire des représentations à 1 bit. Les mécanismes de rétroaction d'erreur accumulent localement les erreurs de compression, préservant les propriétés de convergence. Le 1-bit Adam de Microsoft atteint 94 % de compression sans perte de précision pour l'entraînement BERT.
Les algorithmes ring-allreduce minimisent les besoins en bande passante par rapport aux approches naïves de broadcast. Les gradients circulent autour d'un anneau logique, chaque GPU recevant d'un voisin et envoyant à un autre. Cela nécessite seulement (N-1)/N des données pour traverser n'importe quel lien unique, atteignant une utilisation optimale de la bande passante. La bibliothèque NCCL de NVIDIA implémente des algorithmes en anneau optimaux en bande passante qui atteignent 90 % de la capacité réseau théorique.
La réduction hiérarchique exploite la topologie réseau pour minimiser le trafic inter-switch. La réduction locale au sein des racks précède la réduction globale entre les racks. Cela réduit le trafic inter-rack par le nombre de GPU par rack, généralement 8 fois. Les pods TPU de Google implémentent une réduction hiérarchique à trois niveaux, gardant 70 % du trafic au sein des switches locaux. Une conception hiérarchique appropriée peut réduire les besoins en réseau étendu de 90 %.
L'accumulation de gradients sur plusieurs micro-lots amortit les frais généraux de communication. Au lieu de synchroniser après chaque micro-lot, les gradients s'accumulent localement avant une synchronisation périodique. Cela réduit la fréquence de communication proportionnellement aux étapes d'accumulation. L'entraînement GPT-3 d'OpenAI accumulait les gradients sur 8 micro-lots, réduisant le trafic réseau de 87,5 % avec des résultats mathématiques équivalents.
L'ordonnancement de communication chevauche le transfert de données avec le calcul pour masquer la latence. Pendant que la couche N calcule, les gradients de la couche N-1 se transfèrent en arrière-plan. Ce pipelining ne nécessite qu'une bande passante suffisante pour correspondre au taux de calcul plutôt qu'à la capacité de pointe en rafale. Un ordonnancement approprié atteint 95 % d'utilisation GPU malgré une communication réseau continue. L'ordonnanceur de communication de DeepSpeed optimise automatiquement les modèles de chevauchement basés sur les données de profilage.
Conception d'infrastructure pour haute bande passante
La topologie réseau impacte de manière critique la bande passante atteignable et les performances d'entraînement. Les architectures fat-tree fournissent une bande passante de bisection complète permettant une communication any-to-any au débit nominal. Les conceptions leaf-spine avec un sur-abonnement de 3:1 équilibrent coût et performance pour la plupart des charges de travail. Les topologies Dragonfly réduisent le nombre de switches tout en maintenant une haute bande passante grâce à un routage intelligent. Le Research SuperCluster de Meta utilise un réseau Clos à trois niveaux atteignant 2 Pbps de bande passante agrégée.
Les déploiements InfiniBand offrent une bande passante et une latence supérieures par rapport à Ethernet pour les charges de travail IA. L'InfiniBand NDR 400 Gb/s fournit 400 Gbps par port avec une latence inférieure à la microseconde. Le contournement RDMA de la pile réseau du noyau réduit la charge CPU à presque zéro. Le routage adaptatif équilibre automatiquement la charge sur plusieurs chemins. Le supercalculateur Selene de NVIDIA utilise exclusivement InfiniBand, atteignant 95 % d'efficacité de mise à l'échelle jusqu'à 4 480 GPU.
L'évolution Ethernet apporte des performances compétitives à un coût inférieur à InfiniBand. Les normes 400GbE et émergentes 800GbE approchent les niveaux de bande passante InfiniBand. RoCEv2 (RDMA over Converged Ethernet) permet le contournement du noyau sur les réseaux Ethernet. Cependant, Ethernet nécessite une configuration soigneuse du contrôle de flux, de la QoS et de la gestion de congestion. L'EFA (Elastic Fabric Adapter) d'Amazon démontre qu'Ethernet peut égaler InfiniBand pour des charges de travail spécifiques.
La sélection des switches impacte à la fois les caractéristiques de bande passante et de latence de manière significative. Les switches Broadcom Tomahawk fournissent une haute densité de ports à des prix compétitifs mais avec une latence plus élevée. Les switches programmables Intel Tofino permettent des algorithmes de contrôle de congestion personnalisés. Les switches NVIDIA Spectrum s'intègrent à la mémoire GPU pour un placement direct des données. La profondeur de tampon des switches doit accommoder le trafic en rafale sans perdre de paquets. Une sélection appropriée des switches peut améliorer la bande passante effective de 30 %.
La conception de l'infrastructure de câblage affecte l'intégrité du signal à hautes vitesses. Les câbles Direct Attach Copper (DAC) fonctionnent pour des distances inférieures à 3 mètres à 400 Gbps. Les câbles optiques actifs (AOC) étendent la portée à 100 mètres avec une consommation d'énergie moindre. La fibre monomode permet des déploiements à l'échelle du campus mais nécessite des émetteurs-récepteurs coûteux. La qualité du câble impacte directement les taux d'erreur binaire qui déclenchent des retransmissions réduisant la bande passante effective. Les centres de données de Google standardisent les AOC pour des performances cohérentes.
Contrôle de congestion et gestion du trafic
Les algorithmes de contrôle de congestion TCP peinent avec les réseaux à haute bande passante et faible latence typiques des clusters IA. Les algorithmes traditionnels comme CUBIC sous-utilisent la bande passante disponible en raison de taux de croissance conservateurs. Data Center TCP (DCTCP) utilise le marquage ECN pour maintenir des files d'attente peu profondes et une haute utilisation. Le contrôle de congestion Swift de Google atteint 99 % d'utilisation des liens avec une latence de l'ordre de la microseconde. Une sélection appropriée du contrôle de congestion améliore la bande passante effective de 40 %.
La configuration de la qualité de service (QoS) priorise le trafic de gradients par rapport aux flux auxiliaires. Le marquage DSCP identifie le trafic d'entraînement pour un traitement préférentiel. Le Priority Flow Control (PFC) empêche la perte de paquets pour le trafic critique. La mise en file d'attente pondérée équitable alloue la bande passante proportionnellement entre les différentes classes de trafic. Ces mécanismes garantissent que le trafic d'entraînement reçoit la bande passante nécessaire malgré les charges de travail concurrentes. L'infrastructure IA de Microsoft Azure utilise 8 classes QoS pour la différenciation du trafic.
L'équilibrage de charge sur plusieurs chemins maximise l'utilisation de la bande passante agrégée. Le routage Equal-Cost Multi-Path (ECMP) distribue les flux sur des liens parallèles. Le routage adaptatif s'ajuste dynamiquement à la congestion et aux pannes. La dispersion par paquet atteint l'équilibrage de charge le plus fin mais peut causer des réordonnancements. Le fabric de Facebook utilise le routage adaptatif atteignant 95 % d'utilisation sur tous les liens simultanément.
La gestion des tampons empêche la perte de paquets tout en minimisant la latence. Les tampons peu profonds réduisent le délai de mise en file d'attente mais risquent des pertes lors des rafales. Les tampons profonds accommodent les rafales de trafic mais augmentent la latence. La gestion active des files d'attente (AQM) ajuste dynamiquement la probabilité de rejet en fonction de l'occupation de la file. Le dimensionnement optimal des tampons pour les charges de travail IA est généralement de 100 à 200 microsecondes de bande passante du lien. Cet équilibre impacte significativement le débit effectif.
Les mécanismes de contrôle de flux empêchent les émetteurs rapides de submerger les récepteurs lents. Le contrôle de flux basé sur les crédits dans InfiniBand empêche la congestion à la source. Le Priority Flow Control d'Ethernet peut causer un blocage de tête de ligne s'il est mal configuré. Le contrôle de flux piloté par le récepteur permet une correspondance précise des taux. Une configuration appropriée du contrôle de flux empêche la perte de paquets qui déclencherait des retransmissions coûteuses.
Surveillance et analyse des performances
Les métriques d'utilisation de la bande passante révèlent si la capacité réseau contraint les performances d'entraînement. L'utilisation des liens devrait être en moyenne de 60 à 80 % avec des pics inférieurs à 95 % pour accommoder les rafales. La détection des micro-rafales nécessite un échantillonnage sub-milliseconde pour capturer la congestion transitoire. Une utilisation élevée soutenue indique un besoin d'expansion de capacité. La surveillance d'Alibaba montre une utilisation moyenne de 73 % sur leur réseau d'entraînement avec des pics de 92 %.
Le profilage de latence identifie les goulots d'étranglement de communication impactant le temps d'itération d'entraînement. Le temps de complétion de l'all-reduce impacte directement l'utilisation GPU et la vitesse d'entraînement. Les latences de queue comptent plus que les moyennes pour les opérations synchronisées. La contribution du réseau au temps total d'itération devrait rester inférieure à 25 %. Les outils de profilage doivent corréler les événements réseau avec la timeline GPU pour une attribution précise.
La surveillance de la perte de paquets détecte les problèmes réseau avant qu'ils n'impactent significativement l'entraînement. Même un taux de perte de 0,01 % peut réduire la bande passante effective de 10 % en raison des retransmissions. Les modèles de perte révèlent si les problèmes sont systématiques ou aléatoires. La corrélation avec des switches ou des liens spécifiques identifie les composants défaillants. L'alerte automatisée sur la perte de paquets évite les retards d'entraînement prolongés.
L'analyse des modèles de trafic optimise la configuration réseau pour les charges de travail réelles. Les cartes thermiques visualisent les modèles de communication entre les paires de GPU. L'analyse temporelle révèle les modèles périodiques et les anomalies. Un trafic déséquilibré indique des stratégies de parallélisation sous-optimales. Cette analyse guide l'optimisation de la topologie et
[Contenu tronqué pour la traduction]