Conception de la topologie réseau pour clusters GPU : Architectures Fat-Tree, Dragonfly et Rail-Optimized
DGX SuperPOD spécifiant une architecture fat-tree à trois niveaux avec Quantum-2 InfiniBand (400 Gb/s). Une étude Meta révélant que les erreurs de configuration réseau causent 10,7 % des défaillances significatives des tâches GPU. La bande passante de bisection complète est critique...
None