Netzwerktopologie-Design für GPU-Cluster: Fat-Tree-, Dragonfly- und Rail-optimierte Architekturen
DGX SuperPOD spezifiziert dreistufigen Fat-Tree mit Quantum-2 InfiniBand (400 Gb/s). Meta-Studie stellt fest, dass Netzwerkkonfigurationsfehler 10,7% der signifikanten GPU-Job-Ausfälle verursachen. Volle Bisektionsbandbreite...
None