Design de Topologia de Rede para Clusters de GPU: Arquiteturas Fat-Tree, Dragonfly e Rail-Optimized
DGX SuperPOD especificando fat-tree de três camadas com Quantum-2 InfiniBand (400Gb/s). Estudo da Meta descobrindo que erros de configuração de rede causam 10,7% das falhas significativas em jobs de GPU. Largura de banda de bisseção total...
None