GPU 클러스터 네트워크 토폴로지 설계: Fat-Tree, Dragonfly 및 Rail 최적화 아키텍처
DGX SuperPOD는 Quantum-2 InfiniBand(400Gb/s)를 사용한 3계층 fat-tree를 지정합니다. Meta 연구에 따르면 네트워크 구성 오류가 주요 GPU 작업 실패의 10.7%를 차지합니다. 통신 패턴이 동적으로 변화하는 분산 학습에서는 풀 이분 대역폭이...
None