GPU 클러스터 네트워크 토폴로지 설계: Fat-Tree, Dragonfly 및 Rail 최적화 아키텍처
2025년 12월 11일 업데이트
2025년 12월 업데이트: DGX SuperPOD는 Quantum-2 InfiniBand(포트당 400Gb/s)를 사용한 3계층 fat-tree 네트워크 토폴로지를 지정합니다. Meta 연구에 따르면 네트워크 구성 오류가 주요 GPU 작업 실패의 10.7%를 차지합니다. 통신 패턴이 동적으로 변화하는 분산 학습에서는 풀 이분 대역폭이 매우 중요합니다. Google TPU 포드는 3D 토러스를 사용하며, AWS Trainium은 워크로드에 최적화된 토폴로지를 사용합니다.
NVIDIA의 DGX SuperPOD 레퍼런스 아키텍처는 포트당 400Gb/s의 Quantum-2 InfiniBand 스위치를 사용하여 최대 32개의 DGX 시스템을 연결하는 3계층 fat-tree 네트워크 토폴로지를 지정합니다.[^1] 이 아키텍처는 풀 이분 대역폭을 제공하며, 이는 클러스터의 어떤 두 절반 사이의 총 대역폭이 어느 한쪽 절반으로 들어가는 총 대역폭과 동일하다는 것을 의미합니다. Fat-tree 토폴로지는 어떤 GPU 쌍이 통신하든 예측 가능한 성능을 제공하기 때문에 GPU 클러스터 배포에서 지배적인 위치를 차지하며, 이는 통신 패턴이 동적으로 변화하는 분산 학습에서 매우 중요한 특성입니다.
네트워크 토폴로지 선택은 학습 성능, 비용 및 운영 복잡성에 직접적인 영향을 미칩니다. Meta 연구에 따르면 GPU 클러스터에서 네트워크 구성 오류가 주요 작업 실패의 10.7%를 차지했으며, 토폴로지 의존적 혼잡이 성능 변동성에 기여했습니다.[^2] Google의 TPU 포드는 인접 가속기 간 직접 연결을 가능하게 하는 3D 토러스 토폴로지를 사용하고, AWS Trainium 클러스터는 워크로드 패턴에 최적화된 다른 토폴로지를 사용합니다.[^3] 토폴로지 트레이드오프를 이해하면 조직이 특정 워크로드 요구사항과 예산 제약에 맞는 아키텍처를 선택할 수 있습니다.
Fat-tree 토폴로지 기초
Fat-tree 토폴로지는 1985년 Charles Leiserson의 연구에서 시작되었으며, 링크 용량이 루트 방향으로 증가하면 트리 구조가 풀 이분 대역폭을 달성할 수 있음을 보여주었습니다.[^4] 현대 구현에서는 전체에 걸쳐 동일한 용량의 링크를 사용하며, 더 두꺼운 링크 대신 여러 병렬 경로를 통해 풀 대역폭을 달성합니다.
3계층 fat-tree 아키텍처
3계층 fat-tree는 서버에 연결되는 리프 스위치, 리프 트래픽을 집계하는 스파인 스위치, 스파인 간 완전한 연결을 제공하는 코어 스위치로 구성됩니다.[^5] 각 리프 스위치는 모든 스파인 스위치에 연결되고, 각 스파인은 모든 코어 스위치에 연결됩니다. 연결 메시는 어떤 두 서버 간에도 여러 개의 동일 비용 경로를 생성합니다.
NVIDIA는 예측 가능한 지연 시간과 대역폭 특성 때문에 DGX 클러스터에 fat-tree를 권장합니다.[^6] 이 토폴로지는 all-reduce와 같은 집합 연산이 GPU 배치와 관계없이 일관된 성능을 경험하도록 보장합니다. 학습 작업은 스케줄링 시 네트워크 토폴로지를 고려할 필요가 없어 클러스터 관리가 단순화됩니다.
오버서브스크립션 비율
풀 이분 대역폭은 상위 계층에서 비용이 많이 드는 스위치 용량을 필요로 합니다. 많은 배포에서는 하위 계층의 총 업링크 대역폭이 상위 계층의 사용 가능한 용량을 초과하는 오버서브스크립션을 수용합니다.[^7] 2:1 오버서브스크립션 비율은 트래픽의 절반만이 동시에 상위 계층을 통과할 수 있음을 의미합니다.
오버서브스크립션은 대부분의 통신이 랙이나 포드 내에서 발생하는 지역성이 있는 워크로드에 적합합니다. 그러나 all-to-all 통신 패턴을 가진 분산 학습은 오버서브스크립션된 링크를 포화시켜 혼잡과 성능 저하를 유발합니다. AI 학습 클러스터는 일반적으로 더 높은 비용에도 불구하고 오버서브스크립션이 없는 설계를 필요로 합니다.[^8]
Radix와 확장성
스위치 radix는 각 스위치가 제공하는 포트 수를 결정하며, 규모와 비용 모두에 영향을 미칩니다. 32개의 다운링크와 32개의 업링크를 가진 64포트 스위치로 3계층 fat-tree를 구축하면 32,768개의 엔드포인트까지 확장됩니다.[^9] 더 높은 radix 스위치는 필요한 스위치 수를 줄이지만 스위치당 비용을 증가시킵니다.
NVIDIA의 Quantum-2 스위치는 400Gb/s에서 64개의 포트를 제공하여 합리적인 스위치 수로 대규모 fat-tree 배포를 가능하게 합니다.[^10] 곧 출시될 Quantum-X800 세대는 포트 속도를 800Gb/s로 증가시켜 토폴로지 구조를 변경하지 않고 총 대역폭을 두 배로 늘립니다.
Rail 최적화 토폴로지
Rail 최적화 토폴로지는 GPU 서버가 고속 내부 인터커넥트를 공유하는 여러 GPU를 포함한다는 인식에서 등장했습니다. 각 GPU를 독립적으로 취급하는 대신, rail 최적화 설계는 네트워크 연결을 서버 내 GPU 배치와 정렬합니다.[^11]
GPU rail 이해하기
DGX H100 시스템은 NVLink로 연결된 8개의 GPU를 포함하며, 각 GPU는 네트워크 인터페이스 카드(NIC)에도 연결됩니다.[^12] 8개의 NIC는 클러스터에 걸쳐 있는 8개의 "rail"에 해당합니다. Rail 0은 모든 서버의 GPU 0을 연결하고, rail 1은 GPU 1을 연결하는 식입니다. rail 내 통신은 rail 간 통신보다 더 적은 스위치 홉을 통과합니다.
NVIDIA NVLink Switch는 GPU당 900GB/s의 총 대역폭으로 서버 내부 및 서버 간 GPU를 연결합니다.[^13] NVLink 도메인은 대부분의 GPU-to-GPU 통신을 처리하며, InfiniBand 네트워크는 NVLink 도메인 간 통신을 처리합니다. Rail 최적화 토폴로지는 InfiniBand 트래픽을 최소화하기 위해 InfiniBand 경로를 NVLink 도메인과 정렬합니다.
구현 고려사항
Rail 최적화 배포는 랙과 포드 전체에 걸쳐 rail 정렬을 유지하기 위해 세심한 케이블링이 필요합니다.[^14] 잘못 연결된 케이블은 rail 지역성을 깨뜨려 트래픽이 추가 스위치 홉을 통과하도록 강제합니다. 케이블 관리 규율은 rail 최적화 이점을 실현하는 데 필수적입니다.
이 토폴로지는 동일한 규모에서 풀 fat-tree에 비해 스위치 요구사항을 줄입니다. 절감은 rail 최적화 워크로드가 거의 사용하지 않는 rail 간 스위칭 용량을 제거함으로써 이루어집니다.[^15] 조직은 rail 최적화 설계를 채택하기 전에 워크로드 패턴이 실제로 rail 지역성을 나타내는지 확인해야 합니다.
Dragonfly 토폴로지
Dragonfly 토폴로지는 스위치를 밀집된 그룹 내 연결과 희소한 그룹 간 링크를 가진 그룹으로 구성합니다.[^16] 이 설계는 어떤 두 엔드포인트 간에도 합리적인 경로 길이를 유지하면서 fat-tree에 비해 스위치 수를 줄입니다.
Dragonfly 구조
Dragonfly는 그룹으로 구성되며, 각 그룹은 그룹 내에서 완전히 연결된 여러 스위치를 포함합니다. 글로벌 링크는 각 스위치를 다른 그룹의 스위치에 연결합니다.[^17] 어떤 두 엔드포인트도 최대 3홉을 통해 연결됩니다: 로컬 스위치에서 그룹 스위치로, 원격 그룹 스위치로, 그리고 목적지로.
감소된 홉 수는 대규모 배포에서 지연 시간을 낮춥니다. 더 적은 스위치는 자본 비용과 전력 소비를 줄입니다. 그러나 dragonfly는 fat-tree보다 낮은 이분 대역폭을 제공하여 특정 트래픽 패턴에서 혼잡에 더 취약합니다.[^18]
적응형 라우팅 요구사항
Dragonfly 성능은 사용 가능한 경로에 트래픽을 분산하는 적응형 라우팅에 크게 의존합니다.[^19] 정적 라우팅은 특정 링크에 트래픽을 집중시켜 다른 경로는 활용되지 않은 채 혼잡을 유발합니다. 스위치는 링크 활용도를 모니터링하고 동적으로 트래픽을 덜 부하가 걸린 경로로 이동해야 합니다.
NVIDIA InfiniBand는 dragonfly 배포에 적합한 적응형 라우팅을 지원합니다.[^20] 이 기능은 라우팅 알고리즘이 워크로드 트래픽 패턴에 적절히 응답하도록 구성과 테스트가 필요합니다. 잘못 구성된 적응형 라우팅은 정적 라우팅보다 성능이 나빠질 수 있습니다.
워크로드 민감도
Dragonfly는 대부분의 트래픽을 그룹 내에 유지하는 지역화된 통신 패턴을 가진 워크로드에 적합합니다.[^21] 모든 엔드포인트에 균일한 무작위 트래픽을 생성하는 워크로드는 그룹 간 링크를 용량 이상으로 압박합니다. 이 토폴로지는 요청 친화성이 있는 추론 서빙에는 잘 작동하지만 글로벌 집합을 사용하는 대규모 학습에서는 어려움을 겪을 수 있습니다.
Dragonfly를 평가하는 조직은 배포 전에 예상 워크로드 통신 패턴을 특성화해야 합니다. 시뮬레이션 도구는 현실적인 트래픽 하에서 예상 성능을 모델링하여 토폴로지 조정이 필요한 잠재적 혼잡 지점을 식별할 수 있습니다.[^22]
토러스 및 메시 토폴로지
토러스 토폴로지는 경계에서 랩어라운드 연결이 있는 규칙적인 그리드 패턴으로 노드를 연결합니다. Google의 TPU 포드는 스위칭 없이 직접 이웃 연결을 제공하는 3D 토러스 토폴로지를 사용합니다.[^23]
직접 대 스위치드 네트워크
토러스 네트워크는 각 노드를 이웃에 직접 연결하여 통신 경로에서 스위치를 제거합니다.[^24] 직접 연결은 많은 병렬 알고리즘에서 흔한 이웃 간 통신의 지연 시간을 줄입니다. 그러나 먼 노드 간 통신은 여러 중간 노드를 통과하여 각 홉에서 지연 시간을 증가시키고 대역폭을 소비합니다.
Fat-tree와 같은 스위치드 네트워크는 물리적 배치와 관계없이 어떤 두 엔드포인트 간에도 동일한 지연 시간을 제공합니다. 이 균일성은 프로그래밍과 로드 밸런싱을 단순화합니다. 토러스 네트워크는 통신 거리를 최소화하기 위해 토폴로지 인식 배치가 필요합니다.[^25]
차원 선택
더 높은 차원의 토러스 토폴로지는 노드당 연결 수 증가라는 비용으로 직경(최대 홉 수)을 줄입니다.[^26] 차원당 N개의 노드를 가진 3D 토러스는 직경이 3N/2이고, 2D 토러스는 직경이 N입니다. Google의 3D 토러스 선택은 연결 수와 직경 사이의 균형을 맞춥니다.
물리적 제약이 차원 선택에 영향을 미칩니다. 2D 토러스는 기계실의 행과 열에 자연스럽게 매핑됩니다. 3D 토러스는 적층된 랙이나 상당한 거리에 걸친 연결이 필요합니다. 고차원 토러스의 케이블 길이는 규모에서 문제가 될 수 있습니다.[^27]
토폴로지 선택 프레임워크
네트워크 토폴로지 선택은 워크로드 특성, 규모 요구사항, 예산 제약 및 운영 역량을 평가해야 합니다.
워크로드 분석
다른 워크로드는 네트워크에 다르게 부하를 줍니다. 대규모 언어 모델 학습은 높은 이분 대역폭이 필요한 all-to-all 통신 패턴을 생성합니다.[^28] 배칭이 있는 추론 서빙은 요청을 처리하는 GPU 그룹 내에서 더 지역화된 통신을 나타냅니다. 데이터 전처리는 무작위 통신을 가진 셔플 패턴을 생성할 수 있습니다.
조직은 통신 패턴을 이해하기 위해 예상 워크로드를 프로파일링해야 합니다. 프로덕션 클러스터 모니터링은 기존 워크로드의 실제 트래픽 패턴을 보여줍니다. 새로운 워크로드 유형은 알고리즘 분석이나 벤더 가이드를 기반으로 추정이 필요할 수 있습니다.
규모 고려사항
수십 개의 GPU로 구성된 소규모 클러스터는 정교한 토폴로지 최적화가 필요하지 않을 수 있습니다. 모든 GPU를 연결하는 단일 고radix 스위치는 다중 계층 복잡성 없이 완전한 연결을 제공합니다.[^29] 토폴로지 선택은 스위칭 비용과 케이블 배선이 중요해지는 수백에서 수천 개의 GPU에 걸친 클러스터에서 가장 중요합니다.
향후 성장이 토폴로지 선택에 영향을 미칩니다. Fat-tree는 풀 이분 대역폭을 유지하면서 리프 스위치와 서버를 추가하여 확장됩니다. Dragonfly는 그룹을 추가하여 확장하지만 글로벌 링크의 재조정이 필요할 수 있습니다. 성장을 계획하면 운영을 방해하는 토폴로지 변경을 피할 수 있습니다.[^30]
경제적 요인
스위치와 케이블 비용은 토폴로지 간에 크게 다릅니다. Fat-tree는 동일한 규모에서 dragonfly보다 더 많은 스위치를 필요로 합니다. Rail 최적화 설계는 InfiniBand 스위칭을 줄이지만 NVLink Switch 시스템이 필요합니다.[^31] 총 비용 분석에는 스위치, 케이블, 옵틱스, 전력, 냉각 및 랙 공간이 포함되어야 합니다.
운영 비용도 다릅니다. 복잡한 토폴로지는 더 정교한 모니터링과 문제 해결 역량을 필요로 합니다. 토폴로지별 고려사항에 대해 운영 직원을 교육하면 비용이 추가됩니다. 더 단순한 토폴로지는 운영 부담 감소를 통해 적당한 성능 트레이드오프를 정당화할 수 있습니다.
구현 및 배포
네트워크 토폴로지 구현은 물리적 인프라, 스위칭 구성 및 검증 테스트에 걸친 세심한 계획이 필요합니다.
물리적 인프라 계획
고속 네트워크 배포는 400Gb/s 이상에서 수천 개의 연결을 지원하는 구조화된 케이블링이 필요합니다.[^32] 케이블 라우팅은 굽힘 반경 위반과 신호 열화를 최소화해야 합니다. 핫 에일/콜드 에일 배치는 케이블 경로를 수용해야 합니다
[번역을 위해 내용이 잘렸습니다]