분산 훈련을 위한 대역폭 최적화: 400Gbps+ 네트워크 트래픽 관리

GPT-4는 25,000개 GPU에서 시간당 400TB의 네트워크 트래픽을 생성합니다. 압축, 계층적 리덕션, NCCL 튜닝으로 대역폭을 최적화하세요. 완전 가이드.

Madison Kersh

Apr 22, 2026 7 min read Disclaimer

분산 훈련을 위한 대역폭 최적화: 400Gbps+ 네트워크 트래픽 관리

2025년 12월 8일 업데이트

2025년 12월 업데이트: 최신 모델들은 이제 GPU당 800Gbps+ 상호연결이 필요하며, GB200 NVL72는 랙 내에서 1.8TB/s NVLink 대역폭을 사용합니다. NCCL 2.20+는 Blackwell 아키텍처에 최적화되었습니다. Ring-allreduce는 멀티랙 토폴로지에 최적화된 계층적 알고리즘으로 점점 대체되고 있습니다. 그래디언트 압축은 Blackwell의 FP8 훈련에서 100배 감소를 달성하고 있습니다. Microsoft의 DeepSpeed-Ulysses는 최적화된 시퀀스 병렬화 통신을 통해 100K+ 컨텍스트 윈도우 훈련을 지원합니다.

GPT-4의 분산 훈련은 25,000개의 GPU에서 매시간 400테라바이트의 네트워크 트래픽을 생성하며, 대역폭 병목현상은 수백만 달러의 유휴 컴퓨팅 시간을 낭비할 수 있습니다. Meta가 LLaMA 모델을 훈련할 때, 그들의 네트워크는 초당 1.6테라비트의 그래디언트 교환 트래픽을 지속하며, 통신이 제한 요인이 되는 것을 방지하기 위해 정교한 최적화가 필요합니다. 최적화된 네트워크 활용과 순진한 활용의 차이는 훈련 시간을 3배 연장하고 대형 모델 훈련 실행에서 비용을 5천만 달러 증가시킬 수 있습니다. 이 가이드는 분산 AI 훈련에서 극한의 대역폭 요구사항을 관리하는 검증된 기법들을 검토합니다.

분산 훈련에서의 네트워크 트래픽 패턴

All-reduce 연산은 분산 훈련 통신을 지배하며, 대형 모델 훈련 중 네트워크 대역폭의 89%를 소비합니다. 각 훈련 반복마다 모든 GPU가 계산된 그래디언트를 다른 모든 GPU와 공유해야 하므로, N²/2개의 네트워크 플로우를 생성하는 N-to-N 통신 패턴이 만들어집니다. 512개 GPU에서 70B 파라미터 모델을 훈련하는 경우, 2초마다 동기화되어야 하는 280GB의 그래디언트 데이터로 변환되어 140GB/s 또는 1.12Tbps의 집계 대역폭이 필요합니다.

파라미터 서버 아키텍처는 중앙 집중식 병목현상과 다른 트래픽 패턴을 생성합니다. 워커 노드는 그래디언트를 파라미터 서버에 전송하고, 파라미터 서버는 이를 집계하여 업데이트된 가중치를 재배포합니다. 이 허브-스포크 패턴은 그래디언트 볼륨의 2N배를 처리해야 하는 파라미터 서버에 대역폭 요구사항을 집중시킵니다. 파라미터 서버를 사용하는 Amazon의 추천 모델은 트래픽의 90%가 노드의 10%를 통해 흐르므로, 혼잡을 방지하기 위한 신중한 네트워크 토폴로지 계획이 필요합니다.

파이프라인 병렬화는 인접한 파이프라인 단계 간의 점대점 트래픽을 생성합니다. 활성화는 파이프라인을 통해 전진하고 그래디언트는 후진하여 양방향 트래픽 패턴을 생성합니다. 각 파이프라인 경계는 대형 모델의 배치당 약 10GB의 활성화 데이터를 전송합니다. Microsoft의 DeepSpeed 파이프라인 구현은 컴퓨테이션과 통신을 오버랩하는 신중한 스케줄링을 통해 95%의 대역폭 효율성을 달성합니다.

데이터 병렬화 트래픽은 모델 크기에 따라 선형적으로 확장되지만 GPU 수에 대해서는 일정하게 유지됩니다. 각 GPU는 병렬화 정도와 관계없이 전체 그래디언트 텐서를 받아야 합니다. 175B 파라미터 모델은 100개 또는 1,000개의 GPU에서 훈련하든 반복당 700GB의 그래디언트 데이터를 생성합니다. 이 특성은 대역폭 요구사항을 예측 가능하지만 대형 모델에서는 상당하게 만듭니다.

텐서 병렬화는 모델 레이어 내에서 세밀한 통신을 생성합니다. GPU 간에 분할된 행렬 곱셈은 계산 중간에 중간 결과 교환이 필요합니다. 이는 엄격한 동기화 요구사항을 가진 지연시간에 민감한 트래픽을 생성합니다. NVIDIA의 Megatron 구현은 컴퓨테이션 오버랩을 통해 텐서 병렬 통신 지연시간의 70%를 마스크하지만, 여전히 텐서 병렬 GPU 간에 200Gb/s 대역폭이 필요합니다.

최적화 기법 및 전략

그래디언트 압축은 최소한의 정확도 영향으로 통신 볼륨을 10-100배 감소시킵니다. 희소화는 일반적으로 크기 기준 상위 1%인 top-k 그래디언트만 전송합니다. 양자화는 그래디언트 정밀도를 32비트에서 8비트 또는 심지어 1비트 표현으로 감소시킵니다. 오류 피드백 메커니즘은 압축 오류를 로컬로 축적하여 수렴 특성을 보존합니다. Microsoft의 1비트 Adam은 BERT 훈련에서 정확도 손실 없이 94% 압축을 달성합니다.

Ring-allreduce 알고리즘은 순진한 브로드캐스트 접근법에 비해 대역폭 요구사항을 최소화합니다. 그래디언트는 논리적 링 주위로 흐르며 각 GPU는 한 이웃으로부터 받고 다른 이웃에게 전송합니다. 이는 단일 링크를 통과하는 데이터가 (N-1)/N만 필요하므로 최적의 대역폭 활용을 달성합니다. NVIDIA의 NCCL 라이브러리는 이론적 네트워크 용량의 90%를 달성하는 대역폭 최적 링 알고리즘을 구현합니다.

계층적 리덕션은 네트워크 토폴로지를 활용하여 크로스 스위치 트래픽을 최소화합니다. 랙 간 글로벌 리덕션 이전에 랙 내 로컬 리덕션이 선행됩니다. 이는 일반적으로 8배인 랙당 GPU 수만큼 랙 간 트래픽을 감소시킵니다. Google의 TPU 포드는 3레벨 계층적 리덕션을 구현하여 트래픽의 70%를 로컬 스위치 내에 유지합니다. 적절한 계층 설계는 광역 네트워크 요구사항을 90% 줄일 수 있습니다.

여러 마이크로배치에 걸친 그래디언트 축적은 통신 오버헤드를 상각합니다. 각 마이크로배치 후 동기화하는 대신, 그래디언트가 주기적 동기화 전에 로컬로 축적됩니다. 이는 축적 단계에 비례하여 통신 빈도를 감소시킵니다. OpenAI의 GPT-3 훈련은 8개 마이크로배치에 걸쳐 그래디언트를 축적하여 동등한 수학적 결과로 네트워크 트래픽을 87.5% 감소시켰습니다.

통신 스케줄링은 지연시간을 숨기기 위해 데이터 전송과 컴퓨테이션을 오버랩합니다. 레이어 N이 계산하는 동안, 레이어 N-1의 그래디언트가 백그라운드에서 전송됩니다. 이 파이프라이닝은 피크 버스트 용량이 아닌 컴퓨테이션 속도에 맞는 대역폭만 필요합니다. 적절한 스케줄링은 지속적인 네트워크 통신에도 불구하고 95%의 GPU 활용률을 달성합니다. DeepSpeed의 통신 스케줄러는 프로파일링 데이터를 기반으로 오버랩 패턴을 자동으로 최적화합니다.

고대역폭을 위한 인프라 설계

네트워크 토폴로지는 달성 가능한 대역폭과 훈련 성능에 중요한 영향을 미칩니다. Fat-tree 아키텍처는 라인 레이트에서 임의-대-임의 통신을 가능하게 하는 전체 이등분 대역폭을 제공합니다. 3:1 오버서브스크립션을 가진 Leaf-spine 설계는 대부분의 워크로드에 대해 비용과 성능의 균형을 맞춥니다. Dragonfly 토폴로지는 지능적 라우팅을 통해 고대역폭을 유지하면서 스위치 수를 줄입니다. Meta의 Research SuperCluster는 2Pbps 집계 대역폭을 달성하는 3계층 Clos 네트워크를 사용합니다.

InfiniBand 배포는 AI 워크로드에 대해 Ethernet에 비해 우수한 대역폭과 지연시간을 제공합니다. NDR 400Gb/s InfiniBand는 마이크로초 미만의 지연시간으로 포트당 400Gbps를 제공합니다. 커널 네트워크 스택의 RDMA 우회는 CPU 오버헤드를 거의 0으로 줄입니다. 적응적 라우팅은 여러 경로에 걸쳐 로드를 자동으로 균형 조정합니다. NVIDIA의 Selene 슈퍼컴퓨터는 InfiniBand만을 사용하여 4,480개 GPU에 대해 95%의 스케일링 효율성을 달성합니다.

Ethernet 진화는 InfiniBand보다 낮은 비용으로 경쟁력 있는 성능을 제공합니다. 400GbE 및 신흥 800GbE 표준은 InfiniBand 대역폭 수준에 접근합니다. RoCEv2(RDMA over Converged Ethernet)는 Ethernet 네트워크에서 커널 우회를 가능하게 합니다. 그러나 Ethernet은 플로우 제어, QoS, 혼잡 관리의 신중한 구성이 필요합니다. Amazon의 EFA(Elastic Fabric Adapter)는 특정 워크로드에 대해 Ethernet이 InfiniBand와 일치할 수 있음을 보여줍니다.

스위치 선택은 대역폭과 지연시간 특성 모두에 크게 영향을 미칩니다. Broadcom Tomahawk 스위치는 경쟁력 있는 가격으로 높은 포트 밀도를 제공하지만 더 높은 지연시간을 가집니다. Intel Tofino 프로그래머블 스위치는 사용자 정의 혼잡 제어 알고리즘을 가능하게 합니다. NVIDIA Spectrum 스위치는 직접 데이터 배치를 위해 GPU 메모리와 통합됩니다. 스위치 버퍼 깊이는 패킷 드롭 없이 버스트 트래픽을 수용해야 합니다. 적절한 스위치 선택은 유효 대역폭을 30% 향상시킬 수 있습니다.

케이블 플랜트 설계는 고속에서 신호 무결성에 영향을 미칩니다. DAC(Direct Attach Copper) 케이블은 400Gbps에서 3미터 미만의 배선에 작동합니다. AOC(Active Optical Cable)는 더 낮은 전력 소비로 100미터까지 도달 범위를 확장합니다. 단일 모드 광섬유는 캠퍼스 규모 배포를 가능하게 하지만 비싼 트랜시버가 필요합니다. 케이블 품질은 재전송을 트리거하여 유효 대역폭을 감소시키는 비트 오류율에 직접 영향을 미칩니다. Google의 데이터 센터는 일관된 성능을 위해 AOC를 표준화합니다.

혼잡 제어 및 트래픽 관리

TCP 혼잡 제어 알고리즘은 AI 클러스터에 일반적인 고대역폭, 저지연시간 네트워크에서 어려움을 겪습니다. CUBIC과 같은 전통적인 알고리즘은 보수적인 성장률로 인해 사용 가능한 대역폭을 과소 활용합니다. DCTCP(Data Center TCP)는 ECN 마킹을 사용하여 얕은 큐와 높은 활용률을 유지합니다. Google의 Swift 혼잡 제어는 마이크로초 수준의 지연시간으로 99% 링크 활용률을 달성합니다. 적절한 혼잡 제어 선택은 유효 대역폭을 40% 향상시킵니다.

QoS(Quality of Service) 구성은 보조 플로우보다 그래디언트 트래픽을 우선시합니다. DSCP 마킹은 우선 처리를 위한 훈련 트래픽을 식별합니다. PFC(Priority Flow Control)는 중요한 트래픽의 패킷 손실을 방지합니다. 가중 공정 큐잉은 다양한 트래픽 클래스에 걸쳐 대역폭을 비례적으로 할당합니다. 이러한 메커니즘은 경쟁 워크로드에도 불구하고 훈련 트래픽이 필요한 대역폭을 받도록 보장합니다. Microsoft Azure의 AI 인프라는 트래픽 차별화를 위해 8개의 QoS 클래스를 사용합니다.

여러 경로에 걸친 로드 밸런싱은 집계 대역폭 활용을 최대화합니다. ECMP(Equal-Cost Multi-Path) 라우팅은 병렬 링크에 걸쳐 플로우를 분산합니다. 적응적 라우팅은 혼잡과 장애에 동적으로 조정합니다. 패킷별 분산은 가장 세밀한 로드 밸런스를 달성하지만 재정렬을 일으킬 수 있습니다. Facebook의 패브릭은 모든 링크에서 동시에 95% 활용률을 달성하는 적응적 라우팅을 사용합니다.

버퍼 관리는 지연시간을 최소화하면서 패킷 손실을 방지합니다. 얕은 버퍼는 큐잉 지연을 줄이지만 버스트 중 드롭 위험이 있습니다. 깊은 버퍼는 트래픽 버스트를 수용하지만 지연시간을 증가시킵니다. AQM(Active Queue Management)은 큐 점유율을 기반으로 드롭 확률을 동적으로 조정합니다. AI 워크로드에 대한 최적 버퍼 크기는 일반적으로 링크 대역폭의 100-200마이크로초입니다. 이 균형 잡기는 유효 처리량에 크게 영향을 미칩니다.

플로우 제어 메커니즘은 빠른 전송자가 느린 수신자를 압도하는 것을 방지합니다. InfiniBand의 크레딧 기반 플로우 제어는 소스에서 혼잡을 방지합니다. Ethernet의 Priority Flow Control은 잘못 구성되면 헤드-오브-라인 블로킹을 일으킬 수 있습니다. 수신자 주도 플로우 제어는 정확한 속도 매칭을 허용합니다. 적절한 플로우 제어 구성은 비용이 많이 드는 재전송을 트리거하는 패킷 손실을 방지합니다.

모니터링 및 성능 분석

대역폭 활용률 메트릭은 네트워크 용량이 훈련 성능을 제약하는지 보여줍니다. 링크 활용률은 평균 60-80%이고 버스트를 수용하기 위해 피크는 95% 미만이어야 합니다. 마이크로버스트 감지는 일시적 혼잡을 잡기 위해 밀리초 미만의 샘플링이 필요합니다. 지속적인 높은 활용률은 용량 확장의 필요성을 나타냅니다. Alibaba의 모니터링은 훈련 네트워크에서 평균 73% 활용률과 92% 피크를 보여줍니다.

지연시간 프로파일링은 훈련 반복 시간에 영향을 미치는 통신 병목현상을 식별합니다. All-reduce 완료 시간은 GPU 활용률과 훈련 속도에 직접 영향을 미칩니다. 동기화된 연산에서는 평균보다 테일 지연시간이 더 중요합니다. 총 반복 시간에 대한 네트워크 기여도는 25% 미만으로 유지되어야 합니다. 프로파일링 도구는 정확한 귀속을 위해 네트워크 이벤트와 GPU 타임라인을 상관관계를 맺어야 합니다.

패킷 손실 모니터링은 훈련에 크게 영향을 미치기 전에 네트워크 문제를 감지합니다. 0.01% 손실률도 재전송으로 인해 유효 대역폭을 10% 줄일 수 있습니다. 손실 패턴은 문제가 체계적인지 무작위인지 밝혀냅니다. 특정 스위치나 링크와의 상관관계는 실패한 구성요소를 식별합니다. 패킷 손실에 대한 자동 알림은 연장된 훈련 지연을 방지합니다.

트래픽 패턴 분석은 실제 워크로드에 대한 네트워크 구성을 최적화합니다. 히트맵은 GPU 쌍 간의 통신 패턴을 시각화합니다. 시간적 분석은 주기적 패턴과 이상을 밝혀냅니다. 불균형한 트래픽은 차선책인 병렬화 전략을 나타냅니다. 이 분석은 토폴로지 최적화를 안내합니다.