AI를 위한 800G 네트워킹: 차세대 GPU 패브릭 계획
2025년 12월 11일 업데이트
2025년 12월 업데이트: NVIDIA의 Quantum-X800 InfiniBand와 Spectrum-X800 Ethernet 플랫폼이 현재 대량 출하 중입니다. Microsoft Azure는 GB200/GB300 클러스터를 위해 800G 풀 팻-트리 논블로킹 패브릭을 배포하고 있습니다. Ultra Ethernet Consortium은 1.6T 시험이 시작됨에 따라 AI 전용 개선 사항을 가속화하고 있습니다. 전력 밀도가 배포의 제약 조건으로 남아 있으며, 800G 모듈이 포트당 14-20W를 소비하여 랙 냉각 설계에 부담을 주고 있습니다.
2025년 AI 클러스터의 스위치 포트 출하량 대부분은 초당 800기가비트로 운영됩니다.¹ 2027년까지 대부분이 1.6테라비트로 전환될 것입니다. 2030년까지 대부분의 포트는 3.2테라비트로 운영될 것입니다.² 이는 데이터 센터 네트워크 전기 계층이 각 대역폭 세대마다 교체되어야 함을 의미하며, 이는 기존 엔터프라이즈 네트워킹에서 역사적으로 볼 수 있었던 것보다 훨씬 더 공격적인 업그레이드 주기입니다. AI 인프라를 계획하는 조직은 이전 어떤 기술 세대보다 더 빠르게 발생할 네트워킹 전환을 고려해야 합니다.
NVIDIA의 네트워킹 매출은 Spectrum-X Ethernet, InfiniBand XDR, NVLink 스케일업 시스템의 강력한 채택에 힘입어 전년 대비 거의 두 배인 73억 달러에 달했습니다.³ Spectrum-X는 연간 100억 달러 이상의 실행률을 돌파했습니다.⁴ 이러한 투자는 AI를 위한 네트워킹이 전통적인 데이터 센터 네트워킹과는 별개의 시장을 대표하며, 전용 제품 개발과 인프라 계획을 정당화하는 요구 사항과 경제성을 가지고 있음을 시사합니다.
800G가 2025년 표준이 되다
업계 연구와 벤더 로드맵은 800G 광학을 2025년 신규 AI 클러스터 및 대규모 데이터 센터 배포의 지배적인 기술로, 특히 OSFP 및 QSFP-DD 폼 팩터에서 위치시킵니다.⁵ 벤더와 분석가들은 800G 트랜시버가 대규모 AI 패브릭의 주력이 될 것으로 예상하며, 1.6T에 대한 초기 시험이 이미 개발 중입니다.⁶
NVIDIA Blackwell Ultra 플랫폼의 급속한 확대로 800 Gbps InfiniBand 스위치에 대한 강력한 수요가 촉진되어 2025년 2분기에 InfiniBand 스위치 판매가 급증했습니다.⁷ AI 백엔드 네트워크에서 InfiniBand 스위치 판매가 급증했지만, Ethernet이 전체적인 선두를 유지하고 있습니다. 800 Gbps 스위치는 AI 백엔드 네트워크에서 Ethernet과 InfiniBand 스위치 출하량 및 매출의 대부분을 차지합니다.⁸
Microsoft의 최신 NVIDIA GB200 및 GB300 배포는 랙 수준에서 NVLink와 NVSwitch를 통해 초당 테라바이트 속도로 통신합니다.⁹ 여러 랙을 포드로 연결하기 위해 Azure는 풀 팻-트리 논블로킹 아키텍처에서 800 Gbps를 제공하는 InfiniBand와 Ethernet 패브릭을 모두 사용합니다.¹⁰ 이러한 하이브리드 접근 방식은 대규모 AI 인프라에서 서로 다른 네트워킹 기술의 상호 보완적인 역할을 반영합니다.
400G 및 800G 모듈을 포함한 AI 기반 광학 연결은 대규모 AI 훈련 및 추론 클러스터로 인해 2030년까지 연평균 22% 이상 성장할 것입니다.¹¹ 이러한 성장 궤적은 AI 네트워킹 요구 사항의 다년간 확장을 예상하는 인프라 투자를 정당화합니다.
NVIDIA의 800G 네트워킹 플랫폼
NVIDIA Quantum-X800 InfiniBand와 Spectrum-X800 Ethernet은 엔드투엔드 800Gb/s 처리량을 제공할 수 있는 세계 최초의 네트워킹 플랫폼입니다.¹² 조 단위 파라미터 규모의 AI 모델을 위해 특별히 설계된 Quantum-X800 플랫폼은 Quantum-X800 InfiniBand 스위치, ConnectX-8 SuperNIC, ConnectX-9 SuperNIC, LinkX 케이블 및 트랜시버를 포함합니다.¹³
Quantum-X800 InfiniBand 스위치는 포트당 800 Gb/s 연결의 144포트를 제공합니다.¹⁴ 이러한 포트 밀도로 더 적은 스위칭 계층으로 대규모 패브릭을 구축할 수 있어 지연 시간과 복잡성이 줄어듭니다. 가장 큰 AI 모델을 훈련하는 조직에게 InfiniBand는 규모에서 가장 낮은 지연 시간과 최고의 성능 일관성을 계속 제공합니다.
NVIDIA의 Quantum-X 및 Spectrum-X Photonics 스위치는 실리콘 포토닉스를 스위치 패키지에 직접 통합하여 100 Tb/s에서 400 Tb/s에 이르는 총 대역폭으로 800 Gb/s의 128~512포트를 제공합니다.¹⁵ 이 통합은 기존 광학에 비해 3.5배 더 높은 전력 효율성과 10배 더 나은 복원력을 제공합니다.¹⁶
클라우드 관리형 Cisco G200 Silicon One 스위치가 포함된 Cisco Nexus Hyperfabric AI는 AI POD의 배포 옵션으로 주문 가능한 고밀도 800G Ethernet을 제공합니다.¹⁷ AI 네트워킹에 대한 Cisco와 NVIDIA의 파트너십은 전통적인 엔터프라이즈 네트워킹 벤더가 AI 인프라 요구 사항에 어떻게 적응하고 있는지를 보여줍니다.
InfiniBand 대 Ethernet 고려 사항
Ethernet은 비용과 생태계 이점으로 인해 대부분의 엔터프라이즈 AI 배포를 지배하는 반면, InfiniBand는 극한 규모의 AI 및 HPC 클러스터에서 선택의 대상으로 남을 것입니다.¹⁸ 이러한 구분은 인프라 계획에 중요합니다: 조직은 익숙한 옵션을 기본으로 선택하기보다 워크로드 특성에 따라 기술을 선택해야 합니다.
InfiniBand는 약 1-2마이크로초의 더 낮은 지연 시간과 규모에서 더 나은 성능 일관성을 제공합니다.¹⁹ RoCEv2가 포함된 Ethernet은 약 5-10마이크로초의 지연 시간을 제공하며 AI 워크로드에 맞게 조정할 수 있습니다.²⁰ 지연 시간 차이는 수천 개의 GPU에서 집합 연산이 동기화되는 훈련 작업에 중요합니다. 동기화 요구 사항이 낮은 추론 워크로드는 InfiniBand의 지연 시간 이점에서 혜택을 받지 못할 수 있습니다.
분석가들은 800G가 확대되고 1.6T가 형성됨에 따라 Ethernet이 AI 네트워킹에서 InfiniBand를 능가하는 더 두드러진 기술이 될 것으로 예측합니다.²¹ NVIDIA의 Ultra Ethernet Consortium 창립 멤버십과 AI 최적화 Spectrum-X 800G Ethernet 스위치 출시는 Ethernet의 AI 미래에 대한 자신감을 시사합니다.²² Ultra Ethernet Consortium은 AI 워크로드를 위한 개선 사항을 특별히 개발하고 있습니다.
고성능 무손실 800G Ethernet 패브릭을 배포하면 AI 투자의 가치를 극대화할 수 있습니다.²³ 네트워크는 효율성과 투자 수익을 극대화하는 데 중요한 중추 신경계 역할을 합니다. 네트워크 패브릭을 미세 조정하면 작업 완료 시간이 단축되고 높은 GPU 활용률이 보장됩니다.²⁴
마이그레이션 과제 및 계획
800G 광학은 조직이 마이그레이션 계획 중에 해결해야 할 새로운 과제를 도입합니다. 전력 및 열 밀도가 크게 증가하며, 800G 모듈은 14-20와트 이상을 소비하여 스위치 냉각 설계와 랙 전력 예산에 부담을 줍니다.²⁵ 조직은 기존 인프라가 증가된 전력 및 냉각 요구 사항을 지원할 수 있는지 확인해야 합니다.
파이버 관리가 더 복잡해집니다. 800G로 마이그레이션하려면 종종 더 높은 파이버 수, MTP 케이블링, 더 엄격한 극성 및 청결도 요구 사항이 필요합니다.²⁶ 100G 또는 400G에서 작동하던 물리적 계층 인프라는 업그레이드 없이는 800G를 지원하지 못할 수 있습니다. 케이블 플랜트 투자는 반복적인 인프라 교체를 피하기 위해 미래의 대역폭 요구 사항을 예상해야 합니다.
스위치 벤더와 NIC 간의 상호 운용성 및 검증에는 신중한 계획이 필요합니다.²⁷ 다중 벤더 환경은 동종 배포에서는 피할 수 있는 호환성 문제에 직면할 수 있습니다. 조직은 프로덕션 배포 전에 랩 환경에서 상호 운용성을 검증해야 합니다.
800G에서 1.6T, 그리고 5년 이내에 3.2T로의 공격적인 업그레이드 주기는 역사적인 네트워킹 전환과 다릅니다. 계획은 전통적인 데이터 센터 네트워킹에서 경험한 것보다 더 빈번한 인프라 교체를 고려해야 합니다. 구성 요소 수준 업그레이드를 가능하게 하는 모듈식 설계는 총 교체 비용을 줄일 수 있습니다.
전략적 권장 사항
AI 인프라를 계획하는 조직은 GPU 선택에 적용되는 것과 동일한 엄격함으로 네트워킹 요구 사항을 평가해야 합니다. 네트워크는 비싼 GPU 리소스가 얼마나 효과적으로 활용되는지를 결정합니다. 네트워킹에 대한 과소 투자는 GPU 용량을 낭비하는 병목 현상을 만듭니다.
2025년 신규 AI 배포의 경우 800G가 스파인 수준 연결의 기본 사양이어야 합니다. 리프 수준 연결은 GPU 구성과 오버서브스크립션 허용 범위에 따라 400G를 사용할 수 있습니다. 800G 인프라에 대한 투자는 워크로드 성장을 위한 여유 공간을 제공하고 미래의 전환을 준비합니다.
InfiniBand는 지연 시간 최소화가 훈련 효율성을 직접적으로 향상시키는 가장 큰 AI 훈련 클러스터에 적합합니다. 엔터프라이즈 AI 배포, 클라우드 기반 AI 서비스 및 추론 워크로드는 일반적으로 의미 있는 성능 희생 없이 Ethernet의 비용 이점과 생태계 통합의 혜택을 받습니다.
전력 및 냉각 제약이 대역폭 요구 사항보다 800G 채택을 더 제한할 수 있습니다. 조직은 800G 배포를 약속하기 전에 인프라 용량을 감사해야 합니다. 네트워킹을 위한 전력 예산은 제한된 시설에서 GPU 전력 요구 사항과 경쟁할 수 있습니다.
빠른 의사 결정 프레임워크
기술 선택:
| 워크로드 특성 | 선택 | 근거 |
|---|---|---|
| LLM 훈련 (>1000 GPU) | InfiniBand 800G | 1-2µs 지연 시간, 최고의 일관성 |
| 엔터프라이즈 AI/추론 | Ethernet 800G | 비용 효율적, 생태계 통합 |
| 하이브리드 훈련 + 추론 | 듀얼 패브릭 | 훈련에는 InfiniBand, 추론에는 Ethernet |
| 클라우드 배포 AI | 공급업체 의존 | GCP는 Ethernet 전용; AWS/Azure는 둘 다 제공 |
대역폭 계획:
| 클러스터 규모 | 스파인 | 리프 | 오버서브스크립션 |
|---|---|---|---|
| <256 GPU | 400G | 100G | 4:1 허용 가능 |
| 256-1024 GPU | 800G | 400G | 2:1 권장 |
| 1024-4096 GPU | 800G | 800G | 1:1 (논블로킹) |
| >4096 GPU | 다중 계층 800G | 800G | 팻-트리 설계 |
핵심 요점
네트워크 아키텍트를 위한: - 800G가 2025년 표준; 2027년까지 1.6T, 2030년까지 3.2T 계획 - NVIDIA Quantum-X800은 스위치당 144포트 × 800Gb/s 제공 - InfiniBand: ~1-2µs 지연 시간; RoCEv2가 포함된 Ethernet: ~5-10µs - 전력 소비: 800G 모듈은 14-20W를 소비하여 랙 예산에 영향
인프라 계획자를 위한: - 네트워크 전기 계층은 각 대역폭 세대마다 교체 필요 - 800G 광학은 더 높은 파이버 수, MTP 케이블링, 더 엄격한 청결도 필요 - 다중 벤더 환경에서 상호 운용성 검증이 중요 - 모듈식 설계는 전환 중 총 교체 비용 절감
전략적 계획을 위한: - 800G가 확대됨에 따라 Ethernet이 AI 네트워킹에서 InfiniBand를 능가할 것으로 예상 - NVIDIA Spectrum-X가 연간 100억 달러 실행률 달성—AI 네트워킹은 별개의 시장 - Ultra Ethernet Consortium이 AI 전용 개선 사항 개발 중 - 네트워크 투자가 GPU 활용률을 결정—과소 투자는 컴퓨팅 낭비
네트워킹은 AI 인프라 비용의 중요하지만 종종 과소평가되는 구성 요소입니다. GPU 클러스터를 적절한 대역폭으로 지원하는 데 필요한 투자는 신중한 계획과 벤더 평가를 정당화합니다. 네트워킹을 사후 고려 사항으로 취급하는 조직은 네트워크 제한이 GPU 투자가 달리 가능하게 할 수 있었던 AI 기능을 제약한다는 것을 알게 될 것입니다.
참고 문헌
-
Dell'Oro Group. "Beyond the GPU Arms Race — The Potential Role of OXC in Building Next Gen AI Infrastructure." 2025. https://www.delloro.com/beyond-the-gpu-arms-race-the-potential-role-of-oxc-in-building-next-gen-ai-infrastructure/
-
Dell'Oro Group. "Beyond the GPU Arms Race."
-
NVIDIA Newsroom. "NVIDIA Announces New Switches Optimized for Trillion-Parameter GPU Computing and AI Infrastructure." 2025. https://nvidianews.nvidia.com/news/networking-switches-gpu-computing-ai
-
NVIDIA Newsroom. "NVIDIA Announces New Switches."
-
QSFP DD 800G. "2025 800G Optical Module Trends for AI Data Centers." 2025. https://qsfpdd800g.com/blogs/artical/2025-800g-optical-module-trends-ai-data-centers
-
QSFP DD 800G. "2025 800G Optical Module Trends."
-
Lightwave Online. "Ethernet maintains a lead over InfiniBand in the AI race." 2025. https://www.lightwaveonline.com/home/article/55315256/ethernet-maintains-a-lead-over-infiniband-in-the-ai-race
-
Lightwave Online. "Ethernet maintains a lead over InfiniBand."
-
Microsoft Blog. "Inside the world's most powerful AI datacenter." September 18, 2025. https://blogs.microsoft.com/blog/2025/09/18/inside-the-worlds-most-powerf
[참고 문헌은 번역을 위해 잘림]