InfiniBand 스위치: NVIDIA Quantum-X800과 AI 슈퍼컴퓨터를 구동하는 XDR 세대
2025년 12월 11일 업데이트
2025년 12월 업데이트: InfiniBand 시장이 2025년 257억 4천만 달러에 도달하며, 2030년까지 1,269억 9천만 달러로 성장할 것으로 전망됩니다(연평균 38% 성장률). Quantum-X800은 800Gbps XDR 144포트와 14.4 TFLOPS 인-네트워크 컴퓨팅을 제공합니다(NDR 대비 9배). 포트 간 지연시간은 100나노초 미만입니다. Stargate의 64,000대 GB200 시스템과 Oracle의 131,000 GPU 제타스케일 슈퍼클러스터가 InfiniBand로 운영되고 있습니다.
NVIDIA의 Blackwell Ultra 플랫폼이 800Gbps 네트워킹 수요를 견인하면서 2025년 2분기 InfiniBand 스위치 판매가 급증했습니다.¹ 2025년 257억 4천만 달러로 평가되는 InfiniBand 시장은 연평균 37.60%의 성장률로 2030년까지 1,269억 9천만 달러에 이를 것으로 전망됩니다.² Ethernet이 AI 백엔드 네트워크 전체 시장에서 선두를 유지하고 있지만, 수백 나노초 단위의 지연시간이 학습 효율성을 결정하는 최고 성능 구축 환경에서는 InfiniBand가 지배적입니다.
Quantum-X800 플랫폼은 조 단위 파라미터 모델 요구사항에 대한 NVIDIA의 해답입니다. 800Gbps 연결 144포트, SHARP v4를 통한 14.4 테라플롭스의 인-네트워크 컴퓨팅, 100나노초 미만의 포트 간 지연시간을 갖춘 XDR 세대는 이전 NDR 플랫폼 대비 대역폭을 2배로 늘리면서 인-네트워크 컴퓨팅은 9배 향상했습니다.³ Stargate의 64,000대 GB200 시스템과 Oracle의 131,000 GPU 제타스케일 슈퍼클러스터를 포함한 주요 설치 환경에서는 분산 AI 학습에 필요한 긴밀한 동기화를 유지하기 위해 NVIDIA InfiniBand에 의존하고 있습니다.⁴
NDR에서 XDR로의 진화
InfiniBand 세대는 표준화된 속도 증가를 통해 발전합니다: QDR(40Gbps), FDR(56Gbps), EDR(100Gbps), HDR(200Gbps), NDR(400Gbps), 그리고 현재 XDR(800Gbps).⁵ 각 세대는 InfiniBand를 Ethernet 대안과 차별화하는 낮은 지연시간과 하드웨어 수준의 신뢰성을 유지하면서 포트당 대역폭을 2배로 늘립니다.
2021년에 도입된 NDR(Next Data Rate)은 51.6 GHz에서 작동하는 4레인의 PAM-4 인코딩 SerDes를 사용하여 400Gbps 포트를 제공했습니다.⁶ NDR 스위치를 구동하는 Quantum-2 ASIC은 25.6Tbps 단방향 대역폭의 256 SerDes 레인을 제공하며, 64개의 400Gbps 포트에서 초당 665억 패킷을 처리합니다.⁷ NDR은 InfiniBand에 OSFP 커넥터를 도입하여 2x(NDR200) 또는 4x(NDR400) 구성에서 하나 또는 두 개의 링크를 가능하게 했습니다.⁸
2023년 10월 InfiniBand Trade Association이 발표한 XDR(eXtreme Data Rate) 사양은 AI 및 HPC 데이터 센터 수요를 충족하기 위해 대역폭을 2배로 늘렸습니다.⁹ 레인당 200Gbps SerDes 지원으로 800Gbps 포트가 가능해지며, 스위치 간 연결은 1.6Tbps에 도달합니다.¹⁰ XDR은 4세대 SHARP, 초저지연 개선, 자가 복구 기능, 실리콘 포토닉스 통합을 도입합니다.¹¹
로드맵은 향후 세대를 위해 포트당 1.6Tbps를 제공하는 GDR(Giga Data Rate) 기술로 계속 이어지며, InfiniBand의 성능 리더십 위치를 유지합니다.¹²
NVIDIA Quantum-X800 플랫폼 아키텍처
Quantum-X800 플랫폼은 조 단위 파라미터 규모의 AI 모델을 위해 특별히 설계된 최초의 XDR InfiniBand 구현을 제공합니다.¹³ Q3400-RA 4U 스위치는 이 속도 등급을 달성한 최초의 스위치 실리콘인 레인당 200Gbps SerDes 기술을 활용합니다.¹⁴
포트 밀도가 크게 확장됩니다. 이 스위치는 72개의 OSFP 케이지에 분산된 800Gbps 연결 144포트를 제공합니다.¹⁵ 높은 라딕스는 효율적인 패브릭 토폴로지를 가능하게 하며, 2단계 fat-tree는 최소 지연시간과 최적의 작업 지역성으로 최대 10,368개의 ConnectX-8 NIC를 연결할 수 있습니다.¹⁶
성능 사양은 가장 까다로운 AI 워크로드를 목표로 합니다. 포트 간 지연시간은 100나노초 미만으로 측정됩니다.¹⁷ 적응형 라우팅은 사용 가능한 경로에 트래픽을 동적으로 분산합니다. 텔레메트리 기반 혼잡 제어는 GPU 활용도에 영향을 미치기 전에 네트워크 포화를 방지합니다.¹⁸
Q3200-RA와 같은 모델의 듀얼 스위치 인클로저는 1.6Tbps 집계 스위치 간 대역폭에 걸쳐 800Gbps 72포트를 제공하여 대규모 AI 클러스터에 필요한 스파인-리프 토폴로지를 가능하게 합니다.¹⁹ 선택적 라우터 기능은 여러 사이트에 걸친 InfiniBand 클러스터 확장을 용이하게 하여 지리적 위치에 걸친 분산 학습 환경을 지원합니다.²⁰
SHARP 인-네트워크 컴퓨팅으로 병목 현상 제거
NVIDIA의 SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)는 Ethernet 대안에 비해 InfiniBand의 결정적인 기술 우위를 나타냅니다. all-reduce 및 broadcast와 같은 집합 연산을 네트워크 스위치로 오프로드함으로써 SHARP는 데이터 전송량을 크게 줄이고 분산 학습 중 서버 지터를 최소화합니다.²¹
4세대에 걸친 진화로 SHARP 기능이 점진적으로 확장되었습니다:
SHARPv1은 과학 컴퓨팅을 위한 소형 메시지 리덕션 연산에 중점을 두었으며, 주요 MPI 라이브러리에서 채택된 상당한 성능 향상을 입증했습니다.²²
SHARPv2는 HDR 200Gbps Quantum 스위치와 함께 도입되어 대용량 메시지 리덕션 연산을 포함한 AI 워크로드 지원을 추가했습니다. 벤치마크에서 BERT 학습 성능이 17% 향상되었음을 입증했습니다.²³
SHARPv3는 멀티테넌트 인-네트워크 컴퓨팅을 가능하게 하여 여러 AI 워크로드가 SHARP 기능을 동시에 활용할 수 있게 했습니다. Microsoft Azure는 이 세대를 사용하여 AllReduce 지연시간에서 거의 10배의 성능 이점을 보여주었습니다.²⁴
SHARPv4는 Quantum-X800 및 Quantum-X Photonics 스위치에 기본 제공되어 GPU 간 통신 오버헤드를 최소화하는 인-네트워크 집계 및 리덕션을 가능하게 합니다.²⁵ FP8 정밀도 지원과 결합하여 SHARP v4는 대역폭과 컴퓨팅 요구를 모두 줄여 조 단위 파라미터 모델의 학습을 가속화하여 더 빠른 수렴과 더 높은 처리량을 제공합니다.²⁶
이 기술은 NVIDIA NCCL(Collective Communication Library)과 통합되어 분산 AI 학습 프레임워크가 SHARP를 자동으로 활용할 수 있게 합니다. 서비스 제공업체들은 SHARP 통합을 통해 AI 워크로드에서 10-20%의 성능 향상을 보고합니다.²⁷ 네트워크 스위치가 CPU와 GPU를 우회하여 이러한 작업에 대한 집계와 리덕션을 직접 수행하면서 비-SHARP 구성 대비 AllReduce 대역폭을 2배로 늘립니다.²⁸
ConnectX-8 SuperNIC, 800Gbps 엔드포인트 제공
Quantum-X800 플랫폼은 ConnectX-8 SuperNIC 어댑터와 짝을 이루어 엔드투엔드 800Gbps 처리량을 달성합니다.²⁹ C8180은 AI 고성능 컴퓨팅 클러스터, 슈퍼컴퓨팅 네트워크, 차세대 데이터 센터 아키텍처를 위해 설계된 InfiniBand와 Ethernet을 모두 지원하는 NVIDIA 최초의 800Gbps 듀얼 프로토콜 SuperNIC입니다.³⁰
기술 사양이 어댑터 기능을 크게 향상시킵니다. 단일 포트 OSFP 인터페이스는 800Gbps XDR InfiniBand 또는 400Gbps Ethernet 2포트를 제공합니다.³¹ PCIe Gen6 x16 연결은 네트워크 속도에 맞는 호스트 인터페이스 대역폭을 제공합니다.³² 자동 협상은 XDR, NDR, NDR200, HDR, HDR100, EDR, FDR, SDR InfiniBand 속도 전반에 걸친 하위 호환성을 지원합니다.³³
아키텍처 혁신은 순수 대역폭을 넘어 확장됩니다. ConnectX-8은 온보드 PCIe 스위칭 패브릭과 함께 네이티브 PCIe Gen6 지원을 통합하여 외부 PCIe 스위치 요구사항을 제거합니다.³⁴ 어댑터는 x16 커넥터 인터페이스 뒤에 48레인의 PCIe Gen6을 포함합니다.³⁵ 네이티브 SHARP 지원은 어댑터 하드웨어에서 직접 집계 및 리덕션 연산을 가속화합니다.³⁶
Socket Direct 기술은 듀얼 소켓 서버 아키텍처를 해결합니다. 전용 PCIe 인터페이스를 통한 각 CPU에서 네트워크로의 직접 액세스는 CPU-네트워크 토폴로지가 지연시간에 영향을 미치는 시스템의 성능을 향상시킵니다.³⁷ GB300 NVL72는 Grace CPU에 Gen5 속도로 연결하면서 B300 GPU에 Gen6 링크를 유지하는 PCIe Gen6 SuperNIC 기능의 첫 번째 배포를 나타냅니다.³⁸
Unified Fabric Manager, 대규모 오케스트레이션
UFM 플랫폼은 실시간 네트워크 텔레메트리와 AI 기반 분석을 결합하여 InfiniBand 패브릭 관리를 혁신합니다.³⁹ 호스트 기반 솔루션은 패브릭 관리, 라우팅, 프로비저닝, 문제 해결에 대한 완전한 가시성을 제공합니다.
UFM 아키텍처는 여러 구성 요소에 걸쳐 있습니다. UFM Server는 완전한 패브릭 가시성을 유지하고 모든 장치에서 라우팅을 관리합니다. Managed Switching Devices에는 UFM 제어 하의 패브릭 스위치, 게이트웨이, 라우터가 포함됩니다. 컴퓨트 노드의 선택적 UFM Host Agents는 로컬 호스트 데이터와 장치 관리 기능을 제공합니다.⁴⁰
세 가지 플랫폼 계층이 서로 다른 운영 요구사항을 해결합니다:
UFM Telemetry는 비트 오류율, 온도, 히스토그램, 재전송을 포함하여 포트당 120개 이상의 고유 카운터를 수집합니다.⁴¹ 이 데이터는 장애가 프로덕션 워크로드에 영향을 미치기 전에 한계 케이블을 예측할 수 있게 합니다.
UFM Enterprise는 네트워크 모니터링, 관리, 워크로드 최적화, 주기적 구성 검증을 추가합니다.⁴² Slurm 및 Platform LSF와의 작업 스케줄러 통합은 워크로드 스케줄링에 맞춘 자동화된 네트워크 프로비저닝을 가능하게 합니다. OpenStack 및 Azure 통합은 클라우드 배포 모델을 지원합니다.⁴³
UFM Cyber-AI는 슈퍼컴퓨팅 운영 비용을 낮추기 위한 예방 유지보수 및 사이버 보안 기능을 제공합니다.⁴⁴ 전용 어플라이언스 배포는 온프레미스 AI 기반 패브릭 분석을 가능하게 합니다.
UFM SDK는 REST API 액세스를 통해 Grafana, FluentD, Zabbix, Slurm 플러그인을 포함한 광범위한 서드파티 통합을 제공합니다.⁴⁵ 오픈소스 프로젝트는 작업 컴퓨트 노드 전반에서 네트워크 대역폭, 혼잡, 오류, 리소스 활용도를 모니터링하기 위한 SLURM 통합을 가능하게 합니다.
주요 슈퍼컴퓨터 구축으로 플랫폼 검증
세계 최대의 AI 시스템들이 NVIDIA InfiniBand 네트워킹을 표준으로 채택하고 있습니다. 현재 및 계획된 구축은 대규모에서의 Quantum 플랫폼 역량을 입증합니다.
Stargate AI Data Center는 2025년 3월에 64,000대의 GB200 시스템 설치를 시작했으며, 멀티 엑사플롭스 AI 서비스를 위해 800Gbps InfiniBand로 상호 연결됩니다.⁴⁶ 이 구축은 최초의 대규모 XDR 구현 중 하나입니다.
xAI Colossus는 Quantum-2 스위치를 사용하여 100,000대의 H100 GPU를 운영하며, 3개의 네트워크 티어에서 850나노초의 최악 지연시간을 유지합니다.⁴⁷ 멤피스 클러스터는 xAI의 Grok 대규모 언어 모델 제품군을 학습시킵니다.
Oracle Zetta-scale Supercluster는 Quantum InfiniBand 패브릭을 통해 연결된 131,000대의 GB200 GPU를 계획하며, 최대 성능 AI 인프라를 위한 InfiniBand에 대한 클라우드 제공업체의 헌신을 보여줍니다.⁴⁸
Lawrence Livermore National Laboratory의 El Capitan은 200Gbps InfiniBand를 사용하여 2 엑사플롭스를 초과할 예정이며, 과학 컴퓨팅을 위한 NDR급 네트워킹의 지속적인 관련성을 보여줍니다.⁴⁹
유럽의 JUPITER(2억 5천만 유로)와 Blue Lion(2억 5천만 유로)은 과학 워크로드가 요구하는 성능을 제공하면서 엄격한 에너지 효율 요구사항을 충족하는 Quantum-2 패브릭을 선택했습니다.⁵⁰
NVIDIA 네트워킹 매출은 연간 100억 달러에 도달했으며, 거의 전부가 상업용 AI 클라우드를 구동하는 InfiniBand 패브릭과 연결되어 있습니다.⁵¹ Microsoft Azure와 Oracle Cloud Infrastructure는 하이퍼스케일 제공업체 중 초기 Quantum InfiniBand 채택자를 대표합니다.⁵²
InfiniBand 대 Ethernet 포지셔닝
시장 역학은 각 기술의 뚜렷한 포지셔닝을 반영합니다. Dell'Oro Group이 2023년 말 AI 백엔드 네트워크 커버리지를 시작했을 때 InfiniBand는 80% 이상의 시장 점유율을 보유했습니다.⁵³ 이후 Ethernet은 하이퍼스케일러 채택과 비용 우위를 통해 입지를 넓혔으며, 2025년에도 전체 시장 리더십을 유지하고 있습니다.⁵⁴
성능 특성이 두 기술을 차별화합니다. InfiniBand는 하드웨어 가속 RDMA와 인-네트워크 컴퓨팅을 통해 마이크로초 미만의 지연시간을 제공합니다. Ethernet은 RoCE로 적절히 구성될 때 경쟁력 있는 처리량을 달성하지만, 신중한 무손실 네트워크 구성이 필요하며 동등한 인-네트워크 컴퓨팅 기능이 부족합니다.
비용 구조는 많은 구축에서 Ethernet에 유리합니다. 256-1,024 GPU 클러스터를 배포하는 티어 2 및 티어 3 기업들은 일반적으로 RoCE가 포함된 Ethernet이 네트워킹 비용의 약 절반으로 허용 가능한 성능을 제공한다는 것을 발견합니다.⁵⁵ InfiniBand의 가치 제안은 SHARP 인-네트워크 컴퓨팅과 더 엄격한 지연시간 한계가 더 큰 규모에서 강화됩니다.
[번역을 위해 콘텐츠 일부 생략]