GPU 클러스터를 위한 InfiniBand vs Ethernet: 800G 네트워크 아키텍처 결정 가이드

InfiniBand는 15% 더 나은 성능을 제공하지만 Ethernet보다 2.3배 비용이 더 듭니다. Meta, OpenAI, Google이 5천만 달러 규모의 네트워크 아키텍처를 어떻게 선택했는지 알아보세요.

GPU 클러스터를 위한 InfiniBand vs Ethernet: 800G 네트워크 아키텍처 결정 가이드

GPU 클러스터를 위한 InfiniBand vs Ethernet: 800G 네트워크 아키텍처 결정 가이드

2025년 12월 8일 업데이트

2025년 12월 업데이트: NVIDIA Spectrum-X 800G Ethernet이 현재 출하 중이며 Blackwell 배포에 대한 검증이 완료되어 특정 워크로드에서 InfiniBand의 우위가 좁혀지고 있습니다. NDR 400G InfiniBand가 훈련 클러스터에서 여전히 지배적이며, XDR 800G가 롤아웃되고 있습니다. Ultra Ethernet Consortium은 2024년에 UEC 1.0 사양을 발표했으며, 호환 제품은 2025-2026년에 출시될 예정입니다. AI 클러스터 네트워킹은 점점 하이브리드화되고 있으며—훈련에는 InfiniBand, 추론에는 Ethernet을 사용합니다. 1.6T 광학 장치가 2026-2027년 로드맵에 등장하기 시작했습니다.

10,000개의 GPU를 연결하는 네트워크가 통합된 슈퍼컴퓨터로 작동할지 아니면 격리된 프로세서들의 값비싼 집합으로 남을지를 결정하지만, 대부분의 인프라 팀은 이 5천만 달러 규모의 결정을 엔지니어링 분석이 아닌 벤더 마케팅에 기반하여 내립니다.¹ Meta는 InfiniBand의 15% 성능 우위가 60만 GPU 플릿 전체에서 2.3배 높은 총 소유 비용을 정당화할 수 없다는 것을 발견한 후 Ethernet을 표준화했습니다.² 반면 OpenAI는 InfiniBand의 우수한 혼잡 제어 덕분에 GPT-4 훈련이 초기 Ethernet 기반 시도보다 40% 더 빠르게 완료되었다고 평가합니다.³ 이러한 상반된 경험은 근본적인 진실을 드러냅니다: "올바른" 선택은 전적으로 워크로드 특성, 규모 목표, 경제적 제약에 따라 달라집니다.

네트워크 아키텍처 결정은 AI 인프라의 모든 측면에 수년간 영향을 미칩니다. InfiniBand의 독점 에코시스템은 조직을 NVIDIA의 로드맵에 종속시키지만 분산 훈련에 대해 예측 가능한 성능을 제공합니다. Ethernet의 개방형 표준은 벤더 유연성과 비용 최적화를 가능하게 하지만 InfiniBand의 즉시 사용 가능한 효율성에 맞추려면 정교한 튜닝이 필요합니다. 이 선택은 현재 배포뿐만 아니라 미래 확장성에도 영향을 미치며, 나중에 기술을 전환하면 수백만 달러의 스위치, 케이블, 네트워크 카드를 교체해야 합니다.

하드웨어 세대가 바뀔 때마다 위험이 높아집니다. NVIDIA의 Spectrum-X는 800Gbps 속도에서 InfiniBand와 유사한 성능을 Ethernet에 제공하겠다고 약속하며, InfiniBand의 우위를 잠재적으로 무효화할 수 있습니다.⁴ Intel의 Ultra Ethernet Consortium은 시장을 더욱 분열시킬 수 있는 개방형 표준을 추진합니다.⁵ 오늘 인프라를 배포하는 조직은 현재 투자가 완전히 감가상각되는 2030년에 어떤 기술이 지배할지 예측해야 합니다. 잘못된 예측은 자산을 고착시키고 AI 경쟁이 심화되는 시점에 역량을 제한합니다.

기술 아키텍처가 근본적인 차이를 드러낸다

InfiniBand는 마이크로초가 성패를 결정하는 슈퍼컴퓨팅 요구사항에서 탄생했습니다. 이 아키텍처는 크레딧 기반 흐름 제어를 통한 무손실 전송을 가정하며, 수신자가 버퍼 가용성을 보장할 때만 송신자가 전송합니다.⁶ 이는 패킷 손실을 제거하지만 엔드포인트 간의 긴밀한 결합을 요구합니다. 모든 InfiniBand 장치는 서브넷 관리자의 중앙 집중식 라우팅 결정에 참여하여 특정 트래픽 패턴에 최적화된 결정론적 경로를 생성합니다. 이 접근 방식은 일관된 서브마이크로초 지연 시간을 제공하지만 예상 패턴에서 벗어나는 동적 워크로드에는 어려움을 겪습니다.

Ethernet은 절대적인 성능보다 단순성과 상호운용성이 더 중요한 근거리 통신망에서 발전했습니다. 이 아키텍처는 최선형 전달을 통한 손실 있는 전송을 가정하며, 신뢰성을 위해 상위 계층 프로토콜에 의존합니다. 패킷 손실은 전송 속도를 줄이는 혼잡 제어 알고리즘을 트리거하여 네트워크 붕괴를 방지하지만 지연 시간 변동을 증가시킵니다. Ethernet의 분산 라우팅 결정은 대규모 확장과 유연성을 가능하게 하지만 부하 상태에서 예측할 수 없는 성능을 만듭니다. 현대 데이터센터 Ethernet은 Priority Flow Control과 Explicit Congestion Notification 같은 기능을 추가하여 InfiniBand의 무손실 동작에 접근합니다.⁷

RDMA(Remote Direct Memory Access) 기능이 두 기술을 전통적인 네트워킹과 구분합니다. InfiniBand는 RDMA를 기본으로 포함하여 CPU 개입 없이 시스템 간 직접 메모리 전송을 가능하게 했습니다.⁸ InfiniBand를 통한 RDMA는 작은 메시지에 대해 0.5마이크로초 지연 시간을 달성하며, 이는 커널 기반 네트워킹보다 10배 좋습니다. Ethernet은 RoCE(RDMA over Converged Ethernet)를 통해 RDMA를 추가했으며, 적절히 구성되면 유사한 성능을 제공합니다. 그러나 RoCE는 대규모에서 유지하기 어려운 완벽한 네트워크 조건을 요구합니다.

스위칭 아키텍처는 기술 간에 근본적으로 다릅니다. InfiniBand 스위치는 모든 포트 간에 비차단 대역폭을 갖는 크로스바 패브릭으로 작동합니다.⁹ 40포트 HDR InfiniBand 스위치는 트래픽 패턴에 관계없이 일관된 지연 시간과 함께 16Tb/s 총 대역폭을 제공합니다. Ethernet 스위치는 통계적 다중화가 있는 공유 메모리 아키텍처를 사용하여 더 높은 포트 밀도를 달성하지만 혼잡 시 가변적인 성능을 보입니다. 아키텍처 차이는 InfiniBand가 예측 가능한 성능을 유지하는 반면 Ethernet이 더 나은 경제성을 제공한다는 것을 의미합니다.

관리 플레인은 서로 다른 철학적 접근 방식을 반영합니다. InfiniBand의 Subnet Manager는 토폴로지와 트래픽에 대한 글로벌 가시성과 함께 중앙 집중식 제어를 제공합니다.¹⁰ 관리자는 최적의 경로를 계산하고, 장애를 처리하며, 수동 개입 없이 서비스 품질을 유지합니다. Ethernet은 신중한 구성이 필요한 스패닝 트리, OSPF 또는 BGP와 같은 분산 프로토콜에 의존합니다. 소프트웨어 정의 네트워킹은 Ethernet에 중앙 집중식 제어를 가져오지만 복잡성과 잠재적 장애 지점을 추가합니다. 관리 차이는 대규모에서 운영 오버헤드에 상당한 영향을 미칩니다.

원시 대역폭을 넘어선 성능 지표

지연 시간 측정은 기술 간의 미묘한 차이를 드러냅니다. InfiniBand HDR은 모든 메시지 크기에서 일관되게 0.6마이크로초 포트 간 지연 시간을 달성합니다.¹¹ 100Gbps의 Ethernet은 1.2마이크로초 기준 지연 시간을 보이며 혼잡 시 50마이크로초 이상으로 저하됩니다. 2배의 기준 차이가 부하 상태에서 100배가 됩니다. 그래디언트 동기화가 수백만 번 발생하는 분산 훈련에서 마이크로초 차이는 수 시간의 추가 훈련 시간으로 누적됩니다.

대역폭 효율성은 마케팅 사양과 다른 이야기를 합니다. InfiniBand는 효율적인 인코딩과 최소한의 프로토콜 오버헤드로 인해 대용량 전송에서 이론적 대역폭의 95%를 제공합니다.¹² 200Gbps InfiniBand는 190Gbps 실제 처리량을 유지합니다. Ethernet의 오버헤드는 구성에 따라 다릅니다: 표준 Ethernet은 85% 효율성을 달성하고, 적절히 튜닝된 RoCE v2는 92%에 도달합니다. 두 기술 모두 유사한 PAM4 인코딩을 사용하는 800Gbps 속도에서 효율성 격차가 좁아집니다.

혼잡 동작이 기술을 극적으로 구분합니다. InfiniBand의 크레딧 기반 흐름 제어는 버퍼가 오버플로되기 전에 전송을 중지하여 혼잡을 방지합니다.¹³ 부하가 증가해도 성능이 점진적으로 저하됩니다. Ethernet의 패킷 손실은 톱니 모양의 처리량 패턴을 만드는 TCP 스타일 백오프 알고리즘을 트리거합니다. 여러 송신자가 단일 수신자를 압도하는 인캐스트 시나리오는 튜닝이 제대로 되지 않은 Ethernet에서 치명적인 성능 붕괴를 일으킵니다. InfiniBand는 최소한의 저하로 동일한 시나리오를 처리합니다.

확장성 테스트는 아키텍처 한계를 노출합니다. InfiniBand 패브릭은 3계층 팻 트리 토폴로지로 단일 서브넷에서 48,000개 노드까지 확장됩니다.¹⁴ 더 큰 배포는 라우터를 통해 연결된 여러 서브넷을 필요로 하며 복잡성이 추가됩니다. Ethernet은 계층적 라우팅을 사용하여 수백만 노드로 확장되지만 성능을 유지하려면 신중한 설계가 필요합니다. Facebook의 데이터센터는 트래픽 엔지니어링을 위한 맞춤형 프로토콜로 Ethernet을 사용하여 100,000개 이상의 서버를 연결합니다.¹⁵ 이 예시들은 두 기술 모두 확장되지만 다른 메커니즘을 통해 확장됨을 보여줍니다.

신뢰성 지표는 제어된 환경에서 InfiniBand가 약간 유리합니다. InfiniBand의 무손실 전송과 자동 경로 마이그레이션은 99.999% 패킷 전달을 달성합니다.¹⁶ 적절한 이중화를 갖춘 Ethernet은 대부분의 워크로드에 허용 가능한 99.995% 신뢰성에 도달합니다. 그러나 InfiniBand의 더 긴밀한 통합은 단일 구성 요소 장애가 전체 패브릭을 불안정하게 만들 수 있음을 의미합니다. Ethernet의 느슨한 결합은 장애를 더 잘 격리하여 연쇄 효과를 방지합니다. 신뢰성 차이는 중단이 수백만 달러의 컴퓨팅 시간을 낭비하는 장기 실행 훈련 작업에서 가장 중요합니다.

비용 분석이 기존 통념을 뒤집는다

하드웨어 비용은 경제적 이야기의 일부만 말해줍니다. InfiniBand HDR 어댑터는 포트당 $2,000-3,000이며 동등한 Ethernet 카드는 $800-1,500입니다.¹⁷ 40포트 InfiniBand 스위치는 $50,000이고 Ethernet은 $25,000입니다. 케이블링도 프리미엄이 추가됩니다: InfiniBand DAC 케이블은 $500-800이고 Ethernet 동등품은 $200-400입니다. 1,000 GPU 클러스터의 경우 InfiniBand 하드웨어 비용은 $1,500만이고 Ethernet은 $700만으로, $800만의 프리미엄이 금지적으로 보입니다.

운영 비용이 계산을 크게 바꿉니다. InfiniBand의 자동화된 관리는 Ethernet에 비해 관리 오버헤드를 60% 줄입니다.¹⁸ 한 명의 네트워크 엔지니어가 10,000개의 InfiniBand 포트를 관리할 수 있는 반면 수동 구성이 필요한 Ethernet은 4,000개입니다. 노동력 절감은 대규모 배포에서 연간 $500,000에 달합니다. InfiniBand의 높은 효율성은 전력 소비도 15% 줄여 메가와트 시설에서 연간 $200,000을 절약합니다.

소프트웨어 라이선스는 많은 사람들이 간과하는 숨겨진 비용을 만듭니다. InfiniBand의 OFED(OpenFabrics Enterprise Distribution) 스택은 선택적 지원 계약이 있는 오픈 소스입니다.¹⁹ 엔터프라이즈 Ethernet은 종종 고급 기능에 대한 값비싼 소프트웨어 라이선스를 요구합니다: VMware NSX는 CPU당 $5,000, Cisco ACI는 스위치당 $50,000입니다.²⁰ 이러한 라이선스는 5년 배포 수명 주기 동안 하드웨어 비용을 초과할 수 있습니다. SONiC과 같은 오픈 네트워킹 이니셔티브는 Ethernet 소프트웨어 비용을 줄이지만 엔지니어링 투자가 필요합니다.

총 소유 비용 모델은 활용 가정에 크게 의존합니다. InfiniBand의 15% 성능 우위가 15% 더 빠른 훈련으로 전환되면, 속도가 경쟁 우위를 결정하는 조직에서 시간 절약이 프리미엄 가격을 정당화합니다. GPU 컴퓨팅에 월 $100만을 지출하는 조직은 더 빠른 완료를 통해 $150,000을 절약합니다. 3년에 걸쳐 절감액이 InfiniBand의 프리미엄을 초과합니다. 그러나 워크로드가 InfiniBand의 장점에서 혜택을 받지 못하면 프리미엄은 순수한 낭비가 됩니다.

벤더 종속 비용은 정량화하기 어렵지만 장기 경제에 상당한 영향을 미칩니다. InfiniBand는 조직을 NVIDIA 에코시스템에 종속시켜 협상 레버리지와 기술 선택을 제한합니다.²¹ Ethernet의 벤더 다양성은 비용을 20-30% 줄이는 경쟁 입찰을 가능하게 합니다. 그러나 Ethernet 벤더 간 전환은 수백만 달러가 드는 재엔지니어링을 요구합니다. 기술 선택에 관계없이 진정한 벤더 독립성은 환상으로 남습니다.

소프트웨어 에코시스템 성숙도가 극적으로 다르다

드라이버 안정성은 하드웨어 사양보다 프로덕션 신뢰성에 더 큰 영향을 미칩니다. InfiniBand의 Mellanox OFED 드라이버는 NVIDIA GPU와 광범위한 테스트를 거쳐 소프트웨어 스택 전반에 걸친 호환성을 보장합니다.²² 버전 5.8 OFED는 모든 CUDA 버전을 원활하게 지원합니다. Ethernet 드라이버 품질은 벤더에 따라 다릅니다: Intel의 ice 드라이버는 매우 안정적인 반면, 일부 벤더는 부하 상태에서 커널 패닉을 일으키는 드라이버를 출하합니다. 드라이버 문제는 수 주간의 디버깅 시간을 낭비하는 신비한 장애를 일으킵니다.

프레임워크 통합이 개발자 생산성을 결정합니다. PyTorch와 TensorFlow는 네이티브 UCX 지원을 통해 InfiniBand에 최적화되어 튜닝 없이 거의 이론적인 성능을 달성합니다.²³ NCCL(NVIDIA Collective Communications Library)은 all-reduce 연산을 30% 가속하는 InfiniBand 특화 최적화를 포함합니다.²⁴ Ethernet 지원은 존재하지만 RoCE 매개변수, 혼잡 제어 알고리즘, 버퍼 크기의 수동 구성이 필요합니다. 프레임워크가 Ethernet 최적화를 추가함에 따라 통합 격차가 좁아지고 있지만 InfiniBand는 사용 편의성 우위를 유지합니다.

관리 도구는 에코시스템 성숙도 차이를 반영합니다. NVIDIA의 UFM(Unified Fabric Manager)은 포괄적인 InfiniBand 모니터링을 제공하며, 자동으로 감지합니다...

[번역을 위해 내용이 잘렸습니다]

견적 요청_

프로젝트에 대해 알려주시면 72시간 내에 답변드리겠습니다.

> 전송_완료

요청이 접수되었습니다_

문의해 주셔서 감사합니다. 저희 팀이 요청사항을 검토한 후 72시간 내에 답변드리겠습니다.

처리_대기_중