AI를 위한 이더넷 스위치: GPU 클러스터를 연결하는 51.2Tbps 플랫폼

AI를 위한 이더넷 스위치: GPU 클러스터를 연결하는 51.2Tbps 플랫폼

AI를 위한 이더넷 스위치: GPU 클러스터를 연결하는 51.2Tbps 플랫폼

2025년 12월 11일 업데이트

2025년 12월 업데이트: Dell'Oro Group에 따르면 이더넷이 현재 AI 백엔드 배포를 주도하고 있습니다. xAI Colossus(100,000개 H100)가 Spectrum-X로 95% 처리량을 달성한 반면, 기존 이더넷은 60%에 그쳤습니다. Broadcom Tomahawk 5는 단일 모놀리식 칩으로 51.2Tbps를 제공합니다(64x 800GbE). Ultra Ethernet Consortium의 560페이지 사양이 AI 최적화 표준을 공식화했습니다. NVIDIA Spectrum-X800은 기존 이더넷 대비 1.6배의 AI 성능을 제공합니다.

이더넷이 이제 AI 백엔드 네트워크 배포를 주도하고 있습니다. Dell'Oro Group은 2025년에 매력적인 비용 이점, 멀티벤더 생태계, 운영상의 친숙함이 InfiniBand보다 채택을 이끌고 있다고 보고합니다.¹ xAI의 Colossus 슈퍼컴퓨터가 대규모에서 이더넷 성능을 입증하면서 이러한 변화에 탄력이 붙고 있습니다. Spectrum-X 네트워킹을 사용하여 100,000개의 NVIDIA Hopper GPU를 연결하고 고급 혼잡 제어로 95% 데이터 처리량을 달성했습니다.² 유사한 규모의 기존 이더넷은 수천 건의 플로우 충돌로 인해 처리량이 대략 60%로 제한됩니다.³

스위치 실리콘은 AI 수요를 충족하기 위해 대역폭을 두 배로 늘렸습니다. Broadcom의 Tomahawk 5는 단일 모놀리식 칩에서 초당 51.2테라비트를 제공하며, 64포트 800GbE 또는 128포트 400GbE 스위치를 구동합니다.⁴ NVIDIA의 Spectrum-X800 플랫폼은 이 용량에 맞추면서 BlueField SuperNIC과의 소프트웨어 통합을 통해 AI 전용 최적화를 추가합니다. 2025년 6월 Ultra Ethernet Consortium 사양은 혼잡 제어, RDMA 전송 및 멀티벤더 상호운용성을 위한 560페이지 프레임워크를 수립하여 AI 최적화 이더넷 표준을 공식화했습니다.⁵

Broadcom Tomahawk 5가 대역폭 벤치마크를 설정하다

StrataXGS Tomahawk 5 스위치 시리즈는 단일 모놀리식 장치에서 초당 51.2테라비트의 이더넷 스위칭 용량을 제공하며, 이전 세대 실리콘의 대역폭을 두 배로 늘렸습니다.⁶ 이 칩은 2014년 Tomahawk 1으로 확립된 대역폭 배가 주기를 유지하며 머천트 스위치 실리콘에서 Broadcom의 지속적인 지배력을 나타냅니다.

아키텍처 결정이 Tomahawk 5를 경쟁사와 차별화합니다. 경쟁하는 51.2Tbps 설계가 모놀리식 패킷 처리 엔진 주위에 여러 시그널링 SerDes 칩렛을 래핑하는 칩렛 아키텍처를 사용하는 반면, Tomahawk 5는 5nm 공정 기술을 사용하여 단일 실리콘에서 전체 대역폭을 달성합니다.⁷ 공유 버퍼 아키텍처는 AI 워크로드에 중요한 RoCEv2 및 기타 RDMA 프로토콜에 대해 최고의 성능과 최저의 테일 레이턴시를 제공합니다.⁸

포트 구성은 다양한 배포 시나리오를 지원합니다: 최대 포트당 대역폭이 필요한 스파인 배포를 위한 800Gbps 64포트, 균형 잡힌 리프 스위치를 위한 400Gbps 128포트, 광범위한 서버 연결이 필요한 환경을 위한 200Gbps 256포트.⁹ 이 칩은 기존 Clos 토폴로지와 AI 클러스터 통신에 최적화된 토러스, Dragonfly, Dragonfly+, Megafly 구성을 포함한 비Clos 아키텍처를 모두 지원합니다.¹⁰

고급 기능은 AI/ML 워크로드 요구 사항을 직접 대상으로 합니다. Cognitive Routing은 지능형 트래픽 분배를 제공합니다. 동적 부하 분산은 사용 가능한 경로에 플로우를 분산시킵니다. 종단 간 혼잡 제어는 GPU 활용도를 저하시키는 네트워크 포화를 방지합니다.¹¹ Broadcom은 이러한 최적화를 통해 Jericho3-AI가 경쟁 칩 대비 10% 이상 짧은 작업 완료 시간을 제공한다고 주장합니다.¹²

전력 효율성 향상이 상당합니다. 단일 Tomahawk 5는 동등한 대역폭에서 48개의 Tomahawk 1 스위치를 대체하여 전력 요구 사항이 95% 이상 감소합니다.¹³ 이미 랙당 전력 밀도로 어려움을 겪고 있는 AI 데이터 센터의 경우, 네트워킹 효율성 개선이 컴퓨팅 및 냉각 최적화와 함께 복합적으로 작용합니다.

여러 벤더의 상용 스위치 제품이 Tomahawk 5 실리콘을 활용합니다. FS.com의 N9600-64OD는 서브마이크로초 레이턴시로 64x 800GbE 포트를 제공합니다.¹⁴ NADDOD의 N9500 시리즈는 AI 데이터 센터 배포에 최적화된 400G 및 800G 구성을 모두 제공합니다.¹⁵ Arista의 7060X6 AI Leaf 제품군은 2RU 폼 팩터에서 51.2Tbps 용량을 위해 Tomahawk 5를 사용합니다.¹⁶

NVIDIA Spectrum-X가 AI 네이티브 이더넷을 구축하다

NVIDIA는 AI 워크로드를 위해 특별히 설계된 최초의 이더넷 네트워킹 플랫폼으로 Spectrum-X를 설계했습니다. 이 플랫폼은 Spectrum SN5600 스위치와 BlueField-3 SuperNIC을 결합하여 기존 이더넷 구현 대비 생성형 AI 성능을 1.6배 향상시킵니다.¹⁷

Spectrum-X800 SN5600 스위치는 OSFP 폼 팩터를 사용하여 64포트의 800GbE와 51.2Tbps 총 스위칭 용량을 제공합니다.¹⁸ 스위치의 기반이 되는 Spectrum-4 아키텍처는 용량과 포트 밀도 모두에서 이전 세대 기능을 초과합니다. BlueField SuperNIC과의 통합은 전체 네트워크 패브릭에 걸쳐 조정된 혼잡 제어, 적응형 라우팅 및 텔레메트리 수집을 가능하게 합니다.

실제 배포가 아키텍처를 검증합니다. xAI의 Colossus 클러스터는 Spectrum-X 이더넷을 사용하여 100,000개의 GPU에서 Grok 대규모 언어 모델 제품군을 훈련합니다.¹⁹ 이 시스템은 분산 AI 훈련의 버스티하고 동기화된 통신 패턴에 특별히 최적화된 혼잡 제어 기술을 통해 95% 데이터 처리량을 달성합니다.²⁰

2025년 제품 발표는 Spectrum-X 기능을 크게 확장합니다. 2025년 3월에 공개된 Spectrum-X Photonics 스위치는 대규모로 전자 회로와 광통신을 융합합니다.²¹ 구성에는 128포트 800Gbps(총 100Tbps)와 512포트 800Gbps(총 400Tbps)가 포함되어 에너지 소비를 줄이면서 수백만 개의 GPU를 연결하는 AI 팩토리를 가능하게 합니다.²²

2025년 8월에 발표된 Spectrum-XGS 이더넷은 분산 데이터 센터를 통합된 기가스케일 AI 슈퍼팩토리로 결합하는 스케일-어크로스 기술을 도입합니다.²³ 이 기술은 기존 스케일업(NVLink) 및 스케일아웃(표준 네트워킹)을 넘어선 AI 컴퓨팅의 세 번째 기둥을 나타내며, 조직이 분산 인프라를 일관된 훈련 환경으로 집계할 수 있게 합니다.

주요 클라우드 제공업체가 Spectrum-X를 표준화하고 있습니다. Meta와 Oracle은 2025년 10월에 AI 훈련 효율성을 가속화하는 개방형 가속 네트워킹 아키텍처로 Spectrum-X 이더넷 스위치를 배포할 것이라고 발표했습니다.²⁴ 멀티벤더 생태계는 Spectrum-X를 NVIDIA 솔루션이자 산업 플랫폼으로 자리매김시킵니다.

Ultra Ethernet Consortium이 AI 지원 표준을 수립하다

Ultra Ethernet Consortium은 2025년 6월 11일에 AI 및 HPC 네트워킹을 위한 포괄적인 560페이지 프레임워크인 Specification 1.0을 발표했습니다.²⁵ Linux Foundation 산하에서 2023년에 출범한 이 컨소시엄은 AMD, Intel, Broadcom, Cisco, Arista, Meta, Microsoft, Dell, Samsung, Huawei를 포함한 50개 이상의 기술 회사를 통합합니다.²⁶

기술 혁신은 AI 워크로드에 대한 기존 이더넷의 근본적인 한계를 해결합니다. 이 사양은 분산 훈련의 동기화되고 버스티한 통신 패턴을 위해 설계된 향상된 RDMA 구현, 전송 프로토콜 및 혼잡 제어 메커니즘을 정의합니다.²⁷

혼잡 제어 접근 방식은 기존 RoCE 구현과 근본적으로 다릅니다. UEC 접근 방식은 전통적으로 요구되는 무손실 네트워크에 의존하지 않으며, 엔드포인트가 수동적으로 남아 있지 않고 송신자 전송을 능동적으로 제한할 수 있는 수신자 중심 모드를 도입합니다.²⁸ 이러한 변화는 AI 워크로드를 위한 더 나은 효율성으로 더 큰 네트워크를 구축할 수 있게 합니다.

성능 목표는 클러스터 규모 배포에 걸쳐 있습니다. 이 사양은 클러스터 전반에서 1~20마이크로초의 왕복 시간을 목표로 하며, AI 훈련, 추론 및 HPC 워크로드를 실행하는 데이터 센터 환경에 특별히 최적화합니다.²⁹

상호운용성 보장은 벤더 종속을 방지합니다. UEC Specification 1.0은 NIC, 스위치, 광학 장치 및 케이블 전반에 걸쳐 고성능 솔루션을 제공하여 원활한 멀티벤더 통합을 가능하게 합니다.³⁰ 개방형 표준은 조직이 성능 일관성을 유지하면서 여러 공급업체에서 구성 요소를 소싱할 수 있게 합니다.

제품 가용성은 사양 릴리스 이후에 이어집니다. Arista는 7060X 및 7800R 플랫폼을 시작으로 Etherlink 제품 포트폴리오 전반에 걸쳐 UEC 1.0 스위칭 향상 기능을 지원할 것이라고 확인했습니다.³¹ 여러 벤더의 전체 스택 지원 하드웨어는 2025년 말 또는 2026년 초에 출하됩니다.³²

Arista와 Cisco가 모듈형 AI 플랫폼에서 경쟁하다

전통적인 네트워킹 벤더들이 NVIDIA의 목적 기반 접근 방식과 경쟁하면서 AI 워크로드 요구 사항에 맞게 데이터 센터 플랫폼을 조정하고 있습니다.

Arista의 7800R4 시리즈는 2025년 10월 29일에 AI 배포를 위해 설계된 4세대 모듈형 스파인 시스템으로 출시되었습니다.³³ 이 플랫폼은 4개에서 16개의 라인 카드 모듈에 걸쳐 460Tbps(920Tbps 전이중) 시스템 처리량을 제공합니다.³⁴ 대규모 클러스터 연결을 위해 포트 수는 576x 800GbE 또는 1152x 400GbE까지 확장됩니다.³⁵

7800R4는 AI 최적화 패킷 파이프라인을 갖춘 Broadcom Jericho3-AI 프로세서를 구현합니다.³⁶ HyperPort 기술은 4개의 800Gbps 포트를 3.2Tbps 집계 연결로 결합하여 별도 포트 간의 기존 부하 분산과 비교하여 AI 대역폭 플로우에 대해 44% 더 짧은 작업 완료 시간을 가능하게 합니다.³⁷ 모듈형 섀시와 7280R4 고정형 스위치는 현재 출하되며, 7020R4 변형 및 HyperPort 라인카드는 2026년 1분기에 도착합니다.³⁸

Cisco Silicon One은 G200 ASIC으로 구동되는 최대 51.2Tbps 성능으로 라우팅 및 스위칭 기능을 통합합니다.³⁹ 이 아키텍처는 높은 용량, 초저지연 및 단축된 작업 완료 시간으로 AI 스케일아웃 및 스케일업 네트워킹을 모두 대상으로 합니다.⁴⁰

Cisco 8800 시리즈 모듈형 라우터가 섀시 기반을 제공합니다. 4, 8, 12 및 18슬롯 구성으로 제공되며, 모든 모델은 Silicon One 기반의 3세대 36x 800G(P100) 라인 카드를 지원합니다.⁴¹ Cisco 8223 라우터는 Silicon One P200 프로그래머블 칩을 사용하여 51.2Tbps 용량을 제공합니다.⁴²

확장된 Cisco-NVIDIA 파트너십은 Silicon One 칩을 Spectrum-X 이더넷 스택에 통합하여 GPU 클러스터 지원을 위한 저지연 스위칭, 적응형 라우팅 및 텔레메트리를 결합합니다.⁴³ Cisco 8000 시리즈 스위치에서의 SONiC(Software for Open Networking in the Cloud) 지원은 조직이 운영 요구 사항에 맞는 개방형 네트워크 운영 체제를 선택할 수 있게 합니다.⁴⁴

RoCE가 이더넷을 InfiniBand와 경쟁하게 만들다

RDMA over Converged Ethernet(RoCE)은 적절히 구성될 때 이더넷 네트워크가 AI 워크로드에서 InfiniBand 성능에 필적할 수 있게 합니다. Meta는 24,000-GPU 클러스터에 대한 엔지니어링 세부 사항을 발표하면서 RoCE와 InfiniBand 모두 동등한 성능을 제공하도록 튜닝했으며, 가장 큰 모델은 RoCE 패브릭에서 훈련되었다고 밝혔습니다.⁴⁵

RoCE v2는 무손실 이더넷 네트워크 구성에 의존합니다. Priority Flow Control은 선택된 트래픽 클래스에 대한 패킷 손실을 제거합니다. Enhanced Transmission Selection은 트래픽 유형 간에 대역폭을 할당합니다. Explicit Congestion Notification은 조기 혼잡을 알립니다. Dynamic Congestion Control은 RDMA 성능을 최적화합니다.⁴⁶ 이러한 메커니즘의 적절한 구성 없이는 RoCE 성능이 크게 저하됩니다.

주요 클라우드 플랫폼이 프로덕션 AI 워크로드에 대해 RoCE를 검증합니다. Google Cloud의 A3 Ultra 및 A4 Compute Engine 머신 유형은 고성능 GPU 네트워킹을 위해 RoCEv2를 활용합니다.⁴⁷ Oracle의 Zettascale10 슈퍼클러스터는 지연 시간을 최소화하기 위해 통합 4포트 스위치가 포함된 특수 이더넷 NIC과 함께 Acceleron RoCE 네트워크 패브릭을 사용합니다.⁴⁸

Meta의 AI 클러스터 아키텍처는 대규모 RoCE를 보여줍니다. 백엔드 패브릭은 모든 RDMA NIC을 논블로킹 토폴로지로 연결하여 두 GPU 간에 높은 대역폭, 낮은 지연 시간 및 무손실 전송을 제공합니다.⁴⁹ 2단계 Clos 토폴로지는 AI 랙을 존으로 구성하며, 랙 훈련 스위치가 구리 DAC 케이블을 통해 GPU를 연결하는 리프 스위치 역할을 합니다.⁵⁰

비용 고려 사항은 많은 배포에서 이더넷을 선호합니다. 256-1,024 GPU 클러스터를 배포하는 티어 2 및 티어 3 회사의 경우, 특정하고 정량화된 지연 시간 요구 사항이 InfiniBand의 2배 네트워킹 비용을 정당화하지 않는 한 RoCE가 포함된 이더넷이 기본 권장 사항입니다.⁵¹ 게시된 사례 연구...

[번역을 위해 콘텐츠 잘림]

견적 요청_

프로젝트에 대해 알려주시면 72시간 내에 답변드리겠습니다.

> 전송_완료

요청이 접수되었습니다_

문의해 주셔서 감사합니다. 저희 팀이 요청사항을 검토한 후 72시간 내에 답변드리겠습니다.

처리_대기_중