NVLink와 스케일업 네트워킹: 800G 이더넷으로 부족할 때

NVLink 5가 GPU당 1.8TB/s를 제공(18개 링크 × 100GB/s)—PCIe Gen5 대역폭의 14배. GB200 NVL72가 72개 GPU를 130TB/s 총 대역폭으로 연결. NVSwitch가 576개 GPU를 1PB/s 총 대역폭의 논블로킹 패브릭으로 구현...

NVLink와 스케일업 네트워킹: 800G 이더넷으로 부족할 때

NVLink와 스케일업 네트워킹: 800G 이더넷으로 부족할 때

2025년 12월 11일 업데이트

2025년 12월 업데이트: NVLink 5가 GPU당 1.8TB/s를 제공(18개 링크 × 100GB/s)—PCIe Gen5 대역폭의 14배. GB200 NVL72가 72개 GPU를 130TB/s 총 대역폭으로 연결. NVSwitch가 576개 GPU를 1PB/s 총 대역폭의 논블로킹 패브릭으로 구현. 5세대 NVLink가 1세대(2014년) 대비 12배 대역폭 달성. 스케일업 네트워킹이 스케일아웃 네트워크가 구현할 수 없는 역량 창출.

단일 NVIDIA Blackwell GPU는 최대 18개의 NVLink 연결을 지원하며, 각각 초당 100기가바이트로 총 1.8테라바이트의 대역폭을 제공합니다—PCIe Gen5 대역폭의 14배입니다.¹ GB200 NVL72 시스템은 단일 NVLink 도메인에서 72개 GPU를 연결하여 초당 130테라바이트의 총 대역폭을 제공합니다.² NVIDIA의 NVLink Switch는 576개 GPU를 초당 1페타바이트 이상의 총 대역폭을 가진 논블로킹 컴퓨트 패브릭으로 구현합니다.³ 스케일업 네트워킹은 스케일아웃 이더넷 및 InfiniBand 네트워크가 구현할 수 없는 인프라 역량을 만들어냅니다.

스케일업과 스케일아웃 네트워킹의 구분은 현대 AI 인프라 아키텍처를 정의합니다. NVLink와 NVSwitch는 노드 및 랙 내 통신을 처리하여 대규모 모델 전반의 텐서 병렬 처리에 필요한 대역폭과 지연 시간을 제공합니다. InfiniBand와 이더넷은 랙 간 통신을 처리하여 수천 개의 GPU에 걸친 데이터 병렬 처리에 필요한 도달 범위를 제공합니다. 각 기술이 언제 적용되는지 이해하는 것이 인프라 투자가 기대한 성능을 제공하는지를 결정합니다.

5세대 NVLink는 이전 세대 대비 대역폭을 두 배로 늘렸습니다.⁴ 각 링크는 양방향 초당 100기가바이트로 작동하며, Blackwell GPU당 18개 링크가 초당 1.8테라바이트의 총 대역폭을 제공합니다.⁵ 이 향상은 PCIe Gen5 대역폭을 14배 이상 초과합니다.⁶

세대별 발전은 다음과 같은 궤적을 보여줍니다:

세대 아키텍처 링크 수 GPU당 대역폭
1세대 (2018) Volta V100 6 300 GB/s
2세대 (2020) Ampere A100 12 600 GB/s
3세대 (2022) Hopper H100 18 900 GB/s
4세대 (2024) Blackwell B200 18 1.8 TB/s

5세대 NVLink는 2014년에 도입된 1세대 NVLink 대비 12배의 대역폭을 달성했습니다.⁷ Hopper에서 Blackwell로의 두 배 향상은 조 단위 파라미터 모델의 증가하는 대역폭 요구 사항을 반영합니다.

NVLink 4의 링크당 초당 50기가바이트에서 NVLink 5의 초당 100기가바이트로의 대역폭 증가로 동일한 18링크 구성에서 총 처리량이 두 배가 되었습니다.⁸ 아키텍처는 링크 수를 유지하면서 신호 속도를 향상시켰습니다.

NVSwitch 아키텍처 발전

NVIDIA는 2018년 DGX-2 시스템과 함께 NVSwitch를 도입하여 단일 시스템 내 GPU 간 완전 상호 연결을 가능하게 했습니다.⁹ NVSwitch는 NVLink 트래픽을 위한 고속 논블로킹 크로스바 스위치로 작동하여 시스템 내 모든 GPU가 다른 모든 GPU와 최대 속도로 통신할 수 있게 합니다.¹⁰

DGX-2는 1세대 NVSwitch를 통해 연결된 16개의 V100 GPU를 탑재했습니다.¹¹ 각 NVSwitch 칩은 18개의 NVLink 포트와 초당 900기가바이트의 총 스위칭 용량을 제공했습니다.¹² 이 100와트 칩은 TSMC 12nm 공정으로 제조되었으며 20억 개의 트랜지스터를 포함했습니다.¹³

2세대 NVSwitch는 2020년 DGX A100과 함께 등장하여 GPU당 초당 600기가바이트의 NVLink 3.0을 지원했습니다.¹⁴ 6개의 NVSwitch 칩이 8개의 A100 GPU를 위한 완전 연결 네트워크 토폴로지를 구성했습니다.¹⁵

Hopper용 3세대 NVSwitch는 칩당 초당 25.6테라비트의 총 양방향 대역폭으로 증가했습니다.¹⁶ 각 HGX H100 및 HGX H200 시스템의 4개 NVSwitch 칩은 8개 GPU 전반에 걸쳐 초당 3.6테라바이트의 양방향 네트워크 대역폭을 제공합니다.¹⁷ 3세대 NVSwitch는 네트워크 내 연산을 위한 SHARP 기능을 도입하여 개별 GPU로의 왕복 없이 여러 GPU 유닛에 걸쳐 결과를 집계하고 업데이트합니다.¹⁸

Blackwell용 4세대 NVSwitch는 칩당 72개의 NVLink 5.0 포트를 제공합니다.¹⁹ NVLink 5 Switch는 144개의 NVLink 포트와 초당 14.4테라바이트의 논블로킹 스위칭 용량을 제공합니다.²⁰ 이 세대에서 랙 레벨 스위칭이 도입되어 NVSwitch가 서버에서 전용 스위치 트레이로 이동했습니다.

GB200 NVL72 스케일업 아키텍처

GB200 NVL72는 36개의 Grace CPU와 72개의 Blackwell GPU를 랙 규모의 수랭식 설계로 연결합니다.²¹ 72개 GPU NVLink 도메인은 단일 대형 GPU처럼 작동하며 이전 세대 대비 30배 빠른 실시간 조 단위 파라미터 대규모 언어 모델 추론을 제공합니다.²²

물리적 아키텍처는 컴퓨트 트레이와 스위치 트레이에 컴포넌트를 분산합니다.²³ 각 컴퓨트 트레이는 2개의 GB200 Superchip을 포함하며, 각 Superchip은 2개의 B200 GPU와 1개의 Grace CPU로 구성됩니다.²⁴ 시스템은 총 72개 GPU로 구성된 18개의 컴퓨트 트레이를 포함합니다.

9개의 NVLink 스위치 트레이가 풀메시 연결을 제공합니다.²⁵ 각 스위치 트레이는 총 144개의 NVLink 포트를 가진 2개의 NVLink Switch 칩을 포함합니다.²⁶ 9개의 스위치가 모든 Blackwell GPU의 18개 NVLink 포트 각각을 완전히 연결합니다.²⁷

단일 서버나 컴퓨트 트레이 내에서 직접적인 GPU 간 연결은 존재하지 않습니다.²⁸ 모든 통신은 외부 NVSwitch 패브릭을 통해 라우팅됩니다.²⁹ 이 아키텍처는 연결성 관점에서 72개 GPU 모두를 동등하게 만듭니다—어떤 GPU든 동일한 대역폭과 지연 시간으로 다른 GPU와 통신할 수 있습니다.³⁰

초당 130테라바이트의 총 NVLink 대역폭은 72개 GPU 전체에 걸친 텐서 병렬 처리를 가능하게 합니다.³¹ 단일 GPU 메모리 용량을 초과하는 대규모 모델은 최소한의 통신 오버헤드로 전체 도메인에 텐서를 분산할 수 있습니다. 이 아키텍처는 스케일업 워크로드를 위한 서버와 랙 네트워킹 사이의 전통적인 경계를 제거합니다.

스케일업 대 스케일아웃 네트워킹

스케일업 네트워킹(NVLink)과 스케일아웃 네트워킹(InfiniBand 및 이더넷)은 AI 인프라에서 근본적으로 다른 목적을 수행합니다.³²

NVLink는 단일 도메인 내 GPU 간 빠른 통신에 뛰어납니다—InfiniBand보다 훨씬 빠르며, 로컬 연결의 경우 초당 테라바이트 수준의 대역폭을 제공합니다.³³ 낮은 지연 시간과 높은 대역폭은 모델 가중치가 GPU에 분산되고 모든 레이어에서 동기화되어야 하는 텐서 병렬 처리를 지원합니다. NVLink의 GPU당 초당 1.8테라바이트는 이러한 동기화가 병목이 되지 않도록 합니다.

NVLink는 통신이 노드 경계를 넘으면 도움이 되지 않습니다.³⁴ 노드 간 네트워킹은 노드 내 NVLink 기능과 관계없이 InfiniBand 또는 이더넷이 필요합니다. 이 기술들은 계층의 서로 다른 레이어에서 작동합니다.

InfiniBand는 수천 개의 서버 노드를 연결하는 업계 표준을 제공합니다.³⁵ Remote Direct Memory Access(RDMA)는 서버가 CPU와 OS 오버헤드를 우회하여 메모리 공간 간에 직접 데이터를 교환할 수 있게 합니다.³⁶ 이 기능은 각 노드가 서로 다른 배치를 처리하고 그래디언트를 동기화하는 데이터 병렬 처리를 사용한 대규모 분산 훈련에 필수적입니다.

InfiniBand는 대규모 AI 훈련의 황금 표준으로 남아 있으며, 세계 최고 슈퍼컴퓨터 중 270개 이상을 연결합니다.³⁷ 적응형 라우팅, 혼잡 제어 및 RDMA 기능은 동기식 고성능 컴퓨팅을 위해 특별히 설계되었습니다.

이더넷은 스케일아웃 배포에서 InfiniBand를 추월하고 있습니다.³⁸ NVIDIA의 Spectrum-X는 텔레메트리 기반 혼잡 제어, 적응형 로드 밸런싱 및 직접 데이터 배치를 포함한 InfiniBand 혁신을 이더넷에 도입합니다.³⁹ Spectrum-X를 사용한 대규모 시스템은 애플리케이션 지연 저하 없이 95%의 데이터 처리량을 달성했으며, 이는 표준 이더넷 패브릭의 60% 처리량과 비교됩니다.⁴⁰

계층적 모델은 이러한 기술들을 적절히 결합합니다. NVLink는 랙 내 스케일업을 처리하여 스케일아웃 네트워킹의 약 18배 대역폭을 제공합니다.⁴¹ InfiniBand 또는 이더넷은 랙 간 스케일아웃을 처리하여 수천 개의 노드에 대한 도달 범위를 제공합니다. GB200 NVL72 시스템의 각 GPU 트레이는 랙 간 통신을 위해 800기가비트의 RDMA NIC를 포함합니다.⁴²

576-GPU 도메인과 SuperPOD 아키텍처

NVLink Switch는 576개의 완전 연결 GPU를 논블로킹 컴퓨트 패브릭으로 구현합니다.⁴³ 8개의 GB200 NVL72 랙이 SuperPOD를 형성하여 초당 1페타바이트 이상의 총 대역폭과 240테라바이트의 고속 메모리를 갖춘 576개 GPU의 슈퍼노드를 만듭니다.⁴⁴

DGX SuperPOD는 확장 가능한 단위(SU)로 구축되며, 각각 8개의 DGX GB200 시스템을 포함합니다.⁴⁵ 모듈식 설계는 어떤 규모로든 SuperPOD의 신속한 배포를 가능하게 합니다. 참조 아키텍처에는 InfiniBand, NVLink 네트워크, 이더넷 패브릭 토폴로지, 스토리지 시스템, 랙 레이아웃 및 배선에 대한 사양이 포함됩니다.⁴⁶

576-GPU 도메인은 SuperPOD의 모든 랙에 걸쳐 완전 연결 NVLink 토폴로지를 유지합니다.⁴⁷ 어떤 GPU든 스케일아웃 네트워킹을 거치지 않고 초당 1.8테라바이트로 다른 GPU와 통신할 수 있습니다.⁴⁸ 도메인 크기는 현재 훈련 중인 가장 큰 파운데이션 모델의 요구 사항과 일치합니다.

SuperPOD 배포는 온프레미스 설치가 필요합니다.⁴⁹ 고객은 자체 데이터 센터나 코로케이션 상업 시설 내에서 하드웨어를 소유하고 관리합니다. 아키텍처는 NVIDIA의 내부 연구 개발 시스템을 미러링하므로 인프라 소프트웨어, 애플리케이션 및 지원이 동일한 구성에서 테스트됩니다.⁵⁰

클라우드 제공업체인 Microsoft Azure, Oracle Cloud 및 CoreWeave는 2025년에 X800 아키텍처가 제공될 때 지원하기로 약속했습니다.⁵¹ 클라우드 배포는 전용 온프레미스 인프라를 정당화할 수 없는 조직에 SuperPOD 기능을 확장합니다.

엔터프라이즈 Kubernetes 배포

Multi-Node NVLink(MNNVL) 시스템은 특수화된 Kubernetes 구성이 필요합니다.⁵² Kubernetes는 NVIDIA의 MNNVL 아키텍처를 기본적으로 인식하지 못하므로 워크로드 관리 및 스케줄링이 표준 GPU 배포보다 복잡합니다.⁵³

배포 요구 사항에는 Kubernetes 1.32 이상과 NVIDIA GPU Operator 버전 25.3 이상이 포함됩니다.⁵⁴ GPU Operator 버전은 GB200 가속 네트워킹 리소스와 ComputeDomain 기능에 대한 지원을 제공하는 Dynamic Resource Allocation(DRA) 드라이버를 포함해야 합니다.⁵⁵ NVIDIA Network Operator가 네트워크 구성을 처리합니다.

IMEX 서비스는 NVLink 다중 노드 배포에서 OS 도메인 간 GPU 메모리 내보내기 및 가져오기를 지원합니다.⁵⁶ 이 서비스는 도메인 전체에서 NVLink 피어 투 피어 통신과 공유 메모리 작업을 가능하게 합니다.

분산 워크로드가 MNNVL 노드 풀을 대상으로 할 때 플랫폼은 NVLink 도메인 할당을 관리하기 위한 ComputeDomain Custom Resource Definition(CRD)을 생성합니다.⁵⁷ ComputeDomain에 대한 참조가 자동으로 워크로드 사양에 리소스 클레임으로 첨부되어 스케줄러가 워크로드를 특정 NVLink 도메인에 바인딩할 수 있게 합니다.⁵⁸

Pod 어피니티 규칙은 MNNVL 레이블 키(nvidia.com/gpu.clique)를 토폴로지 키로 사용합니다.⁵⁹ 이 구성은 분산 워크로드 내의 Pod가 NVLink 상호 연결이 있는 노드에 배치되어 성능에 필요한 토폴로지를 유지하도록 보장합니다.⁶⁰

인프라 계획 고려 사항

NVLink 인프라를 평가하는 조직은 먼저 워크로드 특성을 고려해야 합니다. 대규모 모델 전반의 텐서 병렬 처리는 NVLink 대역폭의 직접적인 혜택을 받습니다. 많은 소규모 모델 전반의 데이터 병렬 처리는 NVLink의 기능이 필요하지 않을 수 있으며 스케일아웃 네트워킹만으로 적절한 성능을 달성할 수 있습니다.

GB200 NVL72는 상당한 인프라 투자를 의미합니다. 수랭 요구 사항, 랙 규모 통합 및 특수 네트워킹은 공랭식 서버 중심 아키텍처의 복잡성을 초과합니다. 조직은 투자 전에 워크로드가 이러한 기능을 필요로 하는지 검증해야 합니다.

전력 및 냉각 인프라는 초기 배포부터 수랭을 수용해야 합니다. GB200 NVL72는 공랭으로 작동할 수 없습니다. 배포 후 수랭을 위해 시설을 개조하는 것은 비용이 많이 들고 방해가 됩니다.

네트워크 계획은 스케일업과 스케일아웃 요구 사항을 모두 다루어야 합니다. NVLink 패브릭은 랙 내 통신을 처리하지만, 랙 간

견적 요청_

프로젝트에 대해 알려주시면 72시간 내에 답변드리겠습니다.

> 전송_완료

요청이 접수되었습니다_

문의해 주셔서 감사합니다. 저희 팀이 요청사항을 검토한 후 72시간 내에 답변드리겠습니다.

처리_대기_중