NVIDIA Blackwell Ultra와 B300: 차세대 GPU가 요구하는 것들

B300은 15 PFLOPS FP4, 288GB HBM3e(12단 스택), 8TB/s 대역폭, 1,400W TDP를 제공합니다. GB300 NVL72 랙은 단일 노드에서 엑사스케일인 1.1 EXAFLOPS를 달성합니다. DGX B200은 Hopper 대비 3배의 학습 성능과 15배의...

NVIDIA Blackwell Ultra와 B300: 차세대 GPU가 요구하는 것들

NVIDIA Blackwell Ultra와 B300: 차세대 GPU가 요구하는 것들

2025년 12월 11일 업데이트

2025년 12월 업데이트: B300은 15 PFLOPS FP4, 288GB HBM3e(12단 스택), 8TB/s 대역폭, 1,400W TDP를 제공합니다. GB300 NVL72 랙은 단일 노드에서 엑사스케일인 1.1 EXAFLOPS를 달성합니다. DGX B200은 Hopper 대비 3배의 학습 성능과 15배의 추론 성능을 제공합니다. 시스템은 2025년 하반기 출하 예정입니다. 액체 냉각, 800Gbps 네트워킹, 그리고 대부분의 기존 시설이 지원할 수 없는 전력 밀도가 필요합니다.

NVIDIA Blackwell Ultra GPU는 15페타플롭스의 고밀도 FP4 연산, B200 대비 50% 더 많은 메모리, 그리고 1.5배 빠른 성능을 제공합니다.¹ 단일 GB300 NVL72 랙은 1.1엑사플롭스의 FP4 연산을 달성하며, 단일 노드에서 엑사스케일 슈퍼컴퓨터로 작동합니다.² 8개의 NVIDIA Blackwell GPU를 장착한 DGX B200은 이전 세대 Hopper 시스템 대비 3배의 학습 성능과 15배의 추론 성능을 제공합니다.³ Blackwell의 인프라 요구 사항은 기존에 조직들이 배포했던 것과 상당히 다르며, 액체 냉각, 800기가비트 네트워킹, 그리고 대부분의 기존 시설이 지원할 수 없는 전력 밀도를 요구합니다.

NVIDIA는 GTC 2025에서 B300을 발표했으며, 시스템은 2025년 하반기에 출하됩니다.⁴ 이 일정은 하드웨어가 도착하기 전에 시설을 준비하고, 전력을 확보하며, 운영 역량을 구축해야 하는 조직들에게 계획의 긴급성을 만들어냅니다. 지금 Blackwell의 인프라 요구 사항을 이해하는 것이 시스템이 가용해질 때 조직이 효과적으로 배포할 수 있는지를 결정합니다.

Blackwell Ultra 사양

Blackwell Ultra GPU는 NVIDIA의 High-Bandwidth Interface를 사용하여 연결된 두 개의 다이에 걸쳐 2,080억 개의 트랜지스터와 160개의 스트리밍 멀티프로세서를 갖춘 듀얼 레티클 설계를 특징으로 합니다.⁵ B200은 H100의 800억 개와 비교하여 2,080억 개의 트랜지스터를 포함했습니다.⁶ 트랜지스터 수는 프론티어 규모의 AI 워크로드에 필요한 아키텍처 복잡성을 반영합니다.

B300은 B200의 8단 구성 대신 12단 메모리 스택을 통해 GPU당 288기가바이트의 HBM3e 메모리를 제공합니다.⁷ 메모리 대역폭은 초당 8테라바이트에 달합니다.⁸ 이 메모리 용량은 이전에 다중 GPU 구성이 필요했던 모델을 단일 GPU에서 처리할 수 있게 합니다.

전력 요구 사항이 크게 증가합니다. 각 B300 칩은 GB300의 핵심에서 1,400와트를 소비합니다.⁹ B200은 H100의 700와트에서 증가한 1,000와트를 소비했습니다.¹⁰ 세 세대에 걸쳐 GPU당 700에서 1,000, 1,400와트로의 진행은 조직이 계획해야 할 전력 궤적을 보여줍니다.

고밀도 FP4 성능은 B200의 9페타플롭스에 비해 B300에서 14페타플롭스에 달하며, 55.6%의 향상을 나타냅니다.¹¹ FP4 연산 기능은 거의 동등한 정확도를 유지하면서 FP8 대비 메모리 풋프린트를 약 1.8배 줄입니다.¹² 낮은 정밀도 기능은 정밀도 감소가 품질 저하 없이 처리량을 향상시키는 추론 워크로드를 다룹니다.

Hopper 대비 성능

검증된 성능 데이터는 Hopper 세대 대비 GPU당 최대 11~15배 빠른 LLM 처리량을 보여줍니다.¹³ HGX B200은 HGX H100 대비 최대 15배의 추론 및 3배의 학습 향상을 제공하며, 12배의 에너지 및 비용 절감을 달성합니다.¹⁴ GB200 NVL72 클러스터는 H100 클러스터 대비 4배 빠른 학습과 30배 빠른 실시간 추론을 제공합니다.¹⁵

B200은 단일 GPU에서 20페타플롭스의 AI 성능을 제공합니다. 단일 H100은 AI 계산에서 최대 4페타플롭스를 가졌습니다.¹⁶ GPU당 5배 향상은 대규모 배포의 경제성을 변화시킵니다. 조직은 더 적은 GPU로 동등한 성능을 달성하거나 동등한 GPU 수로 상당히 더 많은 성능을 달성할 수 있습니다.

메모리 개선이 연산 향상을 보완합니다. B200은 H100의 80기가바이트 HBM3와 비교하여 192기가바이트의 HBM3e를 제공합니다.¹⁷ 메모리 대역폭은 H100의 초당 3.35테라바이트의 2.4배인 초당 8테라바이트에 달합니다.¹⁸ 메모리 용량은 이전에 복잡한 다중 GPU 구성이 필요했던 모델의 단일 GPU 처리를 가능하게 합니다.

추론 워크로드의 경우, Blackwell은 H100 대비 추론당 25배 낮은 에너지를 제공합니다.¹⁹ 단일 B200은 Llama 3 추론을 위해 5배의 H100 노드를 대체하여 비용과 탄소 발자국을 줄입니다.²⁰ 효율성 향상은 추론이 연산 수요를 지배하는 대규모 배포에서 복합적으로 작용합니다.

Hopper와의 아키텍처 차이

Hopper는 FP64 및 FP32의 전통적인 정밀도에 초점을 맞춘 고성능 컴퓨팅과 AI 워크로드의 광범위한 혼합을 대상으로 합니다.²¹ Blackwell은 대규모 생성형 AI 작업에 명시적으로 최적화되어 있습니다.²² 아키텍처 초점은 AI 워크로드, 특히 추론이 GPU 수요를 지배할 것이라는 NVIDIA의 평가를 반영합니다.

Blackwell은 4비트 및 6비트 연산을 지원하는 초저정밀 모드를 갖춘 5세대 텐서 코어를 도입합니다.²³ 낮은 정밀도 기능은 양자화된 모델이 허용 가능한 품질을 유지하는 추론 워크로드를 가속화합니다. 더 높은 정밀도가 필요한 학습 워크로드는 아키텍처 변경으로부터 덜 혜택을 받습니다.

NVLink 연결성이 극적으로 증가합니다. 각 Blackwell GPU는 H100에서 사용 가능한 것보다 18배 많은 18개의 5세대 NVLink 연결을 가집니다.²⁴ 각 연결은 초당 50기가바이트의 양방향 대역폭을 제공합니다.²⁵ 확장된 인터커넥트는 72개의 GPU가 통합 연산 패브릭으로 작동하는 GB300 NVL72의 아키텍처를 가능하게 합니다.

행렬 대수, 유체 역학, 배정밀도 분자 역학을 포함한 순수 HPC 수치 작업의 경우, 와트당 FP64, 대용량 공유 메모리, 그리고 FP32를 위해 잘 프로비저닝된 캐시에서의 Hopper의 강점이 유지됩니다.²⁶ 전통적인 HPC 워크로드를 가진 조직은 Blackwell이 모든 사용 사례를 동등하게 개선한다고 가정해서는 안 됩니다.

GB300 NVL72 랙 아키텍처

액체 냉각 GB300 NVL72 랙은 NVLink 5와 NVLink Switching을 통해 상호 연결된 36개의 Grace Blackwell Superchip을 통합합니다.²⁷ 랙에는 각각 288기가바이트의 HBM3e 메모리를 갖춘 72개의 B300 GPU가 포함되어 있습니다.²⁸ 각 GPU가 초당 1.8테라바이트의 NVLink 대역폭을 통해 상호 연결되어 시스템은 단일 엑사스케일 노드로 작동합니다.²⁹

GB300 NVL72는 Hopper 플랫폼 대비 10배 더 나은 지연 시간과 메가와트당 5배 높은 처리량을 결합하여 50배 높은 AI 팩토리 출력을 가능하게 합니다.³⁰ 효율성 향상은 액체 냉각 요구 사항이 오버헤드가 아닌 투자를 나타내는 이유를 보여줍니다.

DGX B300 시스템은 800기가비트 네트워킹을 위한 8개의 ConnectX-8 SuperNIC과 함께 2.3테라바이트의 HBM3e 메모리를 제공합니다.³¹ 네트워킹 요구 사항은 연산 능력에 맞춰집니다. 과소 설계된 네트워크 패브릭은 GPU 용량을 낭비하는 병목 현상을 만듭니다.

8개의 NV72L 랙을 함께 배치하면 완전한 Blackwell Ultra DGX SuperPOD가 형성됩니다: 288개의 Grace CPU, 576개의 Blackwell Ultra GPU, 300테라바이트의 HBM3e 메모리, 그리고 11.5엑사플롭스의 FP4 연산.³² 이 규모는 프론티어 AI 연구소가 가장 큰 모델을 학습하기 위해 배포하는 것을 나타냅니다.

인프라 요구 사항

전력 및 냉각 요구 사항은 대부분의 기존 시설이 제공하는 것을 초과합니다. 4U HGX B300 시스템은 Supermicro의 DLC-2 기술을 사용하여 액체 냉각을 통해 최대 98%의 열을 포착합니다.³³ 공기 냉각은 열 출력을 발산할 수 없습니다. Blackwell 배포를 계획하는 조직은 액체 냉각 인프라를 구현해야 합니다.

2-OU OCP 액체 냉각 HGX B300 시스템은 하이퍼스케일 및 클라우드 제공업체를 위해 랙당 최대 144개의 GPU를 가능하게 합니다.³⁴ 단일 ORV3 랙은 Quantum-X800 InfiniBand 스위치 및 1.8메가와트 인로우 쿨런트 분배 장치와 함께 확장되어 총 144개의 GPU가 있는 최대 18개의 노드를 지원합니다.³⁵ 8개의 HGX B300 컴퓨트 랙, 3개의 Quantum-X800 InfiniBand 네트워킹 랙, 그리고 2개의 인로우 CDU가 1,152개의 GPU를 갖춘 SuperCluster 확장 가능 유닛을 형성합니다.³⁶

네트워킹은 800기가비트 연결을 요구합니다. 2-OU OCP와 4U 플랫폼 모두 통합된 ConnectX-8 SuperNIC을 통해 컴퓨트 패브릭 네트워크 처리량을 초당 800기가비트로 두 배 늘립니다.³⁷ ConnectX-8 SuperNIC의 I/O 모듈은 GPU당 초당 800기가비트의 네트워크 연결을 위해 두 개의 ConnectX-8 장치를 호스팅합니다.³⁸ 400기가비트 인프라를 갖춘 조직은 업그레이드 요구 사항에 직면합니다.

하이퍼스케일러 및 엔터프라이즈 가용성

Google Cloud는 B200 기반 오퍼링의 프리뷰 가용성을 발표한 첫 번째 하이퍼스케일러가 되었습니다.³⁹ AWS, Google Cloud, Microsoft Azure, Oracle Cloud Infrastructure는 Blackwell 기반 인스턴스를 제공하는 첫 번째 클라우드 제공업체 중 하나입니다.⁴⁰ 하이퍼스케일러 가용성은 온프레미스 인프라를 배포할 준비가 되지 않은 조직에게 클라우드 기반 접근을 제공합니다.

HPE는 2025년 2월에 첫 번째 NVIDIA Blackwell 제품군 솔루션인 GB200 NVL72를 출하했습니다.⁴¹ 글로벌 시스템 제조업체인 Cisco, Dell, HPE, Lenovo, Supermicro가 Blackwell을 탑재한 NVIDIA-Certified RTX PRO 서버를 제공합니다.⁴² 벤더 생태계는 발표에서 생산 가용성까지 빠르게 성숙했습니다.

Pegatron과 5C는 메릴랜드 데이터 센터에서 공기 냉각 시스템과 함께 인로우 CDU 통합을 갖춘 HGX B200 기반 액체 냉각 랙을 성공적으로 배포했습니다.⁴³ 이 배포는 자체 AI 팩토리를 구축하는 조직을 위한 프로덕션 준비 인프라를 보여줍니다.

공급 제약이 가용성에 영향을 미칩니다. 하이퍼스케일러와 AI 연구소의 수요가 생산 용량을 압도합니다.⁴⁴ 주요 하이퍼스케일러와 AI 기업은 많은 노드를 주문하는 반면 소규모 조직은 제한된 수량만 감당할 수 있습니다.⁴⁵ NVIDIA는 부분적으로 초기 생산의 설계 문제로 인해 Blackwell 칩의 백로그에 직면해 있습니다.⁴⁶ 대규모 클러스터를 가동하는 데는 일반적으로 초기 배송 후 추가로 3개월이 걸립니다.⁴⁷

배포 권장 사항

조직은 Blackwell의 기능이 인프라 투자를 정당화하는지 결정해야 합니다. 추론 중심 워크로드의 경우 Blackwell의 효율성 향상이 설득력 있습니다. FP64 정밀도가 필요한 학습 워크로드의 경우 Hopper가 여전히 적절할 수 있습니다.

조직은 H100 또는 H200 GPU에서 대규모 모델을 계속 학습하면서 Blackwell이 가장 큰 처리량과 지연 시간 향상을 제공하는 추론 및 배포 작업에 B200 또는 B300을 사용할 수 있습니다.⁴⁸ 하이브리드 접근 방식은 워크로드 유형에 걸쳐 인프라 투자를 최적화합니다.

가격은 성능 향상을 반영합니다. 초기 목록에 따르면 B200 192GB SXM은 GPU당 $45,000~$50,000입니다.⁴⁹ 완전한 8x B200 서버 시스템은 $500,000을 초과할 수 있습니다.⁵⁰ 자본 요구 사항은 명확한 AI 수익 모델이나 전략적 명령이 있는 조직에 유리합니다.

B200은 대규모 모델 추론, 과학 컴퓨팅, FP64 워크로드, 그리고 4~8개 GPU가 있는 다중 GPU 시스템에 적합합니다.⁵¹ B300은 더 높은 처리량과 NVLink 패브릭을 갖춘 LLM 학습, 대규모 모델 추론, 슈퍼컴퓨터에 가장 적합합니다.⁵² 이 구분은 조직이 적절한 구성을 선택하는 데 도움이 됩니다.

인프라 투자 결정은 Blackwell의 액체 냉각, 800기가비트 네트워킹, 전력 요구 사항을 고려해야 합니다. 기존 공기 냉각 시설을 갖춘 조직은 개조 비용이나 신축을 직면합니다. 800기가비트 네트워크 인프라가 없는 조직은 패브릭 업그레이드가 필요합니다. 적절한 전력 밀도가 없는 시설은 다른 준비와 관계없이 Blackwell 시스템을 호스팅할 수 없습니다.

Hopper와 Blackwell 요구 사항 간의 인프라 격차는 이전 NVIDIA 세대 전환보다 큽니다. 지금 계획을 시작하는 조직은 시스템이 가용해질 때 배포할 준비가 됩니다. 지연하는 조직은 GPU 예산과 관계없이 시설 제약이 AI 역량을 제한한다는 것을 알게 될 것입니다.


핵심 요약

인프라 설계자를 위해: - B300: 15 PFLOPS FP4, 288GB HBM3e(12단 스택), 8TB/s 메모리 대역폭, GPU당 1,400W TDP - GB300 NVL72: 72 GPU, 1.1 엑사플롭스 FP4, GPU당 1.8TB/s NVLink 대역폭; DGX SuperPOD: 576 GPU, 11.5 엑사플롭스 - 전력 진행: H100(700W) → B200(1,000W) → B300(1,400W); 인프라 격차가 이전 어떤 세대 전환보다 큼

조달 팀을 위해: - B200 192GB SXM: GPU당 $45,000-$50,000; 완전한 8x B200 서버 시스템은 $500,000 초과 - 공급 제약 지속; 하이퍼스케일러의 수요가 생산 용량을 압도하며 배송 후 3개월 이상의 배포 지연 - HPE가 첫 번째 GB200 출하

[번역을 위해 내용 일부 생략]

견적 요청_

프로젝트에 대해 알려주시면 72시간 내에 답변드리겠습니다.

> 전송_완료

요청이 접수되었습니다_

문의해 주셔서 감사합니다. 저희 팀이 요청사항을 검토한 후 72시간 내에 답변드리겠습니다.

처리_대기_중