NVIDIA Blackwell Ultra 和 B300:下一代 GPU 的基础设施需求

B300 提供 15 PFLOPS FP4 算力、288GB HBM3e(12 层堆叠)、8TB/s 带宽、1,400W TDP。GB300 NVL72 机架实现 1.1 EXAFLOPS——单节点达到百亿亿次级计算。DGX B200 训练性能提升 3 倍,推理性能提升 15 倍...

NVIDIA Blackwell Ultra 和 B300:下一代 GPU 的基础设施需求

NVIDIA Blackwell Ultra 和 B300:下一代 GPU 的基础设施需求

2025 年 12 月 11 日更新

2025 年 12 月更新: B300 提供 15 PFLOPS FP4 算力、288GB HBM3e(12 层堆叠)、8TB/s 带宽、1,400W TDP。GB300 NVL72 机架实现 1.1 EXAFLOPS——单节点达到百亿亿次级计算。DGX B200 相比 Hopper 训练性能提升 3 倍,推理性能提升 15 倍。系统于 2025 年下半年发货。需要液冷散热、800Gbps 网络,功率密度超出大多数现有设施的承载能力。

NVIDIA Blackwell Ultra GPU 提供 15 petaflops 的密集 FP4 算力,内存比 B200 增加 50%,性能提升 1.5 倍。¹ 单个 GB300 NVL72 机架可实现 1.1 exaflops 的 FP4 算力,作为单节点百亿亿次级超级计算机运行。² 配备八块 NVIDIA Blackwell GPU 的 DGX B200,训练性能是上一代 Hopper 系统的 3 倍,推理性能是 15 倍。³ Blackwell 的基础设施需求与以往任何部署都有本质区别,需要液冷散热、800 Gbps 网络,以及大多数现有设施无法支持的功率密度。

NVIDIA 在 GTC 2025 上发布了 B300,系统将于 2025 年下半年发货。⁴ 这一时间节点给需要在硬件到货前准备设施、确保电力供应并建立运维能力的组织带来了规划压力。现在就了解 Blackwell 的基础设施需求,将决定组织在系统上市时能否有效部署。

Blackwell Ultra 规格

Blackwell Ultra GPU 采用双光刻版设计,拥有 2080 亿个晶体管和 160 个流式多处理器,分布在通过 NVIDIA 高带宽接口(High-Bandwidth Interface)连接的两个芯片上。⁵ B200 拥有 2080 亿个晶体管,而 H100 为 800 亿个。⁶ 晶体管数量反映了前沿规模 AI 工作负载所需的架构复杂性。

B300 每块 GPU 配备 288GB HBM3e 内存,通过 12 层内存堆叠实现,而 B200 为 8 层配置。⁷ 内存带宽达到 8TB/s。⁸ 内存容量使得原本需要多 GPU 配置处理的模型可以在单块 GPU 上运行。

功耗显著增加。GB300 核心的每块 B300 芯片功耗为 1,400 瓦。⁹ B200 功耗为 1,000 瓦,H100 为 700 瓦。¹⁰ 三代产品从 700 瓦到 1,000 瓦再到 1,400 瓦的功耗演进,展示了组织必须为之规划的功率增长趋势。

B300 的密集 FP4 性能达到 14 petaflops,而 B200 为 9 petaflops,提升 55.6%。¹¹ FP4 计算能力相比 FP8 可将内存占用减少约 1.8 倍,同时保持几乎相当的精度。¹² 低精度能力适用于推理工作负载,在不牺牲质量的情况下提高吞吐量。

相比 Hopper 的性能提升

经验证的性能数据显示,与 Hopper 一代相比,每块 GPU 的 LLM 吞吐量提升 11 到 15 倍。¹³ HGX B200 相比 HGX H100,推理性能提升最高 15 倍,训练性能提升 3 倍,能耗和成本降低 12 倍。¹⁴ GB200 NVL72 集群相比 H100 集群,训练速度提升 4 倍,实时推理速度提升 30 倍。¹⁵

B200 单块 GPU 可提供 20 petaflops 的 AI 性能。单块 H100 的 AI 计算峰值为 4 petaflops。¹⁶ 每块 GPU 5 倍的性能提升改变了大规模部署的经济模型。组织可以用更少的 GPU 实现同等能力,或用同等数量的 GPU 获得大幅提升的能力。

内存改进与计算提升相辅相成。B200 配备 192GB HBM3e,而 H100 为 80GB HBM3。¹⁷ 内存带宽达到 8TB/s,是 H100 的 3.35TB/s 的 2.4 倍。¹⁸ 内存容量使得原本需要复杂多 GPU 配置的模型可以在单块 GPU 上处理。

对于推理工作负载,Blackwell 每次推理的能耗仅为 H100 的 1/25。¹⁹ 单块 B200 可替代 5 个 H100 节点进行 Llama 3 推理,降低成本和碳排放。²⁰ 在推理主导计算需求的大规模部署中,效率提升效果会叠加放大。

与 Hopper 的架构差异

Hopper 面向高性能计算和 AI 工作负载的广泛组合,侧重于 FP64 和 FP32 的传统精度。²¹ Blackwell 明确针对大规模生成式 AI 任务进行优化。²² 这种架构定位反映了 NVIDIA 对 AI 工作负载(尤其是推理)将主导 GPU 需求的判断。

Blackwell 引入了第五代张量核心,支持 4 位和 6 位运算的超低精度模式。²³ 低精度能力加速了量化模型保持可接受质量的推理工作负载。需要更高精度的训练工作负载从架构变化中获益较少。

NVLink 连接性大幅提升。每块 Blackwell GPU 拥有 18 个第五代 NVLink 连接,是 H100 的 18 倍。²⁴ 每个连接提供 50GB/s 的双向带宽。²⁵ 扩展的互连使 GB300 NVL72 架构中的 72 块 GPU 能够作为统一的计算结构运行。

对于纯 HPC 数值任务,包括矩阵代数、流体动力学和双精度分子动力学,Hopper 在 FP64 能效比、大容量共享内存以及为 FP32 优化的缓存方面仍保持优势。²⁶ 拥有传统 HPC 工作负载的组织不应假设 Blackwell 能同等改进所有用例。

GB300 NVL72 机架架构

液冷 GB300 NVL72 机架集成了 36 个 Grace Blackwell 超级芯片,通过 NVLink 5 和 NVLink Switching 互连。²⁷ 机架包含 72 块 B300 GPU,每块配备 288GB HBM3e 内存。²⁸ 每块 GPU 通过 1.8TB/s 的 NVLink 带宽互连,系统作为单个百亿亿次级节点运行。²⁹

GB300 NVL72 可实现 AI 工厂 50 倍的产出提升,相对于 Hopper 平台,每兆瓦的延迟降低 10 倍,吞吐量提升 5 倍。³⁰ 效率提升表明液冷需求是投资而非负担。

DGX B300 系统提供 2.3TB HBM3e 内存,配备八个 ConnectX-8 SuperNIC 以支持 800 Gbps 网络。³¹ 网络需求与计算能力相匹配。网络结构不足会产生瓶颈,浪费 GPU 容量。

将八个 NV72L 机架组合在一起,形成完整的 Blackwell Ultra DGX SuperPOD:288 个 Grace CPU、576 块 Blackwell Ultra GPU、300TB HBM3e 内存和 11.5 exaflops FP4 算力。³² 这种规模代表了前沿 AI 实验室用于训练最大模型的部署配置。

基础设施需求

功率和散热需求超出大多数现有设施的能力。4U HGX B300 系统采用 Supermicro 的 DLC-2 技术,通过液冷捕获高达 98% 的热量。³³ 风冷无法散发这种热量输出。计划部署 Blackwell 的组织必须实施液冷基础设施。

2-OU OCP 液冷 HGX B300 系统可为超大规模和云提供商在每个机架中容纳最多 144 块 GPU。³⁴ 单个 ORV3 机架支持最多 18 个节点共 144 块 GPU,可通过 Quantum-X800 InfiniBand 交换机和 1.8 兆瓦列内冷却液分配单元进行扩展。³⁵ 八个 HGX B300 计算机架、三个 Quantum-X800 InfiniBand 网络机架和两个列内 CDU 组成一个 SuperCluster 可扩展单元,共 1,152 块 GPU。³⁶

网络需要 800 Gbps 连接。2-OU OCP 和 4U 平台都通过集成 ConnectX-8 SuperNIC 将计算结构网络吞吐量提升至 800 Gbps。³⁷ ConnectX-8 SuperNIC 的 I/O 模块承载两个 ConnectX-8 设备,为每块 GPU 提供 800 Gbps 的网络连接。³⁸ 拥有 400 Gbps 基础设施的组织面临升级需求。

超大规模云和企业可用性

Google Cloud 成为首个宣布 B200 产品预览可用的超大规模云提供商。³⁹ AWS、Google Cloud、Microsoft Azure 和 Oracle Cloud Infrastructure 是首批提供 Blackwell 驱动实例的云提供商。⁴⁰ 超大规模云的可用性为尚未准备好部署本地基础设施的组织提供了云端访问方式。

HPE 于 2025 年 2 月交付了首个 NVIDIA Blackwell 系列解决方案 GB200 NVL72。⁴¹ Cisco、Dell、HPE、Lenovo 和 Supermicro 等全球系统制造商提供搭载 Blackwell 的 NVIDIA 认证 RTX PRO 服务器。⁴² 供应商生态系统从发布到量产的成熟速度很快。

Pegatron 和 5C 在马里兰州数据中心成功部署了基于 HGX B200 的液冷机架,配备列内 CDU 集成,与风冷系统并行运行。⁴³ 这一部署展示了组织构建自己 AI 工厂的生产就绪基础设施。

供应限制影响可用性。来自超大规模云和 AI 实验室的需求超出产能。⁴⁴ 大型超大规模云和 AI 公司订购大量节点,而小型组织只能购买有限数量。⁴⁵ NVIDIA 面临 Blackwell 芯片积压,部分原因是早期生产中的设计问题。⁴⁶ 大型集群从初始交付到正式运营通常需要额外三个月。⁴⁷

部署建议

组织应评估 Blackwell 的能力是否足以证明基础设施投资的合理性。对于以推理为主的工作负载,Blackwell 的效率提升具有说服力。对于需要 FP64 精度的训练工作负载,Hopper 可能仍然适用。

组织可以继续在 H100 或 H200 GPU 上训练大型模型,同时使用 B200 或 B300 进行推理和部署任务,因为 Blackwell 在这些场景提供最大的吞吐量和延迟优势。⁴⁸ 混合方法可优化不同工作负载类型的基础设施投资。

定价反映了能力提升。早期列表显示 B200 192GB SXM 每块 GPU 价格在 45,000 至 50,000 美元之间。⁴⁹ 完整的 8x B200 服务器系统可能超过 500,000 美元。⁵⁰ 资本需求有利于拥有明确 AI 收入模式或战略任务的组织。

B200 适用于大规模模型推理、科学计算、FP64 工作负载以及 4 到 8 块 GPU 的多 GPU 系统。⁵¹ B300 最适合具有更高吞吐量和 NVLink 结构的 LLM 训练、大规模模型推理以及超级计算机。⁵² 这种区分有助于组织选择合适的配置。

基础设施投资决策应考虑 Blackwell 的液冷、800 Gbps 网络和功率需求。拥有现有风冷设施的组织面临改造成本或新建设施的选择。没有 800 Gbps 网络基础设施的组织需要升级网络结构。功率密度不足的设施无论其他准备如何都无法托管 Blackwell 系统。

从 Hopper 到 Blackwell 的基础设施差距超过了 NVIDIA 以往任何一代产品的过渡。现在开始规划的组织将在系统上市时占据部署优势。延迟行动的组织将发现,无论 GPU 预算如何,设施限制都会制约其 AI 能力。


关键要点

基础设施架构师: - B300:15 PFLOPS FP4、288GB HBM3e(12 层堆叠)、8TB/s 内存带宽、每块 GPU 1,400W TDP - GB300 NVL72:72 块 GPU、1.1 exaflops FP4、每块 GPU 1.8TB/s NVLink 带宽;DGX SuperPOD:576 块 GPU、11.5 exaflops - 功率演进:H100(700W)→ B200(1,000W)→ B300(1,400W);基础设施差距超过以往任何一代产品过渡

采购团队: - B200 192GB SXM:每块 GPU 45,000-50,000 美元;完整 8x B200 服务器系统超过 500,000 美元 - 供应限制持续存在;来自超大规模云的需求超出产能,交付后部署延迟超过 3 个月 - HPE 已交付首批 GB200

[内容因翻译需要而截断]

申请报价_

告诉我们您的项目需求,我们将在72小时内回复。

> 传输完成

请求已收到_

感谢您的咨询。我们的团队将审核您的请求并在72小时内回复。

排队处理中