NVIDIA Vera Rubin 平台：8 艾克萨级浮点运算性能与基础设施需求

Vera Rubin（2026年）将实现 8 EXAFLOPS——相当于整个 TOP500 榜单的总计算性能。基于 TSMC N2 工艺约 5000 亿晶体管，HBM4 提供 13TB/s 带宽，NVLink 6 双向带宽达 5TB/s。每机架功耗 600kW，每芯片 TDP 达 2,000W...

Blake Crosley

Mar 02, 2026 2 min read Disclaimer

NVIDIA Vera Rubin 平台：8 艾克萨级浮点运算性能与基础设施需求

更新于 2025 年 12 月 11 日

2025 年 12 月更新： Vera Rubin（2026年）将实现 8 EXAFLOPS——相当于整个 TOP500 榜单的总计算性能。基于 TSMC N2 工艺约 5000 亿晶体管，HBM4 提供 13TB/s 带宽，NVLink 6 双向带宽达 5TB/s。每机架功耗 600kW，每芯片 TDP 达 2,000W。Rubin Ultra（2027 年下半年）将搭载 HBM4e，在 NVL576 配置下内存容量可达 365TB。需要 48V 芯片直供电源架构。

8 艾克萨级浮点运算的计算能力听起来很抽象，直到你意识到它相当于地球上 TOP500 榜单中所有超级计算机的总和性能，而这一切被压缩到可以放入单个数据中心机架行的基础设施中。¹ NVIDIA 的 Vera Rubin 平台计划于 2026 年部署，承诺通过革命性的架构突破实现这一能力，让当今最强大的系统相形见绌。今天规划基础设施的组织必须考虑到每机架功耗高达 600 千瓦、冷却技术逼近商业极限的系统。

该平台以天文学家 Vera Rubin 命名，她的暗物质观测彻底改变了宇宙学——这个名字恰如其分地致敬了一个有望彻底改变 AI 能力的架构。² Jensen Huang 在 GTC 2025 上公布了规格：芯片采用台积电 3 纳米工艺（N3P）制造，HBM4 内存带宽高达每秒 13 太字节，第六代 NVLink 支持每秒数太字节的 GPU 间通信。³ 每一个数字都代表着当前能力的两倍或三倍提升，对基础设施演进提出了挑战数据中心设计根本假设的要求。

尽管最终规格尚未确定，主要云服务提供商已经开始为 Vera Rubin 部署预留容量。微软承诺投资 150 亿美元用于支持下一代平台的基础设施，设施设计可支持 500kW 机架密度。⁴ Amazon Web Services 专门为极端密度计算建设新区域，单个设施配备可提供 500 兆瓦电力的变电站。⁵ 基础设施军备竞赛揭示了一个严峻的现实：对 Vera Rubin 需求准备不足的组织将被完全排斥在高级 AI 能力之外。

架构飞跃重新定义计算规模

Vera Rubin 的架构放弃了渐进式改进，转向革命性重新设计。每颗芯片估计包含 5000 亿个晶体管，几乎是 Blackwell 2080 亿的三倍，这得益于台积电 N2 工艺实现的前所未有的密度。⁶ 晶体管预算支持每芯片 20,000 个张量核心，每个核心都能执行从 INT4 到 FP64 的混合精度运算。设计理念从通用加速转向 AI 专用优化，80% 的芯片面积专用于矩阵乘法单元。

内存架构通过 HBM4 集成实现了前所未有的突破，每芯片带宽高达 13TB/s。三星的 HBM4 路线图显示堆栈配备 2048 位接口并以高速运行，完整的 NVL144 平台可实现 75TB 高速内存。⁷ 每个 Rubin GPU 提供 288GB 的 HBM4 内存容量，足以在单 GPU 内存中为 4000 亿参数模型提供服务。仅内存子系统就消耗大量功耗，仅 DRAM 热管理就需要先进的冷却技术。Rubin Ultra 将于 2027 年下半年推出，采用 HBM4e 内存，在 NVL576 配置下容量可达 365TB。

互连演进使前所未有规模的真正分布式计算成为可能。第六代 NVLink 支持 200 条通道，每条 25Gbps，在 GPU 之间提供 5TB/s 的双向带宽。⁸ 该带宽允许 256 个 GPU 作为一个统一内存访问延迟低于 500 纳秒的连贯计算单元运行。传统的分布式计算代价消失了，系统运行起来更像一个巨大的单处理器，而非集群。

Chiplet 架构成为制造可行性的关键。接近 1000mm² 的单片裸片面临灾难性的良率挑战，缺陷率使生产在经济上不可行。Vera Rubin 可能采用 3D chiplet 堆叠，计算裸片采用 N2 工艺制造，IO 裸片采用成熟的 N4 工艺。⁹ 采用台积电 SoIC 技术的先进封装使 chiplet 之间每平方毫米可实现 50,000 个连接，在数太比特速度下保持信号完整性。¹⁰

在 2000 瓦芯片功耗下，供电架构需要彻底重新构想。传统的 12V 电源转换在如此高的电流水平下会产生不可接受的损耗。Vera Rubin 实现了 48V 芯片直供电源，采用片上封装电压调节。¹¹ Vicor 的分解式电源架构在 2000W 负载下展示了 98% 的效率，但供电组件本身需要液体冷却。¹² 供电系统变得与其支持的计算架构一样复杂。

基础设施需求超越当前能力

Vera Rubin 部署的功耗需求打破了传统数据中心设计的假设。单个机架可持续消耗高达 600kW，相当于近 500 个美国家庭的用电量。¹³ 功率密度超过每平方米 700kW，是当前高密度部署的 10 倍。设施需要专用的 13.8kV 中压馈电，现场变电站提供 4160V 配电。100 机架部署的电气基础设施在考虑计算硬件之前就需要 1 亿美元成本。

每机架 500kW 的冷却需求已超越当前液冷能力，进入未知领域。芯片级热流密度超过 500W/cm²，接近火箭发动机燃烧室的热密度。¹⁴ 两相液冷成为必需，使用在精确控制温度下沸腾的工程流体。3M 的下一代 Novec 流体在实验室演示中可处理 1000W/cm²，但需要在生产数据中心难以维持的洁净环境条件。¹⁵

芯片直冷技术演进为特征尺寸小于人类头发的微通道架构。IBM 的研究表明，50 微米宽的硅微通道可在温升 5°C 的情况下移除 1kW/cm² 的热量。¹⁶ 制造这些冷却解决方案需要半导体制造技术，使冷却器与其冷却的芯片一样复杂精密。每个冷板成本 10,000-15,000 美元，需要每季度维护以防止矿物质积累降低性能。

设施设计放弃传统的架空地板，改用支持 2000kg/m² 负载的结构楼板。液体分配需要 12 英寸直径的管道，每排输送每分钟 1000 加仑。泄漏控制系统必须能够处理可能在几秒钟内释放 5000 加仑冷却液的灾难性故障。二次控制使设施建设成本翻倍，但可防止可能触发监管关闭的环境灾难。

网络基础设施与计算能力成比例扩展。每个 Vera Rubin 系统需要 16 个 800GbE 端口用于外部连接，每系统总计 12.8Tb/s。¹⁷ 光交换成为必需，因为铜缆无法在数据中心距离内支持所需带宽。Lightmatter 等公司的光子交换机提供纳秒级交换时间，交换结构本身零功耗。¹⁸ 仅网络就需要 5000 万美元的中等规模部署投资。

软件生态系统需要根本性演进

为离散 GPU 设计的编程模型在 Vera Rubin 的统一架构上会彻底失败。传统框架在设备间划分工作，假设独立的内存空间和显式同步。Vera Rubin 的 256-GPU 连贯系统作为单个逻辑设备运行，统一虚拟内存跨越 36TB。开发者必须重新思考并行化策略，将平台视为一个大规模 NUMA 系统而非分布式集群。

NVIDIA 的 CUDA 15.0 路线图显示了支持艾克萨级计算的根本性 API 变化。协作组扩展到支持数百万线程跨整个系统协调。¹⁹ 统一内存演进到处理 PB 级分配，在计算层和存储层之间自动页面迁移。编程模型抽象了硬件复杂性，但需要深入理解内存层次结构才能实现最佳性能。

编译器技术对于发挥平台能力变得至关重要。基于图的中间表示捕获应用程序结构，支持跨整个系统的激进优化。MLIR（多级中间表示）成为下一代编译器的基础，从高级数学运算一直优化到单个张量核心指令。²⁰ 大型模型的编译时间延长至数小时，但生成的代码可达到理论峰值性能的 90%。

容器编排平台需要架构性改造来管理 Vera Rubin 部署。当单个 pod 需要 256 个 GPU 和 500kW 功率预算时，Kubernetes 抽象就会失效。出现了新的编排器，它们理解基础设施约束：电力可用性、冷却容量、网络拓扑和故障域。调度决策除了考虑传统的计算可用性外，还要考虑热状态和电网条件。

调试和分析工具面临压倒性的复杂性。单个 Vera Rubin 系统每秒生成 100GB 的性能遥测数据，仅监控就需要专用基础设施。²¹ 传统分析器无法处理单个内核启动涉及数十亿线程的系统。需要 AI 驱动的分析来识别遥测数据洪流中的性能瓶颈和优化机会。开发者依靠机器学习来理解机器学习系统的行为。

经济模型挑战投资逻辑

Vera Rubin 每系统 1000 万美元的预计价格看起来很高，直到与交付的能力进行比较。8 艾克萨级浮点运算在原始计算上相当于 1000 个 NVIDIA H100 GPU，但通过架构效率实现了 10 倍更好的有效性能。²² 使用当前技术构建同等能力将花费 4000 万美元并消耗 5MW 电力。4 倍的资本效率和 10 倍的能源效率改变了总拥有成本计算。

运营成本在系统生命周期内远超资本支出。500kW 的功耗按工业电价计算每年成本 40 万美元。冷却增加另外 10 万美元。设施、维护和运营每年贡献 50 万美元。每个 Vera Rubin 系统每年运营成本 100 万美元，使利用率对经济可行性至关重要。实现 80% 利用率的组织将成本分摊到更多计算中，每次运算费用降低 60%。

随着技术演进加速，折旧策略需要重新思考。传统的三年折旧假设每年价值下降 33%，但 Vera Rubin 系统可能通过软件优化保持更长时间的价值。2017 年的早期 Volta GPU 在七年后仍然对特定工作负载具有经济可行性。²³ Vera Rubin 巨大的能力余量表明五年的使用寿命，大大提高投资回报。

收入模型必须演进以支持基础设施投资。在 Vera Rubin 基础设施上训练 GPT-5 级别的模型可能花费 1 亿美元，但可在数周而非数月内完成。²⁴ 对于上市时间决定成功的组织来说，速度溢价证明了成本的合理性。在 Vera Rubin 上训练的模型的 API 定价必须反映基础设施成本，同时与在旧硬件上训练的较小模型保持竞争力。

融资机制适应基础设施规模。当单个系统成本 1000 万美元且残值不确定时，传统设备租赁就会失败。出现了结合设备融资、功

[内容因翻译需要而截断]