HBM演进：从HBM3到HBM4与AI内存之战

SK海力士以62%的2025年Q2市场份额领跑HBM市场，美光(21%)和三星(17%)紧随其后。全球HBM市场从2025年的380亿美元增长至2026年的580亿美元。JEDEC于2025年4月发布官方HBM4规范，接口宽度翻倍至2,048位，单堆栈带宽可达2TB/s...

Blake Crosley

Feb 11, 2026 1 min read Disclaimer

HBM演进：从HBM3到HBM4与AI内存之战

更新于2025年12月11日

2025年12月更新： SK海力士以62%的2025年Q2市场份额领跑HBM市场，美光(21%)和三星(17%)紧随其后。全球HBM市场从2025年的380亿美元增长至2026年的580亿美元。JEDEC于2025年4月发布官方HBM4规范，接口宽度翻倍至2,048位，单堆栈带宽可达每秒2TB。SK海力士历史性地首次超越三星，成为全球最大的DRAM制造商。

SK海力士在2025年Q2以62%的市场份额领跑HBM市场，美光以21%位居第二，三星以17%排名第三。¹ 全球HBM市场将从2025年的380亿美元增长至2026年的580亿美元。² JEDEC于2025年4月发布了官方HBM4规范，接口宽度翻倍至2,048位，单堆栈带宽可达每秒2TB。³ 高带宽内存定义了AI加速器性能的天花板——这一内存墙决定了模型能有多大、运行能有多快。

HBM各代产品代表着制造和封装技术的胜利。通过硅通孔(TSV)垂直堆叠DRAM芯片，并通过中介层连接到GPU或加速器芯片，创造了传统DRAM封装无法实现的内存带宽。每一代产品都在提升容量、带宽和堆叠高度，同时厂商们在良率、认证速度和客户关系上展开竞争。这场竞争重塑了内存行业，SK海力士历史性地首次超越三星，成为全球最大的DRAM制造商。

HBM3：当前AI的基石

HBM3于2022年推出，奠定了支撑当前AI繁荣的内存带宽基础。⁴ 该架构将通道数从HBM2e的8个翻倍至16个，同时数据速率提升至每秒6.4 Gbps。⁵

四个HBM3堆栈通过以6.4 Gbps运行的接口连接到处理器，可提供超过每秒3.2TB的总带宽。⁶ 在8 GT/s的1024位总线下，单个堆栈带宽约为每秒819GB。⁷

HBM3支持16层堆叠的32 Gbit容量DRAM芯片。⁸ 这种堆叠能力使单堆栈内存容量可达24-36GB，具体取决于芯片密度和堆叠高度。⁹

与传统DRAM相比，3D堆叠架构通过更短的信号路径和同时并行访问多个芯片来降低延迟。¹⁰ 带宽、容量和延迟的综合改进使HBM3成为支撑大规模基于Transformer的大语言模型的内存技术。

NVIDIA的H100 GPU采用了HBM3，确立了竞争对手瞄准的性能基准。内存带宽提升了张量核心利用率，证明了H100相比上一代产品的价格溢价是合理的。

HBM3E：突破极限

主要DRAM制造商推出的HBM3E产品将数据速率提升至每秒9.6 Gbps——比HBM3快50%。¹¹ 带宽提升使单堆栈带宽约达每秒1.2TB，接近1024位接口的实际极限。¹²

SK海力士凭借12层堆叠芯片引领量产，提供超过每秒1.2TB的带宽，同时保持与HBM3控制器的向后兼容性。¹³ 向后兼容性简化了加速器厂商在产品换代时更新内存规格的过程。

美光宣布推出HBM3E内存，每引脚处理速度达9.6 Gbps，8层堆叠每cube容量24GB，数据传输速率达每秒1.2TB。¹⁴ 在保持现有接口宽度的同时，单堆栈容量得到提升。

Cadence展示了在标称电压下以12.4 Gbps运行的HBM3E内存子系统，量产PHY支持DRAM速度高达10.4 Gbps——单设备每秒1.33TB。¹⁵ 该演示展示了HBM3E规范内实现更高速度的空间。

NVIDIA的H200和初代Blackwell产品采用HBM3E。H200将内存容量从H100的80GB扩展至141GB，同时带宽成比例增加。Blackwell B200达到192GB HBM3E，总带宽为每秒8TB。

从HBM3到HBM3E的过渡展示了内存行业从现有架构中榨取额外性能的能力。然而，进一步提升需要HBM4引入的架构变革。

HBM4：下一代技术

JEDEC于2025年4月发布了官方HBM4规范。¹⁶ 该规范代表了自HBM推出以来最重大的架构变化，接口宽度从1,024位翻倍至2,048位。¹⁷

HBM4在更宽的接口上支持高达每秒8 Gbps的传输速度，单堆栈总带宽可达每秒2TB。¹⁸ 配备8个HBM4设备的GPU可实现超过每秒13TB的总内存带宽。¹⁹

更宽的接口要求整个内存子系统进行架构调整。HBM4将每堆栈的独立通道数翻倍至32个，每通道2个伪通道。²⁰ 2,048位数据通道分为32个64位通道或64个32位伪通道，而HBM3为16个64位通道。²¹

堆叠高度最高增至16层，DRAM芯片密度为24 Gbit或32 Gbit，单堆栈容量可达64GB。²² 容量提升满足了超出当前内存限制的基础模型日益增长的参数量需求。

HBM4保持与HBM3控制器的向后兼容性，便于加速器厂商过渡。²³ Rambus HBM4内存控制器将支持的信号速度提升至10.0 Gbps，在最高速率下单HBM4设备可提供每秒2.56TB吞吐量。²⁴

可靠性改进包括用于改善行锤击缓解的定向刷新管理(DRFM)。²⁵ 增强的RAS（可靠性、可用性、可维护性）功能解决了AI加速器常见高温环境下DRAM可靠性的担忧。

HBM4E进一步扩展规范，数据速率达10 Gbps，单堆栈带宽每秒2.5TB，单封装功耗最高80瓦。²⁶ HBM4E规范目标时间框架为2027年。

制造商竞争

SK海力士于2025年底完成HBM4开发并准备大规模量产。²⁷ SK海力士的HBM4堆栈性能超出JEDEC规范25%，数据传输速率达10 GT/s，而标准为8 GT/s。²⁸ 最终客户认证后，批量出货将于2026年初开始。²⁹

SK海力士成为NVIDIA的主要HBM供应商，这一关系推动了公司市场份额的增长。³⁰ 与NVIDIA的合作使SK海力士能够占据高价值AI内存需求的大部分市场。

美光于2025年6月开始出货HBM4样品，向包括据报道的NVIDIA在内的重要客户提供36GB的12层堆叠产品。³¹ 到2025年Q4，美光宣布HBM4样品运行速度超过每引脚11 Gbps，单堆栈带宽超过每秒2.8TB。³² 量产时间目标为2026年。³³

美光在NVIDIA的Hopper H200和Blackwell B200 GPU上获得设计订单，HBM市场份额从约5%向2025年底20-25%的目标增长。³⁴ NVIDIA的认证验证了美光的技术和制造能力。

三星计划于2026年上半年开始HBM4量产。³⁵ 2025年Q3，三星开始向NVIDIA大批量出货HBM4样品进行早期认证。³⁶ 据报道，三星是AMD MI450加速器的主要HBM4供应商。³⁷

三星的HBM市场份额从2024年Q2的41%暴跌至2025年Q2的17%，原因是该公司在通过NVIDIA认证测试方面遇到困难。³⁸ 在竞争对手出货HBM3E的同时，三星在HBM销售上主要依赖上一代HBM3芯片。³⁹ 分析师预测，随着HBM3E产品通过认证和HBM4于2026年全面供应，三星的地位将得到加强。⁴⁰

HBM竞争重塑了更广泛的内存行业。SK海力士首次在整体DRAM市场取得领先，2025年Q1收入份额达36%，而三星为34%。⁴¹ 三星长期领先地位的逆转反映了HBM在DRAM总价值中占比的增长。

NVIDIA和AMD路线图

NVIDIA官方路线图显示Rubin配备8个HBM4位点，Rubin Ultra配备16个HBM4位点。⁴² Rubin中介层面积为2,194平方毫米，可容纳288至384GB的VRAM容量，总带宽为每秒16-32TB。⁴³ 芯片总功耗达2,200瓦。⁴⁴

HBM容量预计将从A100的80GB HBM2E增长到Rubin Ultra的1,024GB HBM4E。⁴⁵ 这一轨迹反映了可能达到数十万亿参数的模型的内存需求。

Rubin生产计划于2026年下半年按期进行。⁴⁶ 基于该架构的消费级显卡预计将于2026年底或2027年初推出。⁴⁷ 这一时间定位使Rubin成为NVIDIA数据中心产品线中Blackwell Ultra的继任者。

AMD确认MI400加速器系列将采用HBM4。⁴⁸ AMD的Instinct MI400将于2026年发布，目标HBM4容量为432GB，内存带宽最高可达每秒19.6TB。⁴⁹ MI430X是首款采用HBM4的AMD加速器。⁵⁰

HBM4这一代为两家厂商确立了新的性能层级。内存带宽和容量的提升支持了HBM3E无法高效支持的模型规模和推理吞吐量。

内存墙约束

AI加速器中内存带宽的增长落后于计算能力的增长。"内存墙"限制了加速器有效利用其计算资源的程度。HBM演进代表了行业对这一约束的主要应对。

大语言模型在推理过程中表现出内存受限的特性。注意力机制需要为每个生成的token访问完整的键值缓存。内存带宽决定了访问速度，直接影响每秒生成的token数。

训练工作负载面临不同的内存约束。模型参数、梯度、优化器状态和激活值竞争内存容量。内存带宽影响梯度累积和优化步骤中数据在处理单元之间移动的速度。

HBM4的每秒2TB带宽相比HBM3的每秒819GB代表了2.4倍的提升。⁵¹ 结合单堆栈容量从36GB增加到64GB，HBM4同时解决了内存墙的带宽和容量两个维度。

然而，计算能力的增长速度快于内存带宽。每一代HBM提供约2倍的带宽提升，而计算能力每代同样翻倍。内存墙后退但从未消失。

未来的HBM世代——HBM5到HBM8——预计将通过更高的数据速率和可能更宽的接口继续扩展带宽。⁵² 路线图延伸到本十年末，带宽目标达到每系统每秒64TB。⁵³

基础设施规划考量

HBM供应约束影响加速器可用性。HBM短缺在2023年和2024年期间限制了GPU出货量。规划大规模部署的组织应了解，GPU采购取决于内存制造商的产能。

供应商关系决定获取渠道。SK海力士与NVIDIA的关系、三星与AMD的定位，以及美光的广泛认证努力，造成了供应链的复杂性。如果内存优先供应超大规模客户订单，二线加速器厂商可能面临更长的交付周期。

HBM4过渡将在2026年底带来代际转变。当前部署的组织将获得基于HBM3E的系统。等待Rubin或MI400的组织将获得HBM4的优势。这一时间节点影响多年期基础设施规划。

内存

HBM演进：从HBM3到HBM4与AI内存之战

HBM3：当前AI的基石

HBM3E：突破极限

HBM4：下一代技术

制造商竞争

NVIDIA和AMD路线图

内存墙约束

基础设施规划考量

You Might Also Like

英国AI走廊：伦敦新兴计算中心

浸没式冷却投资回报计算器：AI工作负载2-4年回本分析

水资源使用效率：无危机的AI数据中心冷却方案

申请报价_

请求已收到_