AI内存超级周期:HBM如何成为AI最关键的瓶颈

AI内存超级周期已经到来。HBM产能售罄至2026年,预计2028年总可寻址市场将达1000亿美元,而游戏GPU也受到波及——内存已成为AI基础设施最关键的制约因素。

AI内存超级周期:HBM如何成为AI最关键的瓶颈

AI内存超级周期:HBM如何成为AI最关键的瓶颈

美光的高带宽内存产能已售罄至2026日历年。^[1]^ 该公司在2026财年第一季度财报电话会议上的这句话,揭示了一场正在重塑整个半导体行业的结构性变革。AI内存超级周期已从分析师的预测变为运营现实,造成的供需失衡如此严重,以至于游戏GPU产量面临40%的削减^[2]^,而内存制造商则报告利润率创下超过50%的历史新高。^[3]^

这一制约不仅仅是暂时的供应中断。内存行业经历了结构性重置,从数十年的繁荣-萧条周期,转变为由生成式AI对带宽永无止境的需求所驱动的持续溢价。要理解HBM如何成为AI的关键瓶颈,需要审视驱动需求的技术要求、控制供应的寡头市场结构,以及将在未来数年塑造数据中心经济的基础设施影响。

要点概览

  • HBM产能在所有主要供应商(SK海力士、美光、三星)处已售罄至2026年
  • 预计市场总可寻址规模(TAM)将在2028年达到1000亿美元,较2025年的350亿美元增长约40%(年复合增长率)
  • SK海力士以62%的市场份额占据主导地位;NVIDIA占其HBM供应量的约90%
  • NVIDIA因GDDR7供应紧张,计划在2026年上半年削减30-40%的游戏GPU产量
  • HBM4将于2026年投产,16层堆叠目标在2026年第四季度实现
  • 内存行业的整合创造了半导体历史上前所未有的定价权

技术驱动:为何AI需要HBM

AI模型性能与内存带宽之间的关系,代表了计算领域最重要的技术制约之一。大型语言模型和生成式AI系统面临一个根本性瓶颈:在内存和计算核心之间移动参数所消耗的时间和能量,超过了实际数学运算本身。^[4]^

为游戏工作负载设计的标准GDDR内存具有高吞吐量但可接受的延迟,无法满足AI的带宽需求。高带宽内存(HBM)通过垂直堆叠解决了这一限制,将多个DRAM芯片堆叠在一起,通过硅通孔(TSV)提供数千个同时数据连接。^[5]^

数据说明一切。NVIDIA的H100 GPU使用80GB HBM3,带宽达3.35 TB/s。^[6]^ H200将容量增加到141GB HBM3e,带宽达4.8 TB/s。^[7]^ Blackwell B200配备192GB HBM3e,实现8.0 TB/s带宽,是H100的两倍多。^[8]^ 即将推出的Rubin R100将搭载288GB HBM4,预计带宽在13-15 TB/s之间。^[9]^

这一进程反映出AI的内存需求增长速度超过了摩尔定律。一个快速估算大型语言模型16位精度服务内存需求的经验法则:每10亿参数约需2GB GPU内存。^[10]^ Llama 3的700亿参数版本所需内存超过单个80GB A100。^[11]^ 接近1万亿参数的模型需要多GPU配置,此时HBM容量成为限制性约束。

KV缓存带来了额外的内存挑战。在推理过程中,Transformer模型存储先前token的键值对以避免重复计算。该缓存随上下文长度线性增长,在70亿参数模型中每个token约消耗0.5MB。^[12]^ 一个"权重需要60GB的LLM"在长提示下往往无法在80GB GPU上可靠运行,因为运行时内存增长而非权重才是限制因素。^[13]^

寡头优势:三家企业控制95%市场

理解内存超级周期需要审视数十年整合演变形成的市场结构。三星、SK海力士和美光共同控制着全球约95%的DRAM产能。^[14]^ 这种集中度源于残酷的竞争动态淘汰了较弱的参与者。

2009年,十家公司控制着DRAM市场:美光、三星、海力士、英飞凌、NEC、日立、三菱、东芝、尔必达和南亚科技。^[15]^ 2011年的下行周期触发了最终整合。SK电讯于2012年以30亿美元收购海力士。^[16]^ 日本最后一家DRAM制造商尔必达破产,2013年被美光收购。^[17]^ 五年内,行业从十个竞争者整合为三个。

这种寡头结构表现为协调的市场行为。近几周,SK海力士、三星和美光几乎同时宣布停止接受新的DDR4订单。^[18]^ 行业分析师Moore Morris将此描述为"与数十年行业惯例的惊人决裂",指出"他们以如此协调的方式行动是前所未有的"。^[19]^ DRAM寡头在需求保持强劲的同时有效控制了供应,展示了表明"内存行业不再按旧规则运作"的集体市场力量。^[20]^

HBM细分市场进一步集中了这种力量。截至2025年第二季度,SK海力士以62%的市场份额占据主导地位,美光以21%紧随其后,三星以17%位居第三。^[21]^ SK海力士的地位源于其早期对HBM的押注以及作为NVIDIA主要供应商的关系。目前,NVIDIA约90%的HBM来自SK海力士。^[22]^

供应商 HBM市场份额(2025年第二季度) 主要客户 2026年状态
SK海力士 62% NVIDIA(90%) 售罄
美光 21% NVIDIA(第二供应商) 售罄
三星 17% AMD、Google 认证问题

三星的第三名位置对于一家长期主导内存市场的公司来说是显著的下滑。SK海力士在2025年第一季度整体DRAM市场份额上超越三星,这是三星首次失去领导地位。^[23]^ 三星的HBM3E产品在主要客户认证方面遇到延迟,使竞争对手得以占据高端AI需求,而三星只能服务利润率较低的细分市场。^[24]^

1000亿美元的拐点

美光预测HBM总可寻址市场将在2028年达到约1000亿美元,较2025年的约350亿美元大幅增长。^[25]^ 这代表着接近40%的年复合增长率。^[26]^ 1000亿美元的里程碑比此前预测提前两年到来;分析师最初预计要到2030年才能达到这一水平。^[27]^

几个因素推动了这一加速。首先,生成式AI的部署持续超出预期。每个主要超大规模云服务商都在竞相为其AI产品部署推理能力,同时训练下一代模型需要越来越大的GPU集群。^[28]^ 其次,每个GPU的HBM容量持续增加。从H100的80GB到Rubin的288GB的演进意味着每个加速器消耗的HBM增加了3.6倍。^[29]^ 第三,系统级内存需求使单个GPU需求成倍增加。NVIDIA的Blackwell Ultra GB300预计将配备多达288GB的HBM3e,而Rubin Ultra版本的目标是512GB,完整的NVL576系统每个GPU模块可能需要1TB。^[30]^

更广泛的数据中心半导体市场提供了背景。2024年,数据中心半导体总可寻址市场在计算、内存、网络和电源方面达到2090亿美元。^[31]^ Yole Group预测这一数字将在2030年增长到近5000亿美元。^[32]^ 仅内存在2024年就增长了78%,达到1700亿美元,随后在2025年又实现两位数增长至2000亿美元。^[33]^

美光的财务业绩展示了这些动态如何转化为企业表现。该公司报告2026财年第一季度收入为136.4亿美元,同比增长57%。^[34]^ 毛利率攀升至50%以上,较2024财年约22%翻了一番。^[35]^ 这种利润率扩张反映的不是周期性条件,而是公司产品组合向高利润率数据中心产品的结构性转型。^[36]^

HBM4竞赛:16层堆叠及更远

内存供应商之间的竞争现在集中在HBM4,这一下一代技术将于2026年投产。SK海力士完成了全球首个HBM4开发,并已完成量产准备。^[37]^ SK海力士和三星都向NVIDIA交付了付费的最终HBM4样品,标志着进入商业驱动的供应谈判阶段。^[38]^

HBM4相比HBM3e有显著改进。数据传输速度达到每秒11吉比特,总带宽超过每秒2.8太字节。^[39]^ 该标准采用使用先进工艺节点制造的逻辑基础芯片,SK海力士与台积电的12nm工艺合作。^[40]^ 这一合作对NVIDIA很有吸引力,有助于SK海力士获得Blackwell Ultra和Rubin平台的主要供应商地位。^[41]^

更具挑战性的技术前沿涉及16层HBM堆叠。据报道,NVIDIA要求在2026年第四季度前交付16层HBM,触发了所有三家供应商的开发冲刺。^[42]^ 韩国半导体产业协会执行副总裁安基贤指出,"从12层到16层的转变在技术上比从8层到12层困难得多"。^[43]^

困难源于晶圆厚度限制。现有的12层HBM使用约50微米厚的晶圆。堆叠16层需要将厚度减少到约30微米,同时保持结构完整性和热性能。^[44]^ 行业观察人士将技术挑战描述为"艰巨的"。^[45]^

世代 层数 容量 带宽 量产时间
HBM3 8层 80GB 3.35 TB/s 2023年
HBM3e 12层 141-192GB 4.8-8.0 TB/s 2024-2025年
HBM4 12层 288GB 11+ TB/s 2026年下半年
HBM4E 16层 512GB+ 15+ TB/s 2026年末-2027年

三星和SK海力士将HBM4量产时间表提前至2026年2月,加速了此前的时间线。^[46]^ 美光预计将在2026年进入HBM4量产,随后在2027-2028年推出HBM4E。^[47]^ 16层版本(可能命名为HBM4E)可能最早在2026年末推出,具体取决于良率改进。^[48]^

游戏领域的附带损害

内存超级周期最明显的消费者影响:NVIDIA计划在2026年上半年因GDDR7短缺削减30-40%的RTX 50系列GPU产量。^[49]^ 内存供应商优先考虑AI数据中心的分配而非消费级GPU,在整个显卡市场产生连锁反应。^[50]^

供应动态与HBM不同,但通过制造产能分配相互关联。GDDR7生产为支持DDR5而被降低优先级,推高了显存价格。^[51]^ 仅2025年,内存价格就上涨了246%,预计2026年将继续上涨。^[52]^

具体产品面临最大幅度的削减:GeForce RTX 5070 Ti和RTX 5060 Ti 16GB,两者都配备16GB GDDR7。^[53]^ 只有三星批量生产3GB GDDR7模块,如果NVIDIA已经消耗了2GB芯片,转向更高密度模块会减少标准Blackwell显卡可用的总显存。^[54]^

RTX 50 Super系列面临延迟或可能被取消。原计划是2026年初;目前预测最早要到2026年第三季度。^[55]^ Super配置所需的3GB GDDR7模块根本无法大量供应。^[56]^ 内存制造商在努力生产足够的标准2GB GDDR7芯片的同时,难以同时扩展到3GB模块。

对消费者而言,这意味着更高的价格和更长的等待时间,尤其是在2026年末的假日季。^[57]^ 固定期限的内存采购合同使2025年的价格保持稳定,但2026年将以更高的现货价格重新谈判。^[58]^ AMD的Radeon产品线在GDDR6方面也面临类似的限制。^[59]^

这种优先级层次反映了经济现实。数据中心GPU的HBM利润率远超消费级显存。当产能限制迫使做出分配决策时,供应商理性地优先服务利润率更高的客户。游戏代表的是附带的

申请报价_

告诉我们您的项目需求,我们将在72小时内回复。

> 传输完成

请求已收到_

感谢您的咨询。我们的团队将审核您的请求并在72小时内回复。

排队处理中