英伟达坚不可摧的地位:为何护城河将持续至2030年的技术分析

尽管面临挑战者(DeepSeek、TPU、MI300X、出口管制),英伟达仍维持80%的AI加速器市场份额和78%的毛利率。股价因威胁下跌后又反弹。护城河不是CUDA本身——而是19年积累的生态系统:cuDNN、cuBLAS、NCCL、PyTorch/TensorFlow优化、Nsight工具链、技术文档。对几乎所有客户而言,迁移成本远超性能优势。

英伟达坚不可摧的地位:为何护城河将持续至2030年的技术分析

英伟达坚不可摧的地位:为何护城河将持续至2030年的技术分析

更新于2025年12月11日

2025年12月更新: 尽管面临挑战者(DeepSeek、TPU、MI300X、出口管制),英伟达仍维持80%的AI加速器市场份额和78%的毛利率。股价因威胁下跌后又反弹。护城河不是CUDA本身——而是19年积累的生态系统:cuDNN、cuBLAS、NCCL、PyTorch/TensorFlow优化、Nsight工具链、技术文档。对几乎所有客户而言,迁移成本远超性能优势。

每一次对英伟达的威胁都遵循同样的剧本。分析师识别出一个挑战者——DeepSeek的效率、谷歌的TPU、AMD的MI300X、开源模型、出口管制——并预测市场份额将被侵蚀。股价下跌。头条新闻铺天盖地。然后威胁消退。市场份额维持在80%。¹ 毛利率保持在78%。² 超大规模云厂商宣布又一轮资本支出,大部分流向英伟达硬件。³

这种模式不断重复,因为分析聚焦于错误的变量。观察者比较规格参数后得出结论:竞争对手已经赶上或即将赶上。这种比较忽略了英伟达地位持久的真正原因:迁移成本远超性能优势,以至于理性行为者即使在替代方案提供更好参数时也会选择留下。

英伟达将在2030年之前保持市场主导地位。不是因为竞争对手不会在特定指标上生产出更好的硬件——在某些情况下他们已经做到了。不是因为效率提升不会降低每个模型的计算需求——这也已经发生了。英伟达获胜是因为,对于市场上几乎每一个客户来说,切换平台的总成本都超过了切换带来的总收益。理解原因需要理解护城河的真正构成。

护城河不是CUDA,而是建立在CUDA之上的一切

CUDA于2006年推出。随后是十九年的持续投入。这些投入不仅仅创造了一个编程接口,而是创造了一个如此全面的生态系统,以至于CUDA的功能不像一个软件平台,更像AI开发的基础设施本身。

基础层包括并行计算模型和编程抽象。CUDA为开发者提供了一种表达并行计算的方式,使其能够在GPU架构上高效执行。这个基础层运行良好,但理论上可以被复制。AMD的ROCm提供类似的抽象。英特尔的oneAPI也在尝试同样的事情。

基础层之上积累的各层创造了可防御的优势。

库和基础组件:cuDNN用于深度学习基础组件。cuBLAS用于线性代数。cuFFT用于傅里叶变换。Thrust用于并行算法。NCCL用于多GPU通信。每个库都代表着数千工程小时针对英伟达架构的优化。每项优化都与其他优化相互叠加。一个使用cuDNN进行卷积、cuBLAS进行矩阵运算、NCCL进行梯度聚合的模型,在堆栈的每一层都能获得优化。⁴

框架集成:PyTorch、TensorFlow、JAX以及其他所有主流框架都优先且最深入地针对英伟达GPU进行优化。框架开发者使用英伟达硬件。框架测试套件在英伟达硬件上运行。bug报告主要来自英伟达用户。这些框架在其他硬件上也能工作;但在英伟达硬件上工作得最好。⁵

工具链和调试:Nsight用于性能分析和调试。CUDA-GDB用于内核调试。Compute Sanitizer用于错误检测。这些工具帮助开发者编写正确、高效的代码。这些工具在竞争平台上要么不存在,要么只有不成熟的版本。

文档和知识:十九年的博客文章、教程、学术论文、Stack Overflow回答和机构知识。当开发者遇到CUDA问题时,解决方案肯定存在于某处。当开发者遇到ROCm问题时,他们可能是第一个遇到这个问题的人。

开发者的肌肉记忆:研究生学习CUDA。研究团队使用CUDA。工程师围绕CUDA专业知识建立职业生涯。做技术决策的人已经花了多年时间积累CUDA专属技能,这些技能无法迁移到其他平台。

这些层相互叠加。一个组织从英伟达切换到AMD不仅仅是更换硬件。它需要将CUDA内核重写为HIP或ROCm。它需要用MIOpen调用替换cuDNN调用。它需要重新培训开发者。它需要放弃Nsight并学习新工具。它需要告别那些在凌晨2点解决疑难问题的社区知识。它需要承担覆盖率较低的生态系统中的调试风险。

每一层都增加迁移成本。迁移成本以乘法而非加法方式累积。纸面上20%的优势在实践中会变成20%的劣势,因为要实现它需要从零开始重建整个技术栈。

为什么DeepSeek证明了护城河而非威胁它

DeepSeek在2025年1月的公告声称,前沿AI模型可以用600万美元而非6亿美元进行训练。⁶ 市场将此解读为生存威胁:如果模型可以廉价构建,对昂贵硬件的需求将会崩溃。

这种解读在多个层面上是错误的,每一个层面都揭示了英伟达结构性优势的某些方面。

效率提升不会减少需求;而是扩大需求。 杰文斯悖论——效率改进会增加而非减少总资源消耗的观察——直接适用。当训练成本下降99%时,可寻址市场扩大超过99倍。那些在6亿美元价格下负担不起前沿AI的组织,在600万美元时就能负担得起。即使单个模型的计算消耗减少,总计算消耗也会增加。

Meta的反应立即证明了这一点。在DeepSeek宣布几天后,Meta将其2025年AI支出指引提高到600-650亿美元。⁷ 该公司将更便宜的训练视为为更多用例训练更多模型的理由,而非减少基础设施投资的理由。

DeepSeek运行在英伟达硬件上。 该公司使用受出口限制的英伟达芯片,并辅以华为的Ascend 910B,后者达到了可比英伟达性能的91%。⁸ 即使是这家据称威胁英伟达主导地位的公司也无法完全脱离英伟达的生态系统。DeepSeek开发的效率创新——混合专家、注意力优化、训练课程改进——可以迁移到英伟达硬件上。想要DeepSeek效率的组织可以在保持英伟达平台的同时实现它。

市场在48小时内正确处理了这一信号。 英伟达5930亿美元的单日损失在机构投资者认识到市场反应过度后反转。⁹ 次日股价反弹8.9%。散户卖出;机构逢低买入。老练的市场参与者理解了头条新闻所遗漏的内容。

工业界的承诺没有动摇。 雪佛龙和GE Vernova在DeepSeek宣布之后而非之前宣布了为数据中心建造专用发电厂的计划。¹⁰ 工业公司不会基于泡沫或即将过时的技术投入数十亿美元建设基础设施项目。他们为数十年的持续需求而建设。

DeepSeek事件以对看空论点最有利的条件测试了英伟达的护城河:来自不受美国出口法规约束的竞争对手的戏剧性效率改进,在市场狂热达到顶峰时宣布。护城河坚守住了。任何未来的挑战都在不那么有利的条件下运作。

TPU:特定细分市场的真正竞争,而非平台威胁

谷歌的张量处理单元代表着真正的竞争。TPUv7(Ironwood)在BF16下提供4,614 TFLOPS,比TPUv5p提升10倍。¹¹ 谷歌赢得了重要客户:Anthropic的建设规模超过1 GW的TPU容量。¹² 据报道,Meta计划在2027年前在数据中心使用TPU。¹³ OpenAI、SSI和xAI已与谷歌讨论过TPU接入。¹⁴

这些胜利是真实的。但它们不会威胁英伟达的主导地位,因为它们发生在具有特定特征的细分市场中,这些特征无法推广。

TPU针对超大规模推理成本进行优化。 生产AI系统的推理成本超过训练成本15-118倍。¹⁵ 在超大规模下,推理成本优化带来显著的经济价值。谷歌的TPU在这些工作负载上提供4.7倍的性价比和67%的功耗降低。¹⁶ 对于以成本为主要约束条件在大规模运行推理的组织,TPU提供了有吸引力的经济效益。

TPU仍然受限于谷歌的生态系统。 组织通过Google Cloud或与谷歌的直接关系访问TPU。硬件不会发送到客户数据中心。软件生态系统不独立于谷歌的基础设施而存在。选择TPU意味着在根本层面上选择谷歌作为战略合作伙伴。

这一约束排除了大部分市场。在自己数据中心部署AI的企业无法使用TPU。不愿意将基础设施集中于单一超大规模云厂商的组织无法使用TPU。受监管行业中禁止特定云依赖的公司无法使用TPU。这一约束不适用于Anthropic或Meta,它们的规模足以谈判直接合作关系。它适用于市场的长尾。

训练仍然主要在英伟达上进行。 谷歌在TPU上训练Gemini。其他所有人都在英伟达上训练。训练市场与推理市场在几个方面有所不同:训练工作负载比推理更多样化、更不标准化;训练需要更多的架构实验灵活性;训练从生态系统深度中受益更多。英伟达在训练领域的地位仍然强于其在推理领域的地位。

市场细分不等于市场损失。 如果TPU占据20%的超大规模推理市场,而英伟达保留95%的训练市场、90%的企业推理市场和80%的其他超大规模推理市场,英伟达的绝对数量和收入将继续增长。AI计算市场的扩张速度超过TPU可能占据的任何细分市场。英伟达的份额可能略有下降,而其收入翻倍。

预测:TPU将成为AI计算格局中的重要组成部分,特别是针对超大规模成本敏感型推理。英伟达保持训练主导地位、企业主导地位和超大规模计算的多数份额。两家公司都在增长。将TPU定性为英伟达"威胁"的说法,错把细分市场竞争当作平台颠覆。

AMD MI300X:规格赢得基准测试,生态系统赢得市场

AMD的MI300X提供了令人瞩目的规格:192 GB的HBM3内存,而H100为80 GB。¹⁷ 对于内存受限的推理工作负载,更大的内存很重要。大语言模型在推理过程中通常瓶颈在内存带宽而非计算能力。MI300X的规格表展示了真正具有竞争力的硬件。

市场份额讲述了不同的故事。Omdia估计英伟达持有约80%的AI加速器市场。¹⁸ AMD占据个位数百分比。尽管发布了多代具有竞争力的硬件,这一差距并没有明显缩小。

这种模式贯穿AMD与英伟达竞争的整个历史。每一代,AMD宣布在规格上匹配或超越英伟达的硬件。每一代,英伟达维持市场份额。每一代,观察者预测差距将缩小。每一代,差距都没有缩小。

这种模式在十五年的竞争中保持一致,有力地证明了决定市场结果的是规格以外的东西。那就是生态系统。

ROCm,AMD对CUDA的回应,存在并且能够运行。框架支持存在。库存在。文档存在。但每个要素的密度都低于英伟达的对应物。PyTorch在ROCm上可以工作;但更多PyTorch用户在CUDA上运行。MIOpen提供深度

[内容因翻译而截断]

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING