DeepSeek V3.2在顶级基准测试中击败GPT-5：中国AI崛起对基础设施意味着什么

中国AI实验室在出口限制下实现前沿性能，重塑基础设施经济格局。

Blake Crosley

Dec 10, 2025 1 min read Disclaimer

DeepSeek V3.2在顶级基准测试中击败GPT-5：中国AI崛起对基础设施意味着什么

2025年12月10日作者：Blake Crosley

中国的DeepSeek于2025年12月1日发布了两款新AI模型，其中DeepSeek-V3.2-Speciale在顶级竞赛中取得了卓越成绩：在2025年国际数学奥林匹克竞赛（IMO）中达到金牌水平（35/42分），在国际信息学奥林匹克竞赛（IOI）中排名第10（492/600分），并在ICPC世界总决赛中获得第2名。[^1] 在基准测试性能方面，Speciale版本在AIME测试中达到了96.0%的通过率，而GPT-5-High为94.6%，Gemini-3.0-Pro为95.0%。[^2] 两款模型均以Apache 2.0协议免费开源发布，挑战了人们对前沿AI能力所需算力的传统认知。

这次发布标志着AI地缘政治的重要时刻。一家在美国芯片出口限制下运营的中国实验室，在顶级推理任务上生产出了与美国前沿系统相匹配甚至超越的模型。这一成就引发了关于基础设施投资与AI能力之间关系的质疑，对正在规划GPU采购和训练基础设施的组织具有重要启示意义。

基准测试性能详解

DeepSeek-V3.2-Speciale在数学和编程基准测试中表现出色，跻身全球前三大前沿模型之列。

在哈佛-麻省理工数学锦标赛中，Speciale版本得分99.2%，超过了Gemini的97.5%。[^3] AIME——一项75分钟、包含15道题目的考试，测量的是数学洞察力而非计算能力——是AI最具挑战性的推理基准测试之一。96%的得分使该模型达到了全球前50名数学奥赛选手的水平。[^4]

其底层架构解释了原因。DeepSeek V3.2基于6850亿参数的混合专家（MoE）框架构建，每个token激活370亿参数。[^5] MoE设计意味着该模型拥有6850亿模型的知识容量，但推理成本仅相当于370亿模型——这是一个关键的效率优势，使得在受限硬件上进行训练和部署成为可能。

标准版DeepSeek-V3.2针对日常推理助手使用场景，在能力和效率之间取得平衡。Speciale版本——采用高算力配置和扩展推理链——代表了最大能力版本，针对顶级基准测试性能而非成本效率进行优化。[^6] DeepSeek指出Speciale API端点将于2025年12月15日到期，反映出大规模运行该模型的极端计算成本。

两款模型都增加了结合推理和自主执行某些操作的能力，表明除了原始基准测试性能外还具备智能体能力。[^7] 这种组合使DeepSeek模型能够应用于学术基准测试之外的实际应用场景。

基础设施效率影响

DeepSeek的成就挑战了关于前沿AI算力需求的假设——并为基础设施规划提供了具体经验教训。

训练效率突破

DeepSeek使用2,048块NVIDIA H800 GPU训练V3——H800是H100的出口限制版本，互连速度有所降低——仅用了278.8万GPU小时，计算成本约为560万美元。[^8] 作为对比，Llama 3 405B的训练需要3080万GPU小时——用于更小模型的算力是其11倍。[^9]

这种效率来自三项关键创新：

FP8混合精度训练。 DeepSeek率先在大规模训练中采用FP8（8位）训练，在保持准确性的同时降低了内存需求。V3是第一个使用FP8训练的开源LLM，为超大型模型验证了这一技术。[^10]

每token计算效率。 DeepSeek训练V3时每token使用250 GFLOPs，而Qwen 2.5 72B为394 GFLOPs/token，Llama 3.1 405B为2,448 GFLOPs/token。[^11] 与Llama相比10倍的效率差距表明，算法创新可以替代原始算力。

多头潜在注意力（MLA）。 这种架构降低了推理过程中的内存带宽需求，使得在原本不足的硬件上也能部署。

对采购决策的意义

效率差距对GPU采购有直接影响：

质疑大型集群假设。 如果DeepSeek用2,048块H800就实现了前沿性能，那么计划部署10,000+ GPU集群的组织应该验证其效率假设。更小但优化良好的集群可能提供同等能力。

投资训练基础设施专业知识。 DeepSeek的效率与西方实验室方法之间的差距表明，训练方法论与硬件同样重要。组织应在GPU采购的同时为ML工程人才分配预算。

为效率快速提升做好规划。 12-18个月的采购周期可能面临过时风险，因为训练效率在不断提高。考虑更短的承诺期或灵活的云服务安排，而不是锁定当前假设的大额资本采购。

出口限制背景

美国芯片出口限制限制了中国获取NVIDIA最先进GPU的途径，包括H100和Blackwell架构。DeepSeek使用H800开发了V3.2——H800保留了完整的计算能力但NVLink互连速度有所降低——在没有获得前沿硬件的情况下实现了前沿性能。

这一成就表明，互连带宽限制可以通过算法创新部分克服。组织不能假设更多GPU就自动产生更好的模型。训练效率、架构创新和优化与原始算力同样重要。

开源模型经济学：具体成本对比

两款DeepSeek-V3.2模型均免费开源发布，为拥有GPU基础设施的组织创造了显著的成本优势。

API定价对比： - GPT-5 Standard：$1.25/百万输入token，$10/百万输出token[^12] - Claude Opus 4.1：$15/百万输入token，$75/百万输出token[^13] - DeepSeek V3.2-Exp：$0.028/百万输入token[^14]

45-500倍的定价差距意味着运行大量推理工作负载的组织可以通过自托管DeepSeek而非使用专有API来实现大幅成本降低。

自托管要求： 运行完整的6850亿参数模型需要约700GB显存（FP8精度），可通过8-10块NVIDIA H100（80GB）GPU实现。[^15] 量化4位版本将此需求降低到约386GB，可在5-6块H100或同等配置上部署。[^16]

对于已经为其他AI工作负载运营GPU集群的组织来说，添加DeepSeek推理只是边际成本，相比专有替代方案的按token收费要低得多。

竞争格局转变

2025年11月各大实验室集中发布前沿模型，DeepSeek将中国竞争引入了以美国为中心的格局。

美国前沿模型发布

2025年11月发布极为密集，GPT-5.1、Grok 4.1、Gemini 3 Pro和Claude Opus 4.5在六天内相继发布。[^17] Claude Opus 4.5是Anthropic最智能的模型，在编程和智能体任务方面表现出色。[^18] Gemini 3 Pro以86.4的GPQA分数主导推理基准测试，而Claude Opus 4.5以72.5%的SWE-bench成绩领先编程基准测试。[^19]

DeepSeek的12月发布表明，尽管受到硬件限制，中国实验室仍能跟上前沿开发的步伐。全球AI竞赛现在包括来自中国在能力方面的真正竞争，而不仅仅是部署规模。

地缘政治影响

中国的前沿AI能力影响了美国关于出口限制、算力主权和AI领导地位的政策讨论。政策制定者曾假设硬件限制会减缓中国AI发展；DeepSeek的成就表明了这一策略的局限性。

组织应预期政策将随着竞争态势变化而持续演变。出口限制可能收紧、扩展到新类别，或随着其有效性受到质疑而面临重新考量。采购规划应考虑政策不确定性。

决策框架：自建、购买还是等待？

DeepSeek的发布重塑了AI能力的自建与购买计算。以下是思考决策的方式：

场景	建议	理由
API月支出<$10K	继续使用API	自托管开销超过节省
月支出$10K-50K，负载可变	混合方案	突发使用API，基线使用自有
月支出>$50K，负载稳定	评估自托管	6-12个月内可实现投资回报
训练自定义模型	自有基础设施	控制效率优化

该框架假设当前一代GPU定价。随着H100供应改善以及H200/B200进入市场，自托管经济学将进一步向自有基础设施倾斜。

对基础设施规划的意义

DeepSeek的成就对规划AI基础设施的组织有几个可操作的启示。

效率优于规模

实现AI能力时，原始GPU数量的重要性不如训练效率。组织应在硬件采购的同时投资训练基础设施优化。好硬件加好训练方法的组合优于用朴素训练方法使用优秀硬件。

可操作步骤： 在承诺大量GPU订单之前，聘请ML工程顾问审计训练效率。2-3倍的效率提升可能相应减少所需集群规模。

研究合作伙伴关系和工程人才投资可能比额外GPU采购带来更高的每美元能力回报。组织应根据其AI发展战略平衡硬件和人力资本投资。

开源模型部署基础设施

免费、开源的前沿模型改变了基础设施需求。组织应考虑用于自托管部署的推理基础设施，而不是优化API延迟和管理按token成本。基础设施经济学从运营支出转向资本投资。

可操作步骤： 计算您当前的API支出。如果推理月支出超过$50,000，评估自托管经济学。8-GPU H100集群成本约为$250,000-300,000，但可永久消除按token费用。

随着开源模型的改进，针对推理而非训练调整的GPU集群变得更有价值。组织在自有基础设施上运行推理可能比向模型提供商支付API利润获得更好的经济效益。

多元化考虑

依赖单一模型提供商会在竞争态势演变时产生风险。组织应设计能够接受多个提供商模型的系统架构，实现快速采用新兴能力。DeepSeek的发布表明能力领先地位会不可预测地转移。

可操作步骤： 实施模型抽象层（LiteLLM、OpenRouter或自定义路由），使提供商切换无需修改应用程序。

Introl的550名现场工程师支持组织实施灵活的AI基础设施，以适应竞争态势变化。[^20] 该公司以9,594%的三年增长率在2025年Inc. 5000榜单中排名第14位。[^21]

覆盖全球257个地点的基础设施需要随着AI格局演变而具备适应性。[^22] 专业支持确保基础设施投资在模型能力和经济状况变化时仍然保持价值。

关键要点

对于基础设施规划者： - DeepSeek以比Llama 3 405B少11倍的算力实现了GPT-5级别的性能 - 自托管前沿模型现在需要8-10块H100（约$250-300K），而API费用为$50K+/月 - 训练效率与GPU数量同样重要——为此分配预算

[内容为翻译目的截断]

DeepSeek V3.2在顶级基准测试中击败GPT-5：中国AI崛起对基础设施意味着什么

基准测试性能详解

基础设施效率影响

训练效率突破

对采购决策的意义

出口限制背景

开源模型经济学：具体成本对比

竞争格局转变

美国前沿模型发布

地缘政治影响

决策框架：自建、购买还是等待？

对基础设施规划的意义

效率优于规模

开源模型部署基础设施

多元化考虑

关键要点

You Might Also Like

超大规模云服务商资本支出在2026年达到6000亿美元：AI基础设施债务浪潮

微软600亿美元新云赌注：在AI产能危机中争取时间

DeepSeek V3.2在顶级基准测试中击败GPT-5：中国人工智能崛起对基础设施意味着什么

申请报价_

请求已收到_