DeepSeek V3.2在顶级基准测试中击败GPT-5：中国人工智能崛起对基础设施意味着什么

DeepSeek V3.2-Speciale在AIME达到96%，IMO获金牌，IOI进入前十——尽管受出口限制，仍与美国前沿模型持平。

Blake Crosley

Jan 04, 2026 2 min read Disclaimer

DeepSeek V3.2在顶级基准测试中击败GPT-5：中国人工智能崛起对基础设施意味着什么

2025年12月10日作者：Blake Crosley

中国的DeepSeek于2025年12月1日发布了两款新的人工智能模型，其中DeepSeek-V3.2-Speciale在精英竞赛中取得了卓越成绩：在2025年国际数学奥林匹克竞赛中达到金牌水平（35/42分），在国际信息学奥林匹克竞赛中获得第10名（492/600分），在ICPC世界总决赛中获得第2名。¹ 在基准性能方面，Speciale版本在AIME上达到了96.0%的通过率，而GPT-5-High为94.6%，Gemini-3.0-Pro为95.0%。² 两款模型均以Apache 2.0许可证免费开源发布，挑战了关于前沿AI能力所需计算资源的假设。

此次发布标志着人工智能地缘政治的重要时刻。一家在美国芯片出口限制下运营的中国实验室，在精英推理任务上生产出了与美国前沿系统相当甚至超越的模型。这一成就引发了关于基础设施投资与AI能力之间关系的质疑，对规划GPU采购和训练基础设施的组织具有重要影响。

基准性能分析

DeepSeek-V3.2-Speciale在数学和编程基准测试中表现出色，跻身全球前三大前沿模型之列。

在哈佛-麻省理工数学锦标赛中，Speciale版本取得了99.2%的成绩，超过了Gemini的97.5%。³ AIME——一项75分钟、包含15道题目的考试，衡量的是数学洞察力而非计算能力——是AI最具挑战性的推理基准之一。96%的得分使该模型达到了全球前50名数学奥林匹克选手的水平。⁴

底层架构解释了原因。DeepSeek V3.2基于6850亿参数的混合专家（MoE）框架构建，每个token激活370亿参数。⁵ MoE设计意味着该模型拥有6850亿模型的知识容量，但推理成本仅相当于370亿模型——这是一个关键的效率优势，使得在受限硬件上进行训练和部署成为可能。

标准版DeepSeek-V3.2针对日常推理助手用例，在能力和效率之间取得平衡。Speciale版本——一种高计算配置，具有延长的推理链——代表了针对精英基准性能而非成本效率优化的最大能力版本。⁶ DeepSeek指出Speciale API端点将于2025年12月15日到期，反映出大规模运行该模型的极端计算成本。

两款模型都增加了结合推理和自主执行某些操作的能力，表明除了纯粹的基准性能外，还具有代理能力。⁷ 这种组合使DeepSeek模型能够用于超越学术基准的实际应用。

基础设施效率影响

DeepSeek的成就挑战了关于前沿AI计算需求的假设，并为基础设施规划提供了具体经验。

训练效率突破

DeepSeek仅使用2,048块NVIDIA H800 GPU——受出口限制的H100变体，互连速度较低——以约560万美元的计算成本，仅用278.8万GPU小时完成了V3的训练。⁸ 作为参照，Llama 3 405B需要3080万GPU小时进行训练——对于更小的模型需要11倍的计算量。⁹

效率来自三项关键创新：

FP8混合精度训练。 DeepSeek率先在大规模上进行FP8（8位）训练，在保持精度的同时减少了内存需求。V3是第一个使用FP8训练的开源LLM，验证了该技术适用于超大型模型。¹⁰

每token计算效率。 DeepSeek以每token 250 GFLOPs训练V3，相比之下Qwen 2.5 72B为每token 394 GFLOPs，Llama 3.1 405B为每token 2,448 GFLOPs。¹¹ 与Llama相比10倍的效率差距表明，算法创新可以替代原始计算。

多头潜在注意力（MLA）。 这种架构减少了推理期间的内存带宽需求，使得在原本不足的硬件上部署成为可能。

这对采购决策意味着什么

效率差距对GPU采购有直接影响：

质疑大型集群假设。 如果DeepSeek用2,048块H800实现了前沿性能，那么规划10,000+GPU集群的组织应该验证其效率假设。更小但优化良好的集群可能提供同等能力。

投资训练基础设施专业知识。 DeepSeek的效率与西方实验室方法之间的差距表明，训练方法与硬件同样重要。组织应该在GPU采购的同时为ML工程人才分配预算。

为快速效率改进做计划。 12-18个月的采购周期随着训练效率的提高面临过时风险。考虑更短的承诺或灵活的云安排，而不是锁定当前假设的大额资本采购。

出口限制背景

美国芯片出口限制限制了中国获取NVIDIA最先进GPU的途径，包括H100和Blackwell架构。DeepSeek使用H800——保留完整计算能力但NVLink互连速度降低——开发了V3.2，在没有前沿硬件访问的情况下实现了前沿性能。

这一成就表明，通过算法创新可以部分克服互连带宽限制。组织不能假设更多GPU自动产生更好的模型。训练效率、架构创新和优化与原始计算同样重要。

开源模型经济学：具体成本比较

两款DeepSeek-V3.2模型都免费开源发布，为拥有GPU基础设施的组织创造了显著的成本优势。

API定价比较： - GPT-5 Standard：$1.25/百万输入token，$10/百万输出token¹² - Claude Opus 4.1：$15/百万输入token，$75/百万输出token¹³ - DeepSeek V3.2-Exp：$0.028/百万输入token¹⁴

45倍-500倍的价格差距意味着运行高容量推理工作负载的组织可以通过自托管DeepSeek而非使用专有API实现大规模成本降低。

自托管要求： 运行完整的6850亿模型需要约700GB VRAM（FP8精度），可通过8-10块NVIDIA H100（80GB）GPU实现。¹⁵ 4位量化版本将此降至约386GB，可在5-6块H100或等效配置上部署。¹⁶

对于已经为其他AI工作负载运营GPU集群的组织，添加DeepSeek推理相对于专有替代品的高额每token费用而言只是边际成本。

竞争格局转变

2025年11月见证了主要实验室集中发布前沿模型，DeepSeek为以美国为中心的格局增添了中国竞争。

美国前沿模型发布

2025年11月发布极为密集，GPT-5.1、Grok 4.1、Gemini 3 Pro和Claude Opus 4.5在六天内相继发布。¹⁷ Claude Opus 4.5是Anthropic最智能的模型，在编码和代理任务方面表现出色。¹⁸ Gemini 3 Pro以86.4的GPQA分数主导推理基准，而Claude Opus 4.5以72.5%的SWE-bench成绩领先编码基准。¹⁹

DeepSeek的12月发布表明，尽管受到硬件限制，中国实验室可以跟上这种前沿发展的步伐。全球AI竞赛现在包括来自中国在能力上的真正竞争，而不仅仅是部署规模。

地缘政治影响

中国前沿AI能力影响美国关于出口限制、计算主权和AI领导地位的政策讨论。政策制定者假设硬件限制会减缓中国AI发展；DeepSeek的成就表明了这一战略的局限性。

组织应预期随着政府对不断变化的竞争动态做出反应，政策将持续演变。出口限制可能收紧、扩展到新类别，或随着其有效性受到质疑而面临重新考虑。采购规划应考虑政策不确定性。

决策框架：构建、购买还是等待？

DeepSeek的发布重塑了AI能力的构建与购买计算。以下是如何思考这一决策：

场景	建议	理由
<$10K/月API支出	继续使用API	自托管开销超过节省
$10K-50K/月，可变负载	混合方法	峰值使用API，基线使用自有
>$50K/月，稳定负载	评估自托管	6-12个月内可实现ROI
训练自定义模型	自有基础设施	控制效率优化

该框架假设当前一代GPU定价。随着H100可用性提高以及H200/B200进入市场，自托管经济将进一步向自有基础设施倾斜。

这对基础设施规划意味着什么

DeepSeek的成就对规划AI基础设施的组织有几个可操作的影响。

效率优于规模

原始GPU数量对于实现AI能力的重要性不如训练效率。组织应在硬件采购的同时投资训练基础设施优化。良好硬件与良好训练方法的结合胜过优秀硬件配合天真的训练。

可操作步骤： 在承诺大量GPU订单之前，聘请ML工程顾问审计训练效率。2-3倍的效率改进可能会按比例减少所需的集群规模。

研究合作和工程人才投资可能比额外的GPU采购提供更多每美元能力。组织应根据其AI发展战略平衡硬件和人力资本投资。

开源模型部署基础设施

免费开源的前沿模型改变了基础设施需求。组织应考虑用于自托管部署的推理基础设施，而不是优化API延迟和管理每token成本。基础设施经济从运营支出转向资本投资。

可操作步骤： 计算您当前的API支出。如果推理支出超过$50,000/月，评估自托管经济。一个8-GPU H100集群成本约$250,000-300,000，但可无限期消除每token费用。

随着开源模型的改进，为推理而非训练设计的GPU集群变得更有价值。组织可能通过在自有基础设施上运行推理而非向模型提供商支付API利润来获得更好的经济效益。

多元化考虑

依赖单一模型提供商会随着竞争动态演变而产生风险。组织应构建接受多个提供商模型的系统，以实现快速采用新兴能力。DeepSeek的发布表明，能力领导地位的变化是不可预测的。

可操作步骤： 实施模型抽象层（LiteLLM、OpenRouter或自定义路由），使提供商之间的切换无需更改应用程序。

Introl的550名现场工程师支持组织实施适应竞争动态的灵活AI基础设施。²⁰ 该公司在2025年Inc. 5000中排名第14，三年增长率达9,594%。²¹

257个全球位置的基础设施需要随着AI格局的演变而具有适应性。²² 专业支持确保基础设施投资在模型能力和经济变化时保持价值。

关键要点

对于基础设施规划者： - DeepSeek以比Llama 3 405B少11倍的计算实现了GPT-5级别的性能 - 自托管前沿模型现在需要8-10块H100（约$250-300K）对比$50K+/月的API费用 - 训练效率与GPU数量同样重要——在硬件预算之外为ML工程预算

对于采购决策： - 质疑大型集群假设；2,048块GPU实现了前沿能力 - 为可能使当前假设过时的12-18个月效率改进做计划 - 实施模型抽象层以实现快速能力采用

对于战略规划： - 中国实验室现在在能力上竞争，而不仅仅是规模——预期持续发布 - 出口限制的有效性值得怀疑；政策可能以不可预测的方式演变 - 接近专有水平的开源模型改变了构建与购买的经济学

展望

DeepSeek V3.2证明前沿AI能力来自多个来源，而不仅仅是拥有无限制硬件访问的美国实验室。这一成就加速了竞争动态，挑战了基础设施规划假设。

关键教训：效率创新可以将前沿AI的硬件需求压缩一个数量级。规划基础设施投资的组织应考虑持续的效率改进，而不是锁定当前关于计算需求的假设。

组织应为来自不同来源的持续能力改进做好准备。基础设施投资应强调灵活性、效率和适应性，而不是针对当前模型架构优化的原始规模。AI基础设施格局奖励那些快速适应新兴能力的组织。

参考文献

分类： AI与机器学习 紧迫性： 高——竞争格局转变，对基础设施有影响 字数： 约2,400

Bloomberg. "DeepSeek Debuts New AI Models to Rival Google and OpenAI." 2025年12月1日。https://www.bloomberg.com/news/articles/2025-12-01/deepseek-debuts-new-ai-models-to-rival-google-and-openai ↩
VentureBeat. "DeepSeek just dropped two insanely powerful AI models that rival GPT-5." 2025年12月。https://venturebeat.com/ai/deepseek-just-dropped-two-insanely-powerful-ai-models-that-rival-gpt-5-and ↩
VentureBeat. "DeepSeek just dropped two insanely powerful AI models." 2025年12月。 ↩
IntuitionLabs. "AIME 2025 Benchmark: An Analysis of AI Math Reasoning." 2025。https://intuitionlabs.ai/articles/aime-2025-ai-benchmark-explained ↩
Hugging Face. "deepseek-ai/DeepSeek-V3." 2025。https://huggingface.co/deepseek-ai/DeepSeek-V3 ↩
Bloomberg. "DeepSeek Debuts New AI Models." 2025年12月1日。 ↩
Bloomberg. "DeepSeek Debuts New AI Models." 2025年12月1日。 ↩
DeepLearning.AI. "Researchers Describe Training Methods and Hardware Choices for DeepSeek's V3 and R1 Models." 2025。https://www.deeplearning.ai/the-batch/researchers-describe-training-methods-and-hardware-choices-for-deepseeks-v3-and-r1-models/ ↩
Towards AI. "TAI #132: Deepseek v3–10x+ Improvement in Both Training and Inference Cost." 2025。https://newsletter.towardsai.net/p/tai-132-deepseek-v310x-improvement ↩
GitHub. "deepseek-ai/DeepSeek-V3." 2025。https://github.com/deepseek-ai/DeepSeek-V3 ↩
Interconnects. "DeepSeek V3 and the cost of frontier AI models." 2025。https://www.interconnects.ai/p/deepseek-v3-and-the-actual-cost-of ↩
OpenAI. "API Pricing." 2025。https://openai.com/api/pricing/ ↩
TechCrunch. "OpenAI priced GPT-5 so low, it may spark a price war." 2025年8月。https://techcrunch.com/2025/08/08/openai-priced-gpt-5-so-low-it-may-spark-a-price-war/ ↩
VentureBeat. "DeepSeek's new V3.2-Exp model cuts API pricing in half." 2025。https://venturebeat.com/ai/deepseeks-new-v3-2-exp-model-cuts-api-pricing-in-half-to-less-than-3-cents ↩
APXML. "GPU Requirements Guide for DeepSeek Models." 2025。https://apxml.com/posts/system-requirements-deepseek-models ↩
RiseUnion. "DeepSeek-V3/R1 671B Deployment Guide: GPU Requirements." 2025。https://www.theriseunion.com/blog/DeepSeek-V3-R1-671B-GPU-Requirements.html ↩
Shakudo. "Top 9 Large Language Models as of December 2025." 2025年12月。https://www.shakudo.io/blog/top-9-large-language-models ↩
Shakudo. "Top 9 Large Language Models as of December 2025." 2025年12月。 ↩
All About AI. "2025 AI Model Benchmark Report." 2025。https://www.allaboutai.com/resources/ai-statistics/ai-models/ ↩
Introl. "Company Overview." Introl. 2025。https://introl.com ↩
Inc. "Inc. 5000 2025." Inc. Magazine. 2025。 ↩
Introl. "Coverage Area." Introl. 2025。https://introl.com/coverage-area ↩

DeepSeek V3.2在顶级基准测试中击败GPT-5：中国人工智能崛起对基础设施意味着什么

基准性能分析

基础设施效率影响

训练效率突破

这对采购决策意味着什么

出口限制背景

开源模型经济学：具体成本比较

竞争格局转变

美国前沿模型发布

地缘政治影响

决策框架：构建、购买还是等待？

这对基础设施规划意味着什么

效率优于规模

开源模型部署基础设施

多元化考虑

关键要点

展望

参考文献

You Might Also Like

超大规模云服务商资本支出在2026年达到6000亿美元：AI基础设施债务浪潮

微软600亿美元新云赌注：在AI产能危机中争取时间

CES 2026 芯片大战：英特尔 18A 突破、英伟达内存危机与 AMD 的 AI 反击

申请报价_

请求已收到_