中国AI实验室DeepSeek在2025年发布了V3.2,该模型在AIME 2025上得分96.0%,同时每百万输入tokens收费$0.028——大约是GPT-5成本的十分之一。该公司在MIT许可证下开源了整个6710亿参数的模型,使任何拥有足够计算资源的人都能获得前沿级AI性能。OpenAI、Google和Anthropic现在面临来自一个在数学推理和编程方面与其旗舰产品相匹配,同时定价低一个数量级的模型的直接竞争。
DeepSeek通过架构创新实现了这些经济效益,在不牺牲质量的情况下减少了计算开销。该实验室推出了DeepSeek稀疏注意力机制(DSA),这是一个细粒度索引系统,能够识别长上下文的重要部分并跳过不必要的计算。DeepSeek还改进了其专家混合架构,每层使用256个专门的专家网络,每个token仅激活8个,并通过一种新颖的偏置项路由方法消除了辅助损失。这些技术选择使DeepSeek能够以550万美元的成本训练V3——不到竞争对手据报道花费的十分之一——,而V3.2直接建立在这个高效基础之上。
此次发布引发了关于封闭前沿模型竞争护城河以及当开放替代方案以显著更低成本提供可比性能时,高端定价是否能够生存的根本性问题。
## DeepSeek-V3.2 突破
DeepSeek-V3.2 总共拥有6710亿个参数,但其专家混合架构每个token仅激活370亿个参数。该公司在2025年发布了两个变体:用于主流部署的V3.2和用于高计算推理任务的V3.2-Special。V3.2-Special在2025年12月15日之前临时提供,而V3.2作为主要的生产模型。
该模型在2025年多项国际竞赛中获得了金牌级别的表现,包括国际数学奥林匹克竞赛(IMO)、中国数学奥林匹克竞赛(CMO)、国际大学生程序设计竞赛(ICPC)和国际信息学奥林匹克竞赛(IOI)。DeepSeek-V3.2在2025年美国数学邀请赛(AIME)中得分96.0%,超越了GPT-5 High的94.6%,与Gemini 3 Pro的95.0%持平。该模型在2025年哈佛-MIT数学竞赛(HMMT)中也取得了99.2%的成绩,相比之下Gemini 3 Pro为97.5%。
价格对比
模型缓存输入标准输入输出
DeepSeek V3.2 $0.028/M tokens $0.28/M tokens $0.42/M tokens
GPT-5 — $1.25/M tokens $10/M tokens
处理100,000个输入token并生成100,000个输出token的典型工作负载,使用DeepSeek的成本约为$0.07,而使用GPT-5的成本为$1.13。
DeepSeek在MIT许可证下发布了V3.2,并在Hugging Face上发布了完整的模型权重。组织可以无限制地下载、修改和部署该模型用于商业目的,支持本地部署以满足数据主权要求或在专业领域进行定制微调。
## 架构深度解析
DeepSeek-V3.2的技术创新聚焦于三个领域:用于长上下文的稀疏注意力机制、精细化的专家混合模型设计,以及无辅助损失的负载均衡。这些架构选择协同工作,在大幅降低计算成本的同时提供前沿性能。
DeepSeek稀疏注意力
标准的transformer注意力机制会计算序列中所有token对之间的关系,随着上下文长度的增加,会导致二次方的计算复杂度。一个128,000个token的上下文大约需要160亿次注意力计算(128,000²),即使使用现代加速器,长上下文处理也变得昂贵。DeepSeek稀疏注意力通过识别哪些token真正需要注意力并跳过不太相关的token对的计算来解决计算瓶颈。
DSA系统维护一个细粒度的索引,追踪整个上下文窗口中的语义重要性。在处理新token时,注意力机制查询索引以识别可能包含相关信息的高价值token,然后仅对这些选中的token计算完整注意力。这种方法不同于固定的稀疏注意力模式(可能每10个token关注一次),而是基于语义内容而非位置规则动态选择必要的token。
DeepSeek在2025年9月的V3.2-Exp中首次引入DSA,在保持与密集注意力相当的质量指标的同时,为长上下文任务实现了50%的计算成本降低。生产版V3.2继承了这些效率提升,使128,000个token的上下文对高容量应用在经济上变得可行。
稀疏注意力创新对代码理解、文档分析和多轮对话尤其重要,其中相关信息可能出现在长历史记录的任何地方。密集注意力模型无论相关性如何都会为每个token产生完全相同的计算成本;DSA将计算资源分配给实际影响生成质量的token。
专家混合模型基础
DeepSeek-V3.2实现了具有每层256个专家网络的专家混合架构,相比V2的160个专家有所增加。模型为每个token激活八个专家:1-2个处理所有输入通用模式的共享专家,加上6-7个基于token内容选择的路由专家。总参数量达到6710亿,但任何单个token只激活370亿参数,在保持专业化能力的同时使推理成本保持可控。
每个专家网络通过训练进行专业化,不同的专家在数学推理、代码生成、科学写作或对话语言等领域发展能力。路由机制学会将数学token发送给数学专业专家,将代码token发送给编程专家等等,使模型能够在不激活全部6710亿参数的情况下在各种任务中实现专家级性能。
这种架构选择直接解决了语言模型设计中的一个基本权衡。密集模型为每个token激活所有参数,提供一致的计算但在给定的推理预算下限制了总容量。稀疏MoE模型在只激活参数子集的同时保持巨大的总容量,实现跨领域的专业化,这需要不现实的大型密集模型才能达到。
DeepSeek的实现为每层专门分配1-2个共享专家来处理所有输入类型的频繁模式:常用词汇、基础语法和简单推理步骤。无论路由决策如何,共享专家都会为每个token激活,确保模型在专业专家优化输出之前保持基准能力。共享和路由专家的组合防止模型在可能不属于任何专家训练领域的分布外输入上失败。
无辅助损失的负载均衡
专家混合架构面临负载均衡挑战:路由机制可能将大多数token发送给少数专家,使其他专家利用不足,违背专业化容量的目的。除非系统主动鼓励均衡的专家使用,否则训练通常会收敛到少数主导专家。
标准MoE实现会在训练目标中添加辅助损失项,惩罚不均衡的专家使用。辅助损失可能测量每个专家接收多少token,并在使用变得倾斜时添加惩罚,鼓励路由机制更均匀地在专家间分配token。然而,辅助损失与正确预测下一个token的主要目标竞争,可能为了更好的负载均衡而降低模型质量。
DeepSeek-V3.2完全消除了辅助损失,转而通过路由机制中的偏置项实现负载均衡。路由器计算每个token和每个专家之间的亲和度分数,然后为最近接收许多token的专家添加轻微的负偏置。偏置项使过度使用的专家对未来路由决策略显不那么有吸引力,而无需与质量目标冲突的单独损失函数。
这种方法允许DeepSeek纯粹为下一个token预测进行优化,同时通过偏置机制维持合理的负载均衡。模型还消除了训练期间的token丢弃(一种当专家容量填满时模型跳过某些token计算的常见技术),确保每个token都从其选定的专家那里获得完整处理。
从V3到V3.2:效率的演进
DeepSeek的效率突破始于2024年12月的V3,当时该实验室使用278.8万H800 GPU小时,以550万美元的成本训练出了具有竞争力的前沿模型。据报道,竞争对手训练GPT-4等模型的成本为1亿美元或更多,这使得DeepSeek实现95%的成本降低变得引人注目,这还是在考虑V3.2额外优化之前。
DeepSeek通过几个技术选择实现了V3的训练效率:
-
FP8混合精度训练而非大多数竞争对手采用的FP16或BF16精度,大致将内存带宽需求减半并支持更大的批次大小
-
定制DualPipe算法用于流水线并行,相比标准流水线方法提高了GPU利用率
-
14.8万亿训练token(少于Llama 3.1 405B等模型使用的15+万亿token),采用多token预测目标提高样本效率
V3基础以大幅降低的训练成本提供了具有竞争力的性能,但该模型在长上下文处理中使用标准密集注意力。DeepSeek于2025年9月发布了V3.2-Exp作为实验变体,引入了DeepSeek稀疏注意力。该实验版本验证了稀疏注意力可以在关键基准测试中将长上下文处理成本降低50%,且没有可测量的质量下降。
DeepSeek于2025年推出V3.2和V3.2-Special作为生产就绪模型,建立在V3.2-Exp实验基础上。V3.2面向API和自托管场景的主流部署,而V3.2-Specialized专注于数学竞赛问题和复杂编程挑战等高计算推理任务。
从V3到V3.2的演进展示了DeepSeek对训练和推理效率的关注,而非纯粹的基准最大化。该实验室以可比模型二十分之一的成本训练了V3,然后在V3.2中引入架构改进,将长上下文任务的推理成本大致减半。复合效率使DeepSeek能够以一个数量级的优势削弱竞争对手定价,同时保持足够的利润率来运营商业API服务。
## 基准性能分析
DeepSeek-V3.2在数学推理和编程基准测试中取得了强劲的成果,同时在通用知识任务上表现出竞争力但并非领先的性能。这种性能特征使V3.2特别适合技术领域,但表明用户在广泛的事实回忆方面更倾向于选择竞争对手。
数学与推理
| 基准测试 | DeepSeek V3.2 | GPT-5 High | Gemini 3 Pro |
|---|---|---|---|
| AIME 2025 | 96.0% | 94.6% | 95.0% |
| HMMT 2025 | 99.2% | — | 97.5% |
| IMO 2025 | 金牌 | — | — |
| CMO 2025 | 金牌 | — | — |
| Putnam | 金牌 | — | — |
DeepSeek-V3.2在AIME 2025上得分96.0%,超过了GPT-5 High的94.6%,与Gemini 3 Pro的95.0%持平。该模型在这项旨在识别美国顶尖高中数学学生的考试中正确解决了几乎所有问题,展现了在多步骤代数和几何推理方面的强大性能。
该模型在HMMT 2025上取得了99.2%的成绩,超过了Gemini 3 Pro的97.5%。HMMT问题需要超越典型高中课程的高级数学技巧,包括复数理论、组合数学和基于证明的推理。DeepSeek-V3.2近乎完美的表现表明该模型能够可靠地处理本科级别的数学。
编程性能
| 基准测试 | DeepSeek V3.2 | GPT-5 | Gemini 3 Pro |
|---|---|---|---|
| LiveCodeBench | 83.3% | 84.5% | 90.7% |
| SWE Multilingual | 70.2% | 55.3% | — |
| SWE Verified | 73.1% | — | 76.2% |
| Codeforces Rating | 2701 (Grandmaster) | — | — |
DeepSeek-V3.2在LiveCodeBench上取得83.3%的成绩,落后于GPT-5的84.5%和Gemini 3 Pro的90.7%。LiveCodeBench评估最近发布的编程问题上的代码生成能力,测试模型是否能将其训练应用于新颖挑战,而不是记忆常见基准问题的解决方案。
DeepSeek-V3.2在SWE Multilingual上得分70.2%,大幅超越GPT-5的55.3%。SWE Multilingual测试模型跨多种编程语言修改现有代码库的能力,需要理解代码结构、特定语言的习语和重构模式。DeepSeek相对GPT-5的15个百分点优势表明其在代码理解和修改任务上表现强劲。
DeepSeek-V3.2达到了Codeforces评分2701,使该模型进入Grandmaster级别。2701的评分超过了99.8%的人类竞技程序员,表明具有专家级编程能力。
通用知识和综合评估
DeepSeek-V3.2在Humanity's Last Exam上得分30.6%,落后于Gemini 3 Pro的37.7%。Humanity's Last Exam有意测试当前AI能力的边界,问题涵盖冷门琐事、创造性推理,以及艺术史、古典音乐和专业科学知识等领域的专业知识。7个百分点的差距表明Gemini 3 Pro在更广泛的事实知识方面保持优势,特别是在非技术领域。
跨基准测试的性能模式揭示了DeepSeek-V3.2的定位:该模型在数学和编程的精确技术推理方面表现出色,同时在通用知识任务上显示出竞争力但非主导地位的性能。
## 经济效益:10–25倍成本优势
DeepSeek-V3.2的定价结构相比竞争的前沿模型提供了显著的成本节省,优势程度根据工作负载特性和缓存利用率而有所不同。
API定价比较
DeepSeek在从缓存提供服务时收费每百万输入token $0.028,缓存未命中时每百万输入token $0.28,每百万输出token $0.42。当模型最近处理过相同上下文时,缓存输入定价适用,使DeepSeek能够重用之前的计算而不是从头处理token。
OpenAI的GPT-5每百万输入token收费$1.25,每百万输出token收费$10,没有差异化缓存定价。
示例:10万输入 + 10万输出token
模型成本
DeepSeek V3.2 (50% 缓存) $0.070
GPT-5 $1.125
GPT-5-mini $0.225
Gemini 3 Pro (估计) $1.10–1.30
Claude 4.5 Sonnet (估计) $1.30–1.80
对于平衡的读写工作负载,DeepSeek相比GPT-5提供大约16倍成本节省。
示例:缓存密集型工作负载(100万输入 @ 80% 缓存 + 20万输出)
模型成本
DeepSeek V3.2 $0.106
GPT-5 $3.25
GPT-5-mini $0.65
DeepSeek在缓存密集型工作负载上相比GPT-5的31倍优势使该模型对重复处理相似上下文的应用特别有吸引力。
训练成本创新
DeepSeek使用278.8万H800 GPU小时以550万美元训练V3,而据报道GPT-4等模型的训练成本超过1亿美元。成本计算假设每H800 GPU小时$2,这反映了大批量预留容量的典型云定价。
550万美元的训练成本为模型开发创造了根本不同的经济效益。以不到1000万美元训练竞争性模型的组织可以快速迭代、试验新颖架构,并承受偶尔的失败训练运行而无需面临生存财务风险。每次训练运行花费1亿美元以上的实验室面临巨大压力,必须在第一次尝试时最大化基准分数,这可能会抑制架构实验。
部署的经济影响
10–25倍的成本优势改变了大批量应用的部署经济效益:
示例:每月处理100亿token的客户服务应用
模型 月度成本 年度差异
DeepSeek V3.2 $2,800 —
GPT-5 $12,500–15,000 $116,000–146,000
这种经济效益还使得在GPT-5定价下仍不经济的全新应用类别成为可能:在大型代码库中持续运行的后台代码分析、知识库的主动文档摘要或推测性查询回答在DeepSeek的价格点变得可行。成本结构将AI从需要用户明确调用的高端功能转变为在后台持续运行的环境能力。
## 开源影响
DeepSeek在MIT许可下发布了V3.2,提供对模型权重的无限制访问,并允许商业使用、修改和重新分发。这一许可决定使得前沿级别的AI性能对任何拥有足够推理基础设施的组织都变得可及,从根本上改变了AI行业的竞争格局。
许可条款和可用性
MIT许可施加最少的限制:用户必须保留版权声明和免责声明,但在商业部署、专有修改或重新分发方面没有任何限制。组织可以从Hugging Face下载V3.2的6710亿参数模型权重,并在内部基础设施上部署,无需持续的许可费、收入分成或使用限制。
该许可允许在专有数据集上对V3.2进行微调,以创建适用于法律分析、医学推理或金融建模等领域的专门变体。组织可以保持微调后的权重为私有而非公开发布,从而通过领域适应实现竞争差异化。
民主化前沿AI
DeepSeek的发布使得GPT-5级别的竞争性能对之前被排除在前沿AI能力之外的组织变得可及:
-
初创公司:资金充足的初创公司可以在租赁的GPU基础设施上部署V3.2,月费用约为20,000–50,000美元
-
学术研究人员:可以通过一次性基础设施成本在本地运行V3.2,而不必支付超出大多数资助预算的按token收费
-
受监管行业:医疗保健提供商、金融机构和政府机构可以完全在内部部署,处理敏感信息而无需将数据发送到外部API
对封闭模型经济的压力
DeepSeek的竞争性开源发布迫使封闭模型提供商为其溢价定价进行辩护。OpenAI在类似性能下收费比DeepSeek高10–25倍,要求客户重视超越原始能力指标的因素。潜在的理由包括优越的客户支持、更好的集成工具、更成熟的生态系统或更强的安全防护——但成本差异需要实质性的定性优势来克服。
随着更多组织在部署和运营开放模型方面获得专业知识,定价压力加剧。基础设施复杂性目前为封闭API提供了护城河;许多团队宁愿支付溢价也不愿管理GPU集群、处理模型量化和调试推理问题。然而,工具的改进和工程团队对开放模型部署日益增长的熟悉度逐渐侵蚀了纯API服务的运营优势。
## 生产部署优势
DeepSeek-V3.2的技术特性和开放可用性为生产部署创造了多项优势,不仅仅是节省原始成本。
长上下文效率
DeepSeek-V3.2支持128,000个token的上下文,并通过DeepSeek稀疏注意力机制高效处理长输入。与密集注意力相比,稀疏注意力机制在长上下文中降低约50%的计算成本,使得128K token处理即使对于高并发应用也具有经济可行性。
扩展的上下文容量使得一些在短窗口模型中难以实现的应用成为可能:
-
代码理解:整个代码库(中型项目通常为50,000–100,000个token)可以放入单个V3.2上下文中
-
文档分析:多个完整长度的论文或报告,无需分块策略
-
多轮对话:完整历史记录保存,无需截断早期交换
成本有效的扩展
相比GPT-5,DeepSeek具有10–25倍的价格优势,使应用能够扩展到更大的用户群体或更高的单用户使用量,而无需成比例的成本增加。在当前定价下,应用可能负担每用户每天1,000次GPT-5查询,但使用DeepSeek在同等成本下可以支持每用户每天10,000–25,000次查询。
成本效率特别有利于智能体工作流,其中语言模型为单个用户请求执行多次工具调用、自我批评和迭代优化。智能体可能消耗100,000–500,000个token来处理复杂查询,包括研究、规划、执行和验证。DeepSeek的定价使得复杂的智能体系统对于主流应用在经济上变得可行。
自托管灵活性
组织可以在内部基础设施上部署V3.2,完全控制数据处理、模型行为和运营成本。自托管消除了对API提供商可靠性、速率限制或可能中断服务的策略变更的担忧。
自托管部署支持API专用服务无法实现的自定义修改:
-
在专有数据集上进行微调
-
调整输出格式以匹配内部标准
-
为专业场景修改安全过滤器
-
与内部系统紧密集成
V3.2部署的硬件需求取决于吞吐量需求和量化容忍度:
| 精度 | 内存需求 | GPU配置 |
|---|---|---|
| 完整FP16 | ~1.3TB | 8–16 H100/A100 (80GB) |
| 8位量化 | ~670GB | 4–8 H100/A100 (80GB) |
| 4位量化 | ~335GB | 2–4 H100/A100 (80GB) |
| ## ## 优势与局限性 | ||
| 了解 DeepSeek-V3.2 的性能特点有助于组织为其用例选择合适的模型。 |
DeepSeek 的优势领域
-
数学推理:96.0% AIME、99.2% HMMT,在 IMO/CMO/Putnam 上获得金牌,展现了同类最佳能力
-
代码分析和重构:70.2% SWE Multilingual 大幅超越 GPT-5 的 55.3%
-
竞技编程:2701 Codeforces 评级(大师级别,超越 99.8% 的人类)
-
成本效率:10-25 倍的价格优势使之前不切实际的用例成为可能
-
长上下文:通过稀疏注意力机制为 128K 输入降低 50% 成本
-
开放可用性:MIT 许可证支持定制化、自托管和完全数据控制
当前局限性
-
通用知识广度:在 Humanity's Last Exam 上得分 30.6%,而 Gemini 为 37.7%
-
新颖代码生成:Gemini 3 Pro 的 90.7% LiveCodeBench 超越 V3.2 的 83.3%
-
生态系统成熟度:GPT-4/5 拥有丰富的工具、框架和第三方集成
-
推理优化:更成熟的替代方案可能在初期实现更好的吞吐量
-
自托管复杂性:需要 GPU 基础设施专业知识和运营流程
用例建议
在以下场景优先选择 DeepSeek-V3.2:
-
需要高精度的数学推理应用
-
大型代码库的代码分析、重构和理解
-
成本驱动架构决策的大量 API 部署
-
具有高缓存命中率的批处理工作负载
-
通过本地部署要求数据主权的应用
-
需要广泛模型访问而不产生高昂 API 成本的研究项目
在以下情况考虑其他选择:
-
跨多个领域的广泛通用知识驱动应用质量时。
-
生态系统成熟度和广泛工具集成证明高价格合理时。
-
新颖编程挑战的最高代码生成质量比成本更重要时。
-
运营简便性和供应商支持超过成本考虑时。
-
应用需要专门的安全属性或内容过滤时。
## 竞争格局
DeepSeek-V3.2的发布通过提供开放、低成本的替代方案来替代封闭的高端服务,加剧了前沿AI市场的竞争。
DeepSeek vs. GPT-5
维度DeepSeek V3.2GPT-5
AIME 2025 96.0% 94.6%
LiveCodeBench 83.3% 84.5%
成本 便宜10-25倍 高端
可用性 开放权重,MIT 仅API
生态系统 增长中 成熟
当生态系统集成、供应商支持和操作简便性能够证明高出10-25倍的成本合理时,组织应选择GPT-5。当成本效率、定制灵活性或数据主权要求超过GPT-5的生态系统优势时,组织应选择DeepSeek-V3.2。
DeepSeek vs. Gemini 3 Pro
维度DeepSeek V3.2Gemini 3 Pro
AIME 2025 96.0% 95.0%
HMMT 2025 99.2% 97.5%
LiveCodeBench 83.3% 90.7%
Humanity's Last Exam 30.6% 37.7%
成本 便宜10-20倍 高端
强调数学正确性、技术推理或代码理解的应用与DeepSeek的优势相符,而需要广泛通用知识或前沿代码生成的应用使用Gemini可能会取得更好的结果。
DeepSeek vs. Claude 4
维度DeepSeek V3.2Claude 4.5 Sonnet
上下文窗口 128K 200K
推理能力 相当 相当
成本 便宜13-18倍 高端
对话质量 良好 针对有用性优化
优先考虑输出质量和自然对话流的组织可能更喜欢Claude在有用、无害和诚实交互方面的精心训练。优先考虑技术正确性和成本效率的组织会发现DeepSeek以显著更低的价格提供相当的推理能力。
市场定位总结
DeepSeek-V3.2在前沿AI市场中确立了价值导向的定位:以比封闭替代方案低10-25倍的成本提供具有竞争力的性能。这种定位通过迫使封闭供应商通过生态系统优势、支持质量或有意义的性能差距来证明高端定价的合理性,对整个市场造成压力。
市场似乎正朝着更大的细分化发展,封闭的高端服务在质量和易用性方面竞争,而开放的替代方案在成本和灵活性方面竞争。
## 基础设施考虑因素
有效部署DeepSeek-V3.2需要仔细考虑硬件要求、运营方法和集成模式。
部署选项
DeepSeek API 提供最直接的部署路径。组织可以通过标准REST API集成V3.2,无需管理基础设施。缺乏GPU专业知识的团队或使用量适中的组织通常会发现官方API提供了最佳的经济性和运营简便性。
自托管云部署 在控制权与托管基础设施之间取得平衡。组织可以在AWS、Google Cloud或Azure的云GPU实例上部署V3.2。云部署通常每月成本为20,000–50,000美元,在月使用量达到1,000–3,000亿个token时与DeepSeek的API相比具有成本竞争力。
本地部署 提供最大的控制权和数据主权。需要大量前期资本投资(生产就绪的GPU集群需要300,000–800,000美元)以及持续的运营成本。对于拥有现有GPU基础设施、有合规要求或使用量极高的组织而言,在经济上是合理的。
混合方法 结合多种策略——对标准流量使用API,同时为敏感数据运行本地推理。
集成模式
-
API优先集成:使用后端开发者熟悉的请求-响应模式的标准REST API
-
敏感数据本地部署:处理机密信息而无需外部API调用
-
批处理优化:构建工作负载以最大化缓存命中率
-
缓存利用策略:识别常用上下文并构建请求以利用缓存(可将成本降低50–70%)
运营专业知识
部署生产规模的GPU基础设施需要高性能计算、模型优化和推理系统调试方面的专业知识。组织必须处理驱动程序更新、热管理、硬件故障、模型量化、批处理优化和性能监控。
对于考虑大规模部署的组织,与专业基础设施提供商合作可以处理运营复杂性,同时获得自托管的成本优势。
展望未来
DeepSeek-V3.2的发布标志着AI行业发展的一个重要时刻,但技术仍在快速进步。
模型演进
DeepSeek持续优化V3.2并开发未来版本。V3展示的训练成本突破(550万美元 vs. 竞争对手的1亿美元+)表明在效率改进方面仍有巨大空间。每次效率提升都会与之前的改进叠加,可能进一步扩大DeepSeek相对于闭源竞争对手的成本优势。
社区微调很可能会产生专门针对特定领域优化的V3.2变体——医疗、法律、科学或代码库——创造出通用提供商无法提供的专家模型。
行业定价影响
DeepSeek 10-25倍的价格优势迫使闭源提供商需要证明其溢价定位的合理性或降低价格。闭源提供商可能会:
-
更明确地进行市场细分,推出高端版本与低成本版本。
-
强调定性差异化优势(生态系统、安全性、支持)
-
加速能力开发以维持性能差距。
价格压力似乎不可避免。在成本低10-25倍的可信开源替代方案存在的情况下,客户为了微小的质量改进而支付溢价的意愿发生了根本性变化。
开源进展加速
DeepSeek前沿级别的开源发布证明了开源开发在能力和效率方面都能匹敌闭源研究。这种验证鼓励了对开源AI研究的更多投资。
MIT许可证使社区贡献能够加速进展,超越DeepSeek内部开发的速度。优化的推理引擎、量化技术、微调框架和部署工具都来自分布式社区努力。
开源前沿模型还使得闭源替代方案无法实现的安全研究成为可能。科学家可以研究内部表示、彻底测试安全属性、系统性地测量偏见,以及分析失败模式,而无需依赖API访问。
对AI基础设施的影响
DeepSeek的效率突破改变了AI部署的基础设施规划。之前认为前沿AI只能通过API访问的组织,现在面临可行的自托管选择。
硬件制造商面临着对推理优化加速器不断增长的需求。随着更多组织采用自托管策略,部署生产AI基础设施所需的专业知识变得越来越有价值。
结论
DeepSeek-V3.2 以比闭源替代方案低 10-25 倍的成本提供前沿级 AI 性能,这得益于架构创新和训练效率突破的结合。该模型在数学推理基准测试中匹配或超越 GPT-5 和 Gemini 3 Pro,同时将其 API 定价削减了一个数量级,所有这些都保持在 MIT 许可证下的完全开放可用性。
关键技术成就:
-
DeepSeek 稀疏注意力用于高效长上下文处理(成本降低 50%)
-
改进的专家混合架构,具有 256 个路由专家(总计 671B,每个 token 激活 37B)
-
无辅助损失的负载均衡,纯粹针对生成质量进行优化
-
V3 使用 FP8 混合精度和新颖的并行技术,训练成本 550 万美元
性能亮点:
-
AIME 2025 96.0%(超越 GPT-5 High 的 94.6%)
-
HMMT 2025 99.2%(超越 Gemini 3 Pro 的 97.5%)
-
在 IMO、CMO 和 Putnam 竞赛中获得金牌
-
Codeforces 特级大师评级 2701
-
SWE Multilingual 70.2%(比 GPT-5 的 55.3% 高出 15 个百分点)
开放的 MIT 许可证支持自托管部署、微调和完全数据控制,这些功能是闭源替代方案无法实现的。组织可以在内部基础设施上部署 V3.2 以满足数据主权要求,针对专业领域修改模型,或通过完全访问模型内部进行安全研究。
闭源提供商面临压力,需要通过生态系统优势、卓越支持或显著的性能差距来证明其溢价定价的合理性——而所需的差异化优势必须克服 10-25 倍的成本劣势。DeepSeek-V3.2 证明了开放开发可以在能力和效率方面匹配闭源研究,验证了开放前沿 AI 的可行性,并可能加速对透明模型开发的投资。
References
DeepSeek技术文档
DeepSeek-AI. "DeepSeek-V3技术报告." arXiv:2412.19437, 2024年12月.https://arxiv.org/abs/2412.19437
DeepSeek-AI. "DeepSeek-V3.2技术报告与模型发布." DeepSeek Research, 2025.https://github.com/deepseek-ai/DeepSeek-V3
DeepSeek-AI. "DeepSeek-V3.2模型权重." Hugging Face Model Hub, 2025.https://huggingface.co/deepseek-ai/DeepSeek-V3
DeepSeek-AI. "DeepSeek平台与API文档." 访问于2025年12月1日.https://platform.deepseek.com/docs
DeepSeek-AI. "DeepSeek-V3.2-Exp和V3.2-Speciale发布公告." DeepSeek Blog, 2025年9月.https://www.deepseek.com/news
API 定价和文档
DeepSeek. "API 定价文档." 访问时间 2025年12月1日.https://platform.deepseek.com/pricing
OpenAI. "API 定价." 访问时间 2025年12月1日.https://openai.com/api/pricing
OpenAI. "OpenAI 服务条款." 访问时间 2025年12月1日.https://openai.com/policies/terms-of-use
Google Cloud. "Vertex AI 定价:Gemini 模型." 访问时间 2025年12月1日.https://cloud.google.com/vertex-ai/generative-ai/pricing
Anthropic. "API 定价." 访问时间 2025年12月1日.https://www.anthropic.com/pricing
Anthropic. "Claude API 文档." 访问时间 2025年12月1日.https://docs.anthropic.com/en/api
基准测试组织和竞赛结果
Mathematical Association of America. "American Invitational Mathematics Examination (AIME)." 访问时间:2025年12月1日。https://maa.org/math-competitions/invitational-competitions/aime
Harvard-MIT Mathematics Tournament. "About HMMT." 访问时间:2025年12月1日。https://www.hmmt.org
International Mathematical Olympiad. "About the IMO." 访问时间:2025年12月1日。https://www.imo-official.org/year_info.aspx?year=2025
中国数学奥林匹克委员会。"中国数学奥林匹克 (CMO)。" 中国数学会,2025年。
Mathematical Association of America. "William Lowell Putnam Mathematical Competition." 访问时间:2025年12月1日。https://maa.org/math-competitions/putnam-competition
Codeforces. "Competitive Programming Platform and Rating System." 访问时间:2025年12月1日。https://codeforces.com/ratings
"LiveCodeBench: Holistic and Contamination-Free Evaluation of Large Language Models for Code." 访问时间:2025年12月1日。https://livecodebench.github.io/leaderboard.html
Jimenez, Carlos E., et al. "SWE-bench: Can Language Models Resolve Real-World GitHub Issues?" 访问时间:2025年12月1日。https://www.swebench.com
Center for AI Safety. "Humanity's Last Exam: A Controversial and Adversarial Benchmark." 研究基准测试项目,2025年。
架构和训练参考文献
Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin. "Attention Is All You Need." Advances in Neural Information Processing Systems 30 (2017): 5998–6008.https://arxiv.org/abs/1706.03762
Fedus, William, Barret Zoph, and Noam Shazeer. "Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity." Journal of Machine Learning Research 23, no. 120 (2022): 1–39.https://jmlr.org/papers/v23/21-0998.html
Zoph, Barret, et al. "Designing Effective Sparse Expert Models." arXiv:2202.08906, February 2022.https://arxiv.org/abs/2202.08906
GPU基础设施和硬件
NVIDIA. "NVIDIA H100 Tensor Core GPU架构." NVIDIA数据中心文档, 2023.https://www.nvidia.com/en-us/data-center/h100
NVIDIA. "H100 Tensor Core GPU数据表." 访问于2025年12月1日.https://resources.nvidia.com/en-us-tensor-core/nvidia-tensor-core-gpu-datasheet
Amazon Web Services. "Amazon EC2 P5实例 (H100)." 访问于2025年12月1日.https://aws.amazon.com/ec2/instance-types/p5
Google Cloud. "GPU定价计算器." 访问于2025年12月1日.https://cloud.google.com/products/calculator
Microsoft Azure. "GPU优化虚拟机规格." 访问于2025年12月1日.https://azure.microsoft.com/en-us/pricing/details/virtual-machines/linux
开源许可证
开源倡议组织。"MIT许可证。"访问日期:2025年12月1日。https://opensource.org/license/mit
模型比较和行业分析
OpenAI. "介绍GPT-5:我们最强大的模型。" OpenAI研究博客, 2025年。https://openai.com/research/gpt-5
OpenAI. "GPT-5系统卡片:安全性和能力。" 访问时间2025年12月1日。https://openai.com/research/gpt-5-system-card
Google DeepMind. "Gemini 3:我们最强大的AI模型系列。" Google AI博客, 2025年。https://blog.google/technology/ai/google-gemini-ai-update
Google DeepMind. "Gemini 3技术报告。" 访问时间2025年12月1日。https://deepmind.google/technologies/gemini
Anthropic. "Claude 4.5 Sonnet:增强智能和扩展上下文。" Anthropic新闻, 2025年。https://www.anthropic.com/news/claude-4-5-sonnet
Anthropic. "Claude模型卡片:Claude 4.5 Sonnet。" 访问时间2025年12月1日。https://www.anthropic.com/claude
Meta AI. "Llama 3模型群。" arXiv:2407.21783, 2024年7月。https://arxiv.org/abs/2407.21783
行业训练成本分析
Vance, Alyssa, and Sam Manning. "Estimating Training Costs for Frontier Language Models." AI Economics Research Group, 2024. 基于已披露的GPU小时使用量、云定价数据和供应商公告的行业分析。
"Large Language Model Training Costs Database." Epoch AI Research, 2024. 访问时间:2025年12月1日。https://epochai.org/blog/training-compute-of-frontier-ai-models-grows-by-4-5x-per-year
数据来源说明
性能基准测试结果基于MAA (AIME)、HMMT Organization、国际数学奥林匹克竞赛、Codeforces以及学术研究基准测试(LiveCodeBench、SWE-bench)管理的标准化测试的官方模型评估。API定价反映截至2025年12月供应商文档中公布的费率。训练成本估算(DeepSeek V3的550万美元对比竞争前沿模型的1亿美元以上)基于DeepSeek披露的GPU小时使用量(278.8万H800小时)以及行业分析师使用云GPU定价的计算结果。技术架构规格来源于arXiv技术报告和官方模型文档。成本计算示例假设了API提供商指南和缓存行为分析中记录的典型应用工作负载模式。