TL;DR
DeepSeek V4 模型将于2026年2月中旬发布,拥有1万亿总参数、100万令牌上下文窗口,以及三项架构创新——流形约束超连接(mHC)、印迹条件记忆和稀疏注意力——这些创新可能重新定义AI经济学。内部基准声称在SWE-bench上实现80%+的性能,推理成本比西方竞争对手低10-40倍。该模型可在双RTX 4090上运行,在Apache 2.0许可下开源权重,代表了中国自原始DeepSeek冲击以来对西方AI主导地位最可信的挑战。
560万美元。
据报道,这是DeepSeek训练V3的费用——该模型在大多数基准测试中与GPT-4o和Claude 3.5 Sonnet相匹配。据报道,OpenAI训练GPT-4花费了超过1亿美元。这一差距揭示了一个重塑AI经济学的根本问题:前沿性能是否需要数十亿的计算资源,还是架构创新提供了更便宜的路径?
DeepSeek的答案将于2月中旬随V4一起到来,这是一个万亿参数模型,融合了三项架构创新,分析师称这可能在训练效率方面实现"惊人突破"。该模型专注于自主编码——不是简单的代码片段生成,而是管理整个软件仓库,在百万令牌上下文窗口中进行人类级别的推理。
对于部署GPU基础设施的数据中心运营商来说,其影响超越了基准分数。如果DeepSeek的效率优先方法成功扩展,AI部署的经济学——以及支持它所需的硬件——将面临重大颠覆。
三项架构创新
DeepSeek V4结合了三项在2025年末和2026年初研究论文中发布的突破性技术:流形约束超连接、印迹条件记忆和DeepSeek稀疏注意力。
流形约束超连接(mHC)
DeepSeek的2025年12月31日论文介绍了mHC,这是一个解决大语言模型扩展基本问题的框架。传统的超连接可以扩展残差流宽度并改善连接模式,但同时会破坏使残差网络可训练的恒等映射原则——导致数值不稳定,使大规模训练运行崩溃。
mHC解决方案使用Sinkhorn-Knopp算法将连接矩阵投影到数学流形上,将信号放大控制在1.6倍,相比未约束方法的3000倍。
| 基准测试 | 基线 | HC(未约束) | mHC | 改进 |
|---|---|---|---|---|
| BBH | 43.8 | 48.9 | 51.0 | +7.2分 |
| DROP | 62.1 | 65.4 | 67.8 | +5.7分 |
| GSM8K | 71.2 | 74.8 | 77.3 | +6.1分 |
| MMLU | 68.4 | 71.2 | 73.6 | +5.2分 |
实际结果:4倍宽的残差流仅增加6.7%的训练时间开销。由创始人梁文峰共同撰写,mHC通过绕过GPU内存约束,实现"激进的参数扩展"——在原本限制容量的硬件上训练更大的模型。
IBM首席研究科学家Kaoutar El Maghraoui强调,DeepSeek的mHC架构可能革命性地改变模型预训练:"这是更智能地扩展AI,而不仅仅是让它变得更大。"
印迹条件记忆
2026年1月13日发布的印迹技术引入了一个条件记忆模块,通过将静态模式存储与动态推理解耦,实现恒定时间的知识检索。该技术将经典的N-gram嵌入现代化,执行O(1)查找与神经主干并行。
印迹解决了DeepSeek所称的"沉默LLM浪费"——GPU周期因不需要主动推理的静态查找而损失。系统使用多头哈希通过确定性函数将压缩上下文映射到嵌入表,避免密集表的内存爆炸,同时减轻冲突。
上下文感知门控提供"条件"方面。检索到的嵌入不会盲目添加到残差流中——它们由当前隐藏状态进行门控。如果检索到的记忆与全局上下文冲突,门控会抑制噪声。
DeepSeek的关键发现:最优分配是75-80%用于计算,20-25%用于记忆。纯MoE(100%计算)被证明是次优的。
| 指标 | 不使用印迹 | 使用印迹 | 变化 |
|---|---|---|---|
| 复杂推理 | 70% | 74% | +4分 |
| 知识检索 | 57% | 61% | +4分 |
| 大海捞针 | 84.2% | 97.0% | +12.8分 |
| 训练时间影响 | 基线 | +6.7% | 最小 |
研究人员演示了将1000亿参数嵌入表卸载到系统DRAM,吞吐量损失低于3%。对于推理基础设施,这改变了硬件计算——高带宽系统内存变得与原始GPU FLOPS一样有价值。
DeepSeek稀疏注意力(DSA)
第三项创新,DeepSeek稀疏注意力,实现百万令牌上下文窗口,同时与标准Transformers相比减少50%的计算开销。
系统使用"闪电索引器"优先考虑上下文窗口中的特定摘录,然后是"细粒度令牌选择系统",从这些摘录中选择特定令牌加载到模型的有限注意力窗口中。这允许在相对较小的服务器负载下对长段上下文进行操作。
传统transformer注意力随序列长度二次方扩展——上下文长度翻倍,计算量增加四倍。DeepSeek的稀疏注意力将此减少到大约线性扩展,在"理论上可能"和"经济上可行"之间为百万令牌上下文架起桥梁。
V4模型规格
DeepSeek V4代表了稀疏架构的技术奇迹,利用1万亿总参数,同时为任何给定令牌激活约320亿参数。
| 规格 | DeepSeek V4 | GPT-5.2 | Claude Opus 4.5 |
|---|---|---|---|
| 总参数 | 1万亿 | ~2万亿(估计) | 未披露 |
| 活跃参数 | 320亿 | 全模型 | 未披露 |
| 上下文窗口 | 100万令牌 | 25.6万令牌 | 20万令牌 |
| 架构 | MoE + mHC + 印迹 | 密集Transformer | 密集Transformer |
| 训练成本 | ~1000万美元(估计) | ~5亿美元(估计) | 未披露 |
| API输入成本 | $0.27/100万令牌 | $15/100万令牌 | $15/100万令牌 |
这种"Top-16"路由MoE策略允许V4维护巨型系统的专业知识,而不会出现通常与万亿参数模型相关的严重延迟或硬件要求。实际影响:从超过一百万令牌的上下文中高效检索。
对于编码任务,这意味着V4可以摄取整个中等规模的代码库,理解数十个文件之间的导入-导出关系,并执行自主重构。早期测试者报告真正的多文件推理,模型理解组件之间的关系,跟踪依赖关系,并在大规模重构操作中保持一致性。
SWE-Bench:决定性基准测试
SWE-bench Verified衡量模型解决真实世界GitHub问题的能力——需要代码理解、调试和跨实际仓库上下文的实现。Claude Opus 4.5目前以80.9%领先。
据报道,DeepSeek的内部测试显示V4在SWE-bench Verified上超过80%,超越Claude 3.5 Sonnet和GPT-4o,特别是在极长代码提示上。这些声明仍未得到独立测试验证。
| 模型 | SWE-bench Verified | 上下文窗口 | API成本(输入) |
|---|---|---|---|
| Claude Opus 4.5 | 80.9% | 20万令牌 | $15/100万令牌 |
| GPT-5.2 | 78.2% | 25.6万令牌 | $15/100万令牌 |
| DeepSeek V4(声称) | 80%+ | 100万令牌 | $0.27/100万令牌 |
| DeepSeek V3.2 | 72.4% | 25.6万令牌 | $0.14/100万令牌 |
如果V4以声称的成本交付声称的性能,价值主张变得鲜明:推理成本低10-40倍的可比编码能力。
消费级硬件部署
与基础设施趋势显著不同的是,DeepSeek V4在消费级硬件上运行:
- 消费级层次:双RTX 4090或单RTX 5090
- 专业级层次:单工作站级GPU(RTX 6000 Ada)
- 企业级层次:标准数据中心配置
MLA压缩实现在单RTX 4090上推理(24GB GDDR6X)。通过批处理4个共享KV缓存的请求,有效内存占用降至每请求5GB以下,实现约550令牌/秒吞吐量,批大小为4。
| 硬件配置 | 模型容量 | 令牌/秒 | 所需内存 |
|---|---|---|---|
| 单RTX 4090(24GB) | V4 32B精简版 | 30-35 | 24GB显存 + 64GB内存 |
| 双RTX 4090(48GB) | V4 70B精简版 | 25-30 | 48GB显存 + 128GB内存 |
| RTX 5090(32GB) | V4 70B量化版 | 40-50 | 32GB显存 + 64GB内存 |
| 4x RTX 4090(96GB) | V4完整权重 | 15-20 | 96GB显存 + 256GB内存 |
相比之下,在本地运行GPT-4级模型通常需要成本5万美元以上的专用基础设施。V4的效率创新可能使万亿参数能力的获取民主化。
预期的32GB GDDR7的RTX 5090进一步缩小差距。虽然仍需要为完整模型卸载,但更快的内存带宽和Blackwell架构应该能在单消费级显卡上实现近实时推理。
开源策略
DeepSeek已在Apache 2.0许可下开源V4权重,延续其公开发布前沿能力的策略。这与西方竞争对手形成鲜明对比——GPT-5、Claude Opus和Gemini仍然是闭源的。
| 模型 | 权重可用 | 许可证 | 自托管 |
|---|---|---|---|
| DeepSeek V4 | 是 | Apache 2.0 | 完全支持 |
| GPT-5.2 | 否 | 专有 | 仅API |
| Claude Opus 4.5 | 否 | 专有 | 仅API |
| Gemini Ultra | 否 | 专有 | 仅API |
| Llama 4 | 是 | 自定义许可 | 受限商业 |
开放权重改变了部署经济学:
- 本地部署:空气隔离环境,数据主权合规
- 量化:在消费级硬件上运行降低精度版本
- 微调:针对特定企业需求的自定义模型
- 成本优化:避免高容量应用的按令牌收费
有严格数据治理的组织可以完全在其基础设施内运行V4。对于金融、医疗和国防等行业,这消除了向外部API发送专有代码的担忧。
API定价颠覆
DeepSeek的定价已经大幅削弱竞争对手。当前V3定价:每百万输入令牌0.27美元,而GPT-4.5和Claude Opus约为15美元/百万。
| 提供商 | 模型 | 输入(每100万) | 输出(每100万) | 上下文 |
|---|---|---|---|---|
| DeepSeek | V4 | $0.27 | $1.10 | 100万令牌 |
| DeepSeek | V3.2 | $0.14 | $0.55 | 25.6万令牌 |
| OpenAI | GPT-5.2 | $15.00 | $60.00 | 25.6万令牌 |
| Anthropic | Opus 4.5 | $15.00 | $75.00 | 20万令牌 |
| Gemini Pro | $3.50 | $10.50 | 12.8万令牌 |
一个实际例子:10万令牌上下文在GPT-4上成本5.50美元,在DeepSeek V3.2-Exp上为0.90美元。V4在0.27美元/百万输入令牌的百万令牌上下文使以前不可能的用例在经济上变得可行。
一项成本分析显示,使用DeepSeek进行提取加Claude进行审计的混合方法与纯GPT-5相比减少了72%的API支出,同时提高了12%的事实准确性。
训练基础设施现实检查
尽管有效率声明,DeepSeek的训练基础设施仍然很庞大。据报道,该公司在5万个Hopper系列GPU上训练了R1——3万个HGX H20单元、1万个H800和1万个H100——通过投资方高瓴资本管理供应。
中国当局敦促DeepSeek使用华为昇腾硬件进行R2训练。此举遇到了性能不稳定、芯片间连接性较慢以及华为CANN软件工具包的限制。尽管华为派工程师现场部署,DeepSeek无法完成成功的训练运行。
结果:DeepSeek恢复使用NVIDIA加速器进行R2训练,同时保留华为硬件进行推理。这既揭示了中国国产芯片的当前限制,也显示了DeepSeek的实用方法——无论政治压力如何,他们都会使用任何有效的东西。
华为CEO任正非承认"美国夸大了华为的成就",他们最好的芯片仍然落后一代。然而,业界观察者预计到2026年底会有一些大语言模型在中国芯片上训练,这一趋势在2027年会变得更加明显。
地缘政治影响
DeepSeek的迅速崛起标志着全球AI竞争的重大转变。该公司R1的发布引发了1万亿美元的科技股抛售,时间为2025年1月27日——包括仅NVIDIA就损失6000亿美元。
特朗普总统称其为美国公司的"警钟"。云提供商如Alphabet、Microsoft和Amazon——后两者在OpenAI和Anthropic投资巨大——现在面临定价危机。
区域采用模式出现了明显分化:
| 地区 | 采用水平 | 主要驱动因素 |
|---|---|---|
| 中国 | 89%市场份额 | 成本、性能、本地开发 |
| 全球南方 | 高/增长中 | 开源、低计算要求 |
| 西方企业 | 低/中等 | 成本节约、本地部署 |
| 西方政府 | 被禁止 | 安全担忧、数据主权 |
自2025年8月以来,中国AI模型的累计开源下载量已超过西方竞争对手——标志着全球AI使用模式的重大转变。在中国,据报道DeepSeek在AI用户中占据近89%的市场份额。
西方政府采用仍然很少。澳大利亚和盟国已禁止DeepSeek在官方设备上使用,高达70%的澳大利亚企业由于数据安全担忧而主动阻止访问。
竞争响应
西方竞争对手已调整定价和产品以应对DeepSeek压力:
- Google:在2024年和2025年全年降低Gemini API成本
- OpenAI:降低费率并在2026年1月发布o3-mini以在效率上竞争
- Anthropic:维持定价但强调针对受监管行业的可验证安全堆栈
有一个隐藏的成本考虑:验证开销。使用便宜模型通常需要在昂贵模型上花费令牌来验证输出。审计显示,"便宜模型+高端审计员"设置对于中等复杂度任务可能比仅使用GPT-5成本高15%。
对于受监管行业的企业,Claude的可验证安全堆栈提供审计跟踪,证明高级定价的合理性。欧盟AI法案的执行使合规文档与原始性能一样有价值。
基础设施影响
DeepSeek的效率创新并未使当前GPU需求无效。超大规模资本支出继续增长,2026年预计超过6000亿美元。但支出的构成——建设什么以及如何使用——可能会发生转变。
印迹的上下文处理方法强调内存层次结构而非原始计算。未来的训练基础设施可能会优先考虑高带宽内存和高效缓存而非峰值FLOPS。
对于数据中心运营商,出现了几个趋势:
- 内存带宽变得关键:印迹的DRAM卸载技术将工作负载从GPU内存转移到系统RAM
- 推理基础设施多样化:消费级部署实现边缘和本地安装
- 训练保持集中化:尽管有效率提升,前沿模型训练仍需要大规模GPU集群
- 混合架构获得牵引力:DeepSeek提取+西方模型验证在保持合规的同时降低成本
关键要点
对于AI基础设施团队:
- DeepSeek V4的消费级硬件部署(双RTX 4090)改变了本地AI经济学
- 印迹的内存架构将硬件优先级转向高带宽DRAM
- 开放权重实现微调和部署,无需API依赖
对于企业决策者:
- 10-40倍的成本降低使以前不经济的AI应用变得可行
- 安全担忧需要关于中国模型使用的明确政策
- 混合部署(DeepSeek提取+西方验证)提供成本-性能平衡
对于数据中心运营商:
- 百万令牌上下文改变工作负载配置文件和内存要求
- 消费级GPU部署创造对更小、分布式推理基础设施的需求
- 效率提升不会消除需求——它们扩大了经济可行性
关于Introl
Introl为AI数据中心提供专业GPU基础设施部署。Introl在全球257个地点拥有550名HPC专业现场工程师,已部署超过10万个GPU——支持从超大规模训练集群到边缘推理基础设施的各种需求。无论组织部署DeepSeek、专有模型还是混合架构,Introl的专业知识确保可靠、高性能的AI基础设施。