开源AI模型缩小差距：DeepSeek、Qwen3和Llama 4现已比肩GPT-5

开源与闭源AI模型之间的性能差距已缩小至0.3%。这对企业AI基础设施意味着什么。

Blake Crosley

Dec 18, 2025 1 min read Disclaimer

开源AI模型缩小差距：DeepSeek、Qwen3和Llama 4现已比肩GPT-5

要点速览

2025年，开源与专有AI模型之间的性能差距在关键基准测试上从17.5个百分点骤降至仅0.3%。DeepSeek V3.2、Qwen3-235B和Llama 4 Scout现已能以极低成本媲美GPT-5.2和Claude Opus 4.5——且支持完全自托管。对于正在权衡API依赖与基础设施投资的企业而言，决策逻辑已发生根本性转变。

事件背景

2025年12月标志着AI模型格局的转折点。开源大语言模型已实现与最强专有系统的近乎对等，终结了闭源模型长达数年的主导地位。

数据说明一切。对94个领先LLM的分析显示，开源模型在MMLU基准上与专有系统的差距已缩小至0.3个百分点——而一年前这一差距还高达17.5个百分点。在由500万+用户投票驱动的人类偏好排行榜Chatbot Arena上，开放权重模型在2024年1月至2025年2月间将差距从8%缩小到1.7%。这一差距仍在持续缩小。

三大模型系列引领着开源浪潮：

DeepSeek V3.2 于2025年12月1日发布，在多项推理基准测试中达到了与GPT-5相当的水平。这家中国实验室采用的混合专家（Mixture-of-Experts）架构每个token仅激活其671B参数中的37B，以平民化成本实现了前沿性能。

Qwen3-235B-A22B 来自阿里巴巴，在大多数公开基准测试中达到或超越GPT-4o，同时仅激活其235B参数中的22B。其2025年7月的思维更新在开源推理模型中取得了最先进的成果。

Llama 4 Scout 来自Meta，提供1000万token的上下文窗口——足以在单次会话中处理7500页内容——同时通过INT4量化可在单张H100 GPU上运行。

按模型数量计算，开源模型现已占据62.8%的市场份额。这一转变来得很快。两年前，专有模型还占据主导地位。

重要意义

对于构建AI基础设施的企业而言，这种趋同正在重塑自建与外购的决策考量。

成本格局已经逆转。 DeepSeek V3.2的成本为每百万输入token 0.26美元——大约是GPT-5.2 Pro的十分之一。Mistral Medium 3以每百万token 0.40美元的价格达到Claude Sonnet 3.7 90%的性能，比GPT-4便宜8倍。组织报告称，与纯专有策略相比，开源方案的投资回报率高出25%。

数据掌控成为可能。 自托管使敏感信息完全保留在组织基础设施内部。医疗公司可以在本地运行患者数据查询，无需担心外部传输带来的HIPAA违规风险。金融机构可以完全控制交易算法和客户数据。

部署灵活性大幅提升。 Mistral Medium 3仅需4张GPU即可运行。Llama 4 Scout可在单张H100上部署。这些模型可以部署在混合环境、本地数据中心或边缘位置——这在仅提供API的专有服务中是不可能的。

厂商锁定被打破。 当提供商停用旧版本时，自托管模型不会过时。组织可以控制升级时间表、保持模型一致性，并避免使PPA市场日益有利于卖方的按用量定价波动。

技术细节

模型规格

模型	总参数量	激活参数量	上下文长度	输入成本/百万token	输出成本/百万token
DeepSeek V3.2	671B	37B	128K	$0.26	$0.39
Qwen3-235B	235B	22B	256K	$0.20	$1.20
Llama 4 Scout	109B	17B	10M	$0.08	$0.30
Mistral Medium 3	—	—	131K	$0.40	$2.00
Mistral Large 3	675B	41B	256K	—	—

基准性能

编程： DeepSeek V3.2在长尾智能体任务上展现出卓越的能力，将思维直接整合到工具使用中。Qwen3-235B在LiveCodeBench v6上达到74.8分。Llama 4 Scout在LiveCodeBench上达到38.1%，超越了GPT-4o的32.3%。

推理： Qwen3-235B在AIME'24上得分85.7，AIME'25上得分81.5。在思维模式下，AIME25得分可达92.3。DeepSeek V3.2-Speciale达到了与Gemini-3.0-Pro相当的水平，并在IOI 2025、ICPC World Final 2025、IMO 2025和CMO 2025中取得金牌级表现。

长上下文： Llama 4 Scout的1000万token上下文窗口使其能够在单次会话中处理完整的法律文件、研究论文集或软件代码库。

架构创新

DeepSeek V3.2引入了DeepSeek稀疏注意力（DSA），实现了细粒度稀疏注意力，在保持模型输出质量的同时大幅提升了长上下文效率。

DeepSeek V3.1的混合思维模式通过聊天模板更改在链式思维推理和直接回答之间切换——一个模型同时覆盖通用和推理密集型用例。

Mistral 3的Ministral系列提供9个稠密模型，参数规模横跨3B、8B和14B，每个规模都有Base、Instruct和Reasoning三种变体。14B推理模型在AIME 2025上达到85%，可在单张GPU上运行。

自托管要求

模型	最低硬件要求	推荐配置
DeepSeek V3.2	8x H100 80GB	16x H100
Qwen3-235B	8x H100 80GB	8x H200
Llama 4 Scout	1x H100 (INT4)	2x H100
Mistral Medium 3	4x GPU	8x A100/H100
Ministral 3 14B	1x 消费级GPU	1x A100

OpenLLM等工具支持通过单条命令将任何开源模型作为OpenAI兼容API端点运行。Ray Serve和Hugging Face TGI简化了Kubernetes部署。

未来展望

开源的发展势头丝毫没有减缓的迹象。DeepSeek的训练效率——每万亿token仅需18万H800 GPU小时——预示着快速迭代将继续。Qwen3 2025年7月的思维更新表明后训练改进仍在持续扩展。

预计2026年第一季度将带来： - 上下文窗口进一步扩展，超越Llama 4 Scout的1000万token - 随着工具使用的成熟，智能体能力将得到改善 - 更小、更高效的模型达到当前前沿性能

对于仍在评估纯API策略的组织而言，专有锁定的窗口正在关闭。随着89%的组织现已使用开源AI，问题已从"是否采用"转变为"选择哪些模型以及多快部署"。

Introl视角

自托管前沿级开源模型需要大量GPU基础设施、高效冷却系统和运维专业知识。Introl的550名HPC专业现场工程师负责部署和维护这些模型所需的加速器集群。了解更多关于我们的服务覆盖区域。

发布日期：2025年12月18日

开源AI模型缩小差距：DeepSeek、Qwen3和Llama 4现已比肩GPT-5

要点速览

事件背景

重要意义

技术细节

模型规格

基准性能

架构创新

自托管要求

未来展望

Introl视角

You Might Also Like

数据中心AIOps：使用大语言模型管理AI基础设施

AI 推理的负载均衡：在 1000+ GPU 上分发请求

面向AI的分解式计算：可组合基础设施架构

申请报价_

请求已收到_