GPT-5.2:首个ARC-AGI超90%的模型改变推理数学
2026年1月1日
2026年1月更新: OpenAI于2025年12月11日发布GPT-5.2,取得了重新定义专业知识工作可能性的基准分数。该模型在70.9%的GDPval任务上以11倍速度和<1%成本击败人类专家。
摘要
GPT-5.2跨越关键能力门槛:ARC-AGI-1上首个超过90%的模型、AIME 2025完美100%、FrontierMath 40.3%(比5.1提高10%)。40万token上下文窗口和12.8万输出token创造新的基础设施需求。对于推理提供商,1.4倍的价格上涨标志着OpenAI的信心——以及服务这些能力所需的计算强度。
发生了什么
OpenAI于2025年12月11日推出GPT-5.2,距离据称因Google Gemini 3的基准优势而宣布"红色警报"仅11天。1
发布包含两个变体:
| 变体 | 用例 | 定价(每百万token) |
|---|---|---|
| GPT-5.2 | 通用 | 1.75美元输入 / 14美元输出 |
| GPT-5.2 Pro | 扩展推理 | 更高(xhigh推理层级) |
关键规格:2
- 上下文窗口: 40万token
- 最大输出: 12.8万token
- 知识截止日期: 2025年8月31日(从2024年9月更新)
- 定价: GPT-5.1成本的1.4倍
GPT-5.2基于Azure基础设施构建,使用NVIDIA H100、H200和GB200-NVL72 GPU。3
基准性能
GPT-5.2在专业、科学和数学基准上创下新纪录:4
| 基准 | GPT-5.2分数 | 之前最佳 | 提升 |
|---|---|---|---|
| GPQA Diamond(博士科学) | 93.2% | 91.9%(Gemini 3) | +1.3% |
| ARC-AGI-1验证 | >90% | ~85% | 首个超过90% |
| AIME 2025(数学) | 100% | 96.7%(Gemini 3) | 满分 |
| FrontierMath T1-3 | 40.3% | 30%(GPT-5.1) | +10% |
| GDPval(知识工作) | 70.9% | — | 击败专家 |
| SWE-Bench Pro(编程) | 55.6% | 51%(GPT-5.1) | +4.6% |
| Tau2 Telecom(工具使用) | 98.7% | ~95% | 近乎完美 |
GDPval结果值得关注:GPT-5.2 Thinking以>11倍速度和<1%成本产出结果,对比44个职业的人类专业人士。5
为什么重要
推理需求激增
40万token上下文窗口需要每个请求大量内存。一次使用完整上下文的推理消耗的GPU内存远超之前的12.8万模型。提供商必须规划:6
- 内存扩展: 每请求3倍+内存,相比12.8万上下文
- 批量大小减少: 每GPU更少并发请求
- KV缓存增长: 上下文长度 × 批量大小 = 大规模KV缓存需求
成本结构转变
相比GPT-5.1的1.4倍价格上涨反映了真实的计算强度:7
| 模型 | 输入成本 | 输出成本 | 与5.1比率 |
|---|---|---|---|
| GPT-5.1 | 1.25美元/M | 10美元/M | 1.0x |
| GPT-5.2 | 1.75美元/M | 14美元/M | 1.4x |
对于高容量推理操作,这意味着等效工作负载TCO增加40%。
专业工作自动化
GPT-5.2的GDPval表现——以<1%成本在70.9%任务上击败专家——创造了企业部署的即时需求。寻求这些能力的组织需要能够处理以下内容的推理基础设施:8
- 扩展推理链(Pro变体)
- 长上下文文档处理
- 可靠的工具调用(98.7% Tau2)
技术细节
架构
OpenAI未披露具体架构变化,但基准模式表明:9
- 增强的推理能力(FrontierMath +10%)
- 改进的长上下文准确性(25.6万token检索)
- 更好的工具使用可靠性(Tau2 98.7%)
推理需求
大规模服务GPT-5.2需要考虑:10
| 因素 | GPT-5.1 | GPT-5.2 | 影响 |
|---|---|---|---|
| 上下文窗口 | 20万 | 40万 | 每请求2倍内存 |
| 最大输出 | 6.4万 | 12.8万 | 2倍生成时间 |
| 推理深度 | 标准 | 扩展(Pro) | 可变延迟 |
| 工具调用 | 95% | 98.7% | 更复杂的编排 |
竞争背景
GPT-5.2从Gemini 3夺回一些基准但非全部:11
| 基准 | 领先者 | 分数 |
|---|---|---|
| GPQA Diamond | Gemini 3 Deep Think | 93.8% |
| AIME 2025 | GPT-5.2 Thinking | 100% |
| SWE-bench Verified | Gemini 3 Pro | 76.2% |
| Humanity's Last Exam | Gemini 3 | 领先 |
| GDPval | GPT-5.2 Thinking | 70.9% |
快速发布节奏——GPT-5.2仅在Gemini 3后11天——展示了两家公司面临的推理基础设施压力。
接下来
近期(2026年第一季度)
- GPT-5.2 Mini可能即将推出(发布时无Mini变体)
- 企业API推广扩展
- 第三方推理提供商增加支持
基础设施影响
规划GPT-5.2部署的组织应该:12
- 评估内存容量: 40万上下文需要3倍+内存,相比12.8万模型
- 规划KV缓存: CXL内存扩展日益相关
- 计算预算: 1.4倍成本增加是真实的
- 考虑混合方法: 将简单任务路由到更便宜的模型
如需支持前沿模型的推理基础设施部署,请联系Introl。
参考文献
-
FlowHunt. "GPT 5.2 Launch and the AI Model Revolution." 2025年12月. https://www.flowhunt.io/blog/gpt-5-2-launch-ai-breakthroughs/ ↩
-
LLM Stats. "GPT-5.2: Pricing, Context Window, Benchmarks." 2025年12月. https://llm-stats.com/models/gpt-5.2-2025-12-11 ↩
-
OpenAI. "Introducing GPT-5.2." 2025年12月11日. https://openai.com/index/introducing-gpt-5-2/ ↩
-
DataCamp. "GPT 5.2: Benchmarks, Model Breakdown, and Real-World Performance." 2025年12月. https://www.datacamp.com/blog/gpt-5-2 ↩
-
Vellum. "GPT-5.2 Benchmarks (Explained)." 2025年12月. https://www.vellum.ai/blog/gpt-5-2-benchmarks ↩
-
Galaxy.ai. "GPT 5.2 Model Specs, Costs & Benchmarks." 2025年12月. https://blog.galaxy.ai/model/gpt-5-2 ↩
-
Simon Willison. "GPT-5.2." 2025年12月11日. https://simonwillison.net/2025/Dec/11/gpt-52/ ↩
-
OpenAI. "GPT-5.2 System Card." 2025年12月. https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf ↩
-
OpenAI. "Introducing GPT-5.2-Codex." 2025年12月. https://openai.com/index/introducing-gpt-5-2-codex/ ↩
-
IntuitionLabs. "Latest AI Research (Dec 2025): GPT-5, Agents & Trends." 2025年12月. https://intuitionlabs.ai/articles/latest-ai-research-trends-2025 ↩
-
LM Council. "AI Model Benchmarks Dec 2025." 2025年12月. https://lmcouncil.ai/benchmarks ↩
-
Vertu. "AI Model Releases Nov/Dec 2025: Benchmarks & Comparison." 2025年12月. https://vertu.com/lifestyle/the-ai-model-race-reaches-singularity-speed/ ↩