GPT-5.2：首个ARC-AGI超90%的模型改变推理数学

OpenAI的GPT-5.2达到93.2% GPQA Diamond、100% AIME、70.9% GDPval。40万token上下文窗口推动新的推理基础设施需求。

Blake Crosley

Jan 02, 2026 1 min read Disclaimer

GPT-5.2：首个ARC-AGI超90%的模型改变推理数学

2026年1月1日

2026年1月更新： OpenAI于2025年12月11日发布GPT-5.2，取得了重新定义专业知识工作可能性的基准分数。该模型在70.9%的GDPval任务上以11倍速度和<1%成本击败人类专家。

摘要

GPT-5.2跨越关键能力门槛：ARC-AGI-1上首个超过90%的模型、AIME 2025完美100%、FrontierMath 40.3%（比5.1提高10%）。40万token上下文窗口和12.8万输出token创造新的基础设施需求。对于推理提供商，1.4倍的价格上涨标志着OpenAI的信心——以及服务这些能力所需的计算强度。

发生了什么

OpenAI于2025年12月11日推出GPT-5.2，距离据称因Google Gemini 3的基准优势而宣布"红色警报"仅11天。¹

发布包含两个变体：

变体	用例	定价（每百万token）
GPT-5.2	通用	1.75美元输入 / 14美元输出
GPT-5.2 Pro	扩展推理	更高（xhigh推理层级）

关键规格：²

上下文窗口： 40万token
最大输出： 12.8万token
知识截止日期： 2025年8月31日（从2024年9月更新）
定价： GPT-5.1成本的1.4倍

GPT-5.2基于Azure基础设施构建，使用NVIDIA H100、H200和GB200-NVL72 GPU。³

基准性能

GPT-5.2在专业、科学和数学基准上创下新纪录：⁴

基准	GPT-5.2分数	之前最佳	提升
GPQA Diamond（博士科学）	93.2%	91.9%（Gemini 3）	+1.3%
ARC-AGI-1验证	>90%	~85%	首个超过90%
AIME 2025（数学）	100%	96.7%（Gemini 3）	满分
FrontierMath T1-3	40.3%	30%（GPT-5.1）	+10%
GDPval（知识工作）	70.9%	—	击败专家
SWE-Bench Pro（编程）	55.6%	51%（GPT-5.1）	+4.6%
Tau2 Telecom（工具使用）	98.7%	~95%	近乎完美

GDPval结果值得关注：GPT-5.2 Thinking以>11倍速度和<1%成本产出结果，对比44个职业的人类专业人士。⁵

为什么重要

推理需求激增

40万token上下文窗口需要每个请求大量内存。一次使用完整上下文的推理消耗的GPU内存远超之前的12.8万模型。提供商必须规划：⁶

内存扩展： 每请求3倍+内存，相比12.8万上下文
批量大小减少： 每GPU更少并发请求
KV缓存增长： 上下文长度 × 批量大小 = 大规模KV缓存需求

成本结构转变

相比GPT-5.1的1.4倍价格上涨反映了真实的计算强度：⁷

模型	输入成本	输出成本	与5.1比率
GPT-5.1	1.25美元/M	10美元/M	1.0x
GPT-5.2	1.75美元/M	14美元/M	1.4x

对于高容量推理操作，这意味着等效工作负载TCO增加40%。

专业工作自动化

GPT-5.2的GDPval表现——以<1%成本在70.9%任务上击败专家——创造了企业部署的即时需求。寻求这些能力的组织需要能够处理以下内容的推理基础设施：⁸

扩展推理链（Pro变体）
长上下文文档处理
可靠的工具调用（98.7% Tau2）

技术细节

架构

OpenAI未披露具体架构变化，但基准模式表明：⁹

增强的推理能力（FrontierMath +10%）
改进的长上下文准确性（25.6万token检索）
更好的工具使用可靠性（Tau2 98.7%）

推理需求

大规模服务GPT-5.2需要考虑：¹⁰

因素	GPT-5.1	GPT-5.2	影响
上下文窗口	20万	40万	每请求2倍内存
最大输出	6.4万	12.8万	2倍生成时间
推理深度	标准	扩展（Pro）	可变延迟
工具调用	95%	98.7%	更复杂的编排

竞争背景

GPT-5.2从Gemini 3夺回一些基准但非全部：¹¹

基准	领先者	分数
GPQA Diamond	Gemini 3 Deep Think	93.8%
AIME 2025	GPT-5.2 Thinking	100%
SWE-bench Verified	Gemini 3 Pro	76.2%
Humanity's Last Exam	Gemini 3	领先
GDPval	GPT-5.2 Thinking	70.9%

快速发布节奏——GPT-5.2仅在Gemini 3后11天——展示了两家公司面临的推理基础设施压力。

接下来

近期（2026年第一季度）

GPT-5.2 Mini可能即将推出（发布时无Mini变体）
企业API推广扩展
第三方推理提供商增加支持

基础设施影响

规划GPT-5.2部署的组织应该：¹²

评估内存容量： 40万上下文需要3倍+内存，相比12.8万模型
规划KV缓存： CXL内存扩展日益相关
计算预算： 1.4倍成本增加是真实的
考虑混合方法： 将简单任务路由到更便宜的模型

如需支持前沿模型的推理基础设施部署，请联系Introl。

参考文献

FlowHunt. "GPT 5.2 Launch and the AI Model Revolution." 2025年12月. https://www.flowhunt.io/blog/gpt-5-2-launch-ai-breakthroughs/ ↩
LLM Stats. "GPT-5.2: Pricing, Context Window, Benchmarks." 2025年12月. https://llm-stats.com/models/gpt-5.2-2025-12-11 ↩
OpenAI. "Introducing GPT-5.2." 2025年12月11日. https://openai.com/index/introducing-gpt-5-2/ ↩
DataCamp. "GPT 5.2: Benchmarks, Model Breakdown, and Real-World Performance." 2025年12月. https://www.datacamp.com/blog/gpt-5-2 ↩
Vellum. "GPT-5.2 Benchmarks (Explained)." 2025年12月. https://www.vellum.ai/blog/gpt-5-2-benchmarks ↩
Galaxy.ai. "GPT 5.2 Model Specs, Costs & Benchmarks." 2025年12月. https://blog.galaxy.ai/model/gpt-5-2 ↩
Simon Willison. "GPT-5.2." 2025年12月11日. https://simonwillison.net/2025/Dec/11/gpt-52/ ↩
OpenAI. "GPT-5.2 System Card." 2025年12月. https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf ↩
OpenAI. "Introducing GPT-5.2-Codex." 2025年12月. https://openai.com/index/introducing-gpt-5-2-codex/ ↩
IntuitionLabs. "Latest AI Research (Dec 2025): GPT-5, Agents & Trends." 2025年12月. https://intuitionlabs.ai/articles/latest-ai-research-trends-2025 ↩
LM Council. "AI Model Benchmarks Dec 2025." 2025年12月. https://lmcouncil.ai/benchmarks ↩
Vertu. "AI Model Releases Nov/Dec 2025: Benchmarks & Comparison." 2025年12月. https://vertu.com/lifestyle/the-ai-model-race-reaches-singularity-speed/ ↩

GPT-5.2：首个ARC-AGI超90%的模型改变推理数学

摘要

发生了什么

基准性能

为什么重要

推理需求激增

成本结构转变

专业工作自动化

技术细节

架构

推理需求

竞争背景

接下来

近期（2026年第一季度）

基础设施影响

参考文献

You Might Also Like

超大规模云服务商资本支出在2026年达到6000亿美元：AI基础设施债务浪潮

微软600亿美元新云赌注：在AI产能危机中争取时间

DeepSeek V3.2在顶级基准测试中击败GPT-5：中国人工智能崛起对基础设施意味着什么

申请报价_

请求已收到_