GPT-5.2:ARC-AGI 90%超えの初モデルが推論の計算を変える
2026年1月1日
2026年1月アップデート: OpenAIは2025年12月11日にGPT-5.2をリリースし、プロフェッショナルな知識作業で可能なことを再定義するベンチマークスコアを達成しました。このモデルは、GDPvalタスクの70.9%で人間の専門家を11倍のスピードと1%未満のコストで上回ります。
概要
GPT-5.2は重要な能力の閾値を超えました:ARC-AGI-1で90%を超える初のモデル、AIME 2025で完璧な100%、FrontierMathで40.3%(5.1から10%向上)。40万トークンのコンテキストウィンドウと12.8万の出力トークンが新たなインフラ需要を生み出します。推論プロバイダーにとって、1.4倍の価格上昇はOpenAIの自信と、これらの能力を提供するために必要な計算強度を示しています。
何が起きたか
OpenAIは2025年12月11日にGPT-5.2をローンチしました。これはGoogle Gemini 3のベンチマーク優位性に対応して「コードレッド」を宣言したとされる11日後のことです。1
リリースには2つのバリアントが含まれます:
| バリアント | ユースケース | 価格(100万トークンあたり) |
|---|---|---|
| GPT-5.2 | 一般用途 | $1.75入力 / $14出力 |
| GPT-5.2 Pro | 拡張推論 | より高い(xhigh推論ティア) |
主な仕様:2
- コンテキストウィンドウ: 40万トークン
- 最大出力: 12.8万トークン
- 知識カットオフ: 2025年8月31日(2024年9月から更新)
- 価格: GPT-5.1の1.4倍
GPT-5.2はNVIDIA H100、H200、GB200-NVL72 GPUを使用してAzureインフラ上に構築されました。3
ベンチマーク性能
GPT-5.2はプロフェッショナル、科学、数学のベンチマークで新記録を樹立:4
| ベンチマーク | GPT-5.2スコア | 以前の最高 | 改善 |
|---|---|---|---|
| GPQA Diamond(博士レベル科学) | 93.2% | 91.9%(Gemini 3) | +1.3% |
| ARC-AGI-1検証済み | >90% | ~85% | 90%超え初 |
| AIME 2025(数学) | 100% | 96.7%(Gemini 3) | 満点 |
| FrontierMath T1-3 | 40.3% | 30%(GPT-5.1) | +10% |
| GDPval(知識作業) | 70.9% | — | 専門家を上回る |
| SWE-Bench Pro(コーディング) | 55.6% | 51%(GPT-5.1) | +4.6% |
| Tau2 Telecom(ツール使用) | 98.7% | ~95% | ほぼ完璧 |
GDPvalの結果は注目に値します:GPT-5.2 Thinkingは、44の職業の人間専門家と比較して11倍以上のスピードと1%未満のコストで出力を生成しました。5
なぜ重要か
推論需要の急増
40万トークンのコンテキストウィンドウは、リクエストごとに相当なメモリを必要とします。フルコンテキストでの単一推論は、以前の12.8万モデルよりも大幅に多くのGPUメモリを消費します。プロバイダーは以下を計画する必要があります:6
- メモリスケーリング: 12.8万コンテキストと比較してリクエストあたり3倍以上のメモリ
- バッチサイズ削減: GPUあたりの同時リクエスト数の減少
- KVキャッシュ増大: コンテキスト長 × バッチサイズ = 大規模なKVキャッシュ要件
コスト構造の変化
GPT-5.1からの1.4倍の価格上昇は、実際の計算強度を反映しています:7
| モデル | 入力コスト | 出力コスト | 5.1との比率 |
|---|---|---|---|
| GPT-5.1 | $1.25/M | $10/M | 1.0x |
| GPT-5.2 | $1.75/M | $14/M | 1.4x |
大量推論オペレーションにとって、これは同等のワークロードに対するTCOの40%増加を意味します。
プロフェッショナルワークの自動化
GPT-5.2のGDPval性能(タスクの70.9%で専門家を1%未満のコストで上回る)は、エンタープライズ展開への即時需要を生み出します。これらの能力を求める組織は、以下を処理できる推論インフラを必要とします:8
- 拡張推論チェーン(Proバリアント)
- 長いコンテキストのドキュメント処理
- 信頼性の高いツール呼び出し(98.7% Tau2)
技術詳細
アーキテクチャ
OpenAIは具体的なアーキテクチャ変更を開示していませんが、ベンチマークパターンは以下を示唆しています:9
- 強化された推論能力(FrontierMath +10%)
- 改善されたロングコンテキスト精度(25.6万トークン検索)
- より良いツール使用信頼性(Tau2 98.7%)
推論要件
GPT-5.2を大規模に提供するには、以下の考慮が必要です:10
| 要因 | GPT-5.1 | GPT-5.2 | 影響 |
|---|---|---|---|
| コンテキストウィンドウ | 20万 | 40万 | リクエストあたり2倍のメモリ |
| 最大出力 | 6.4万 | 12.8万 | 2倍の生成時間 |
| 推論深度 | 標準 | 拡張(Pro) | 可変レイテンシ |
| ツール呼び出し | 95% | 98.7% | より複雑なオーケストレーション |
競争環境
GPT-5.2はGemini 3から一部のベンチマークを奪還しましたが、すべてではありません:11
| ベンチマーク | リーダー | スコア |
|---|---|---|
| GPQA Diamond | Gemini 3 Deep Think | 93.8% |
| AIME 2025 | GPT-5.2 Thinking | 100% |
| SWE-bench Verified | Gemini 3 Pro | 76.2% |
| Humanity's Last Exam | Gemini 3 | リード |
| GDPval | GPT-5.2 Thinking | 70.9% |
Gemini 3のわずか11日後にGPT-5.2がリリースされた急速なリリースケイデンスは、両社が直面する推論インフラのプレッシャーを示しています。
次のステップ
短期(2026年Q1)
- GPT-5.2 Miniが近日登場の可能性(ローンチ時にMiniバリアントなし)
- エンタープライズAPIロールアウトの拡大
- サードパーティ推論プロバイダーがサポートを追加
インフラへの影響
GPT-5.2展開を計画する組織は:12
- メモリ容量を評価: 40万コンテキストは12.8万モデルと比較して3倍以上のメモリが必要
- KVキャッシュを計画: CXLメモリ拡張がますます重要に
- 計算予算を確保: 1.4倍のコスト増加は現実
- ハイブリッドアプローチを検討: シンプルなタスクを安価なモデルにルーティング
フロンティアモデルをサポートする推論インフラ展開については、Introlにお問い合わせください。
参考文献
-
FlowHunt. "GPT 5.2 Launch and the AI Model Revolution." 2025年12月. https://www.flowhunt.io/blog/gpt-5-2-launch-ai-breakthroughs/ ↩
-
LLM Stats. "GPT-5.2: Pricing, Context Window, Benchmarks." 2025年12月. https://llm-stats.com/models/gpt-5.2-2025-12-11 ↩
-
OpenAI. "Introducing GPT-5.2." 2025年12月11日. https://openai.com/index/introducing-gpt-5-2/ ↩
-
DataCamp. "GPT 5.2: Benchmarks, Model Breakdown, and Real-World Performance." 2025年12月. https://www.datacamp.com/blog/gpt-5-2 ↩
-
Vellum. "GPT-5.2 Benchmarks (Explained)." 2025年12月. https://www.vellum.ai/blog/gpt-5-2-benchmarks ↩
-
Galaxy.ai. "GPT 5.2 Model Specs, Costs & Benchmarks." 2025年12月. https://blog.galaxy.ai/model/gpt-5-2 ↩
-
Simon Willison. "GPT-5.2." 2025年12月11日. https://simonwillison.net/2025/Dec/11/gpt-52/ ↩
-
OpenAI. "GPT-5.2 System Card." 2025年12月. https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf ↩
-
OpenAI. "Introducing GPT-5.2-Codex." 2025年12月. https://openai.com/index/introducing-gpt-5-2-codex/ ↩
-
IntuitionLabs. "Latest AI Research (Dec 2025): GPT-5, Agents & Trends." 2025年12月. https://intuitionlabs.ai/articles/latest-ai-research-trends-2025 ↩
-
LM Council. "AI Model Benchmarks Dec 2025." 2025年12月. https://lmcouncil.ai/benchmarks ↩
-
Vertu. "AI Model Releases Nov/Dec 2025: Benchmarks & Comparison." 2025年12月. https://vertu.com/lifestyle/the-ai-model-race-reaches-singularity-speed/ ↩