GPT-5.2：ARC-AGI 90%超えの初モデルが推論の計算を変える

OpenAIのGPT-5.2がGPQA Diamond 93.2%、AIME 100%、GDPval 70.9%を達成。40万トークンのコンテキストウィンドウが新たな推論インフラ要件を推進。

Blake Crosley

Jan 02, 2026 1 min read Disclaimer

GPT-5.2：ARC-AGI 90%超えの初モデルが推論の計算を変える

2026年1月1日

2026年1月アップデート： OpenAIは2025年12月11日にGPT-5.2をリリースし、プロフェッショナルな知識作業で可能なことを再定義するベンチマークスコアを達成しました。このモデルは、GDPvalタスクの70.9%で人間の専門家を11倍のスピードと1%未満のコストで上回ります。

概要

GPT-5.2は重要な能力の閾値を超えました：ARC-AGI-1で90%を超える初のモデル、AIME 2025で完璧な100%、FrontierMathで40.3%（5.1から10%向上）。40万トークンのコンテキストウィンドウと12.8万の出力トークンが新たなインフラ需要を生み出します。推論プロバイダーにとって、1.4倍の価格上昇はOpenAIの自信と、これらの能力を提供するために必要な計算強度を示しています。

何が起きたか

OpenAIは2025年12月11日にGPT-5.2をローンチしました。これはGoogle Gemini 3のベンチマーク優位性に対応して「コードレッド」を宣言したとされる11日後のことです。¹

リリースには2つのバリアントが含まれます：

バリアント	ユースケース	価格（100万トークンあたり）
GPT-5.2	一般用途	$1.75入力 / $14出力
GPT-5.2 Pro	拡張推論	より高い（xhigh推論ティア）

主な仕様：²

コンテキストウィンドウ： 40万トークン
最大出力： 12.8万トークン
知識カットオフ： 2025年8月31日（2024年9月から更新）
価格： GPT-5.1の1.4倍

GPT-5.2はNVIDIA H100、H200、GB200-NVL72 GPUを使用してAzureインフラ上に構築されました。³

ベンチマーク性能

GPT-5.2はプロフェッショナル、科学、数学のベンチマークで新記録を樹立：⁴

ベンチマーク	GPT-5.2スコア	以前の最高	改善
GPQA Diamond（博士レベル科学）	93.2%	91.9%（Gemini 3）	+1.3%
ARC-AGI-1検証済み	>90%	~85%	90%超え初
AIME 2025（数学）	100%	96.7%（Gemini 3）	満点
FrontierMath T1-3	40.3%	30%（GPT-5.1）	+10%
GDPval（知識作業）	70.9%	—	専門家を上回る
SWE-Bench Pro（コーディング）	55.6%	51%（GPT-5.1）	+4.6%
Tau2 Telecom（ツール使用）	98.7%	~95%	ほぼ完璧

GDPvalの結果は注目に値します：GPT-5.2 Thinkingは、44の職業の人間専門家と比較して11倍以上のスピードと1%未満のコストで出力を生成しました。⁵

なぜ重要か

推論需要の急増

40万トークンのコンテキストウィンドウは、リクエストごとに相当なメモリを必要とします。フルコンテキストでの単一推論は、以前の12.8万モデルよりも大幅に多くのGPUメモリを消費します。プロバイダーは以下を計画する必要があります：⁶

メモリスケーリング： 12.8万コンテキストと比較してリクエストあたり3倍以上のメモリ
バッチサイズ削減： GPUあたりの同時リクエスト数の減少
KVキャッシュ増大： コンテキスト長 × バッチサイズ = 大規模なKVキャッシュ要件

コスト構造の変化

GPT-5.1からの1.4倍の価格上昇は、実際の計算強度を反映しています：⁷

モデル	入力コスト	出力コスト	5.1との比率
GPT-5.1	$1.25/M	$10/M	1.0x
GPT-5.2	$1.75/M	$14/M	1.4x

大量推論オペレーションにとって、これは同等のワークロードに対するTCOの40%増加を意味します。

プロフェッショナルワークの自動化

GPT-5.2のGDPval性能（タスクの70.9%で専門家を1%未満のコストで上回る）は、エンタープライズ展開への即時需要を生み出します。これらの能力を求める組織は、以下を処理できる推論インフラを必要とします：⁸

拡張推論チェーン（Proバリアント）
長いコンテキストのドキュメント処理
信頼性の高いツール呼び出し（98.7% Tau2）

技術詳細

アーキテクチャ

OpenAIは具体的なアーキテクチャ変更を開示していませんが、ベンチマークパターンは以下を示唆しています：⁹

強化された推論能力（FrontierMath +10%）
改善されたロングコンテキスト精度（25.6万トークン検索）
より良いツール使用信頼性（Tau2 98.7%）

推論要件

GPT-5.2を大規模に提供するには、以下の考慮が必要です：¹⁰

要因	GPT-5.1	GPT-5.2	影響
コンテキストウィンドウ	20万	40万	リクエストあたり2倍のメモリ
最大出力	6.4万	12.8万	2倍の生成時間
推論深度	標準	拡張（Pro）	可変レイテンシ
ツール呼び出し	95%	98.7%	より複雑なオーケストレーション

競争環境

GPT-5.2はGemini 3から一部のベンチマークを奪還しましたが、すべてではありません：¹¹

ベンチマーク	リーダー	スコア
GPQA Diamond	Gemini 3 Deep Think	93.8%
AIME 2025	GPT-5.2 Thinking	100%
SWE-bench Verified	Gemini 3 Pro	76.2%
Humanity's Last Exam	Gemini 3	リード
GDPval	GPT-5.2 Thinking	70.9%

Gemini 3のわずか11日後にGPT-5.2がリリースされた急速なリリースケイデンスは、両社が直面する推論インフラのプレッシャーを示しています。

次のステップ

短期（2026年Q1）

GPT-5.2 Miniが近日登場の可能性（ローンチ時にMiniバリアントなし）
エンタープライズAPIロールアウトの拡大
サードパーティ推論プロバイダーがサポートを追加

インフラへの影響

GPT-5.2展開を計画する組織は：¹²

メモリ容量を評価： 40万コンテキストは12.8万モデルと比較して3倍以上のメモリが必要
KVキャッシュを計画： CXLメモリ拡張がますます重要に
計算予算を確保： 1.4倍のコスト増加は現実
ハイブリッドアプローチを検討： シンプルなタスクを安価なモデルにルーティング

フロンティアモデルをサポートする推論インフラ展開については、Introlにお問い合わせください。

参考文献

FlowHunt. "GPT 5.2 Launch and the AI Model Revolution." 2025年12月. https://www.flowhunt.io/blog/gpt-5-2-launch-ai-breakthroughs/ ↩
LLM Stats. "GPT-5.2: Pricing, Context Window, Benchmarks." 2025年12月. https://llm-stats.com/models/gpt-5.2-2025-12-11 ↩
OpenAI. "Introducing GPT-5.2." 2025年12月11日. https://openai.com/index/introducing-gpt-5-2/ ↩
DataCamp. "GPT 5.2: Benchmarks, Model Breakdown, and Real-World Performance." 2025年12月. https://www.datacamp.com/blog/gpt-5-2 ↩
Vellum. "GPT-5.2 Benchmarks (Explained)." 2025年12月. https://www.vellum.ai/blog/gpt-5-2-benchmarks ↩
Galaxy.ai. "GPT 5.2 Model Specs, Costs & Benchmarks." 2025年12月. https://blog.galaxy.ai/model/gpt-5-2 ↩
Simon Willison. "GPT-5.2." 2025年12月11日. https://simonwillison.net/2025/Dec/11/gpt-52/ ↩
OpenAI. "GPT-5.2 System Card." 2025年12月. https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf ↩
OpenAI. "Introducing GPT-5.2-Codex." 2025年12月. https://openai.com/index/introducing-gpt-5-2-codex/ ↩
IntuitionLabs. "Latest AI Research (Dec 2025): GPT-5, Agents & Trends." 2025年12月. https://intuitionlabs.ai/articles/latest-ai-research-trends-2025 ↩
LM Council. "AI Model Benchmarks Dec 2025." 2025年12月. https://lmcouncil.ai/benchmarks ↩
Vertu. "AI Model Releases Nov/Dec 2025: Benchmarks & Comparison." 2025年12月. https://vertu.com/lifestyle/the-ai-model-race-reaches-singularity-speed/ ↩

GPT-5.2：ARC-AGI 90%超えの初モデルが推論の計算を変える

概要

何が起きたか

ベンチマーク性能

なぜ重要か

推論需要の急増

コスト構造の変化

プロフェッショナルワークの自動化

技術詳細

アーキテクチャ

推論要件

競争環境

次のステップ

短期（2026年Q1）

インフラへの影響

参考文献

You Might Also Like

Hyperscaler設備投資が2026年に6,000億ドルに到達：AI インフラストラクチャ債務の波

マイクロソフトの600億ドルのネオクラウド賭け：AI容量危機における時間稼ぎ

DeepSeek V3.2がエリートベンチマークでGPT-5を上回る：中国のAI躍進がインフラにもたらす意味

お見積り依頼_

リクエストを受信しました_