GPT-5.2がARC-AGIで90%を突破：インフラストラクチャへの影響

GPT-5.2がARC-AGI-1で90%、AIME 2025で完全なスコアを達成。ベンチマーク結果と推論のためのデータセンターインフラストラクチャ要件の分析。

Blake Crosley

Feb 03, 2026 5 min read Disclaimer

90パーセント。GPT-5.2 Proは、パターンマッチングではなく真の推論能力を測定するよう設計されたベンチマークであるARC-AGI-1でその閾値を超えた最初のAIモデルとなった。¹ この成果は、AIME 2025数学での満点、FrontierMathのエキスパートレベル問題での40.3%解決率と共に達成された。² AI ワークロードを提供するインフラストラクチャオペレーターにとって、ベンチマーク数値よりも重要なのはそれらを駆動する要因である：400,000トークンのコンテキストウィンドウ、128,000トークンの出力容量、そして従来のコストモデルでは捉えきれない方法で計算需要を増大させる推論トークンである。

TL;DR

OpenAIは2025年12月11日にGPT-5.2をリリースし、異なる計算プロファイルを対象とする3つのバリアントを提供した：速度重視のInstant、拡張推論のThinking、研究グレードワークロードのPro。³ このモデルはGPQA Diamond（博士レベル科学）で93.2%、SWE-Bench Pro（実世界のソフトウェアエンジニアリング）で55.6%を達成し、前モデルと比較してARC-AGI-2で3倍の向上を示している。⁴ インフラストラクチャ需要は能力とともにスケールする：GPT-4に対する5倍のコンテキスト拡張と、出力として課金される推論トークンが組み合わさって、高帯域幅メモリアーキテクチャと効率的なバッチングシステムを持つオペレーターを有利にする推論経済学を生み出している。

ベンチマーク分析：GPT-5.2が先行する領域

2025年12月のリリースは、推論、数学、ソフトウェアエンジニアリングのベンチマークで新記録を樹立した。どの能力が最も改善されたかを理解することで、計算投資がリターンをもたらす領域が明らかになる。

推論ベンチマーク

ベンチマーク	GPT-5.2 Pro	GPT-5.2 Thinking	Claude Opus 4.5	Gemini 3 Pro
ARC-AGI-1 (検証済み)	90.0%	87.0%	82.3%	84.1%
ARC-AGI-2 (検証済み)	54.2%	52.9%	37.6%	45.1%
GPQA Diamond	93.2%	92.4%	87.0%	91.9%

出典：OpenAI¹、IntuitionLabs⁵、Vellum⁶

ARC-AGI-2は特に注目に値する。流動的推論をテストし記憶化に対抗するよう設計されたベンチマークで、GPT-5.2 ThinkingはGPT-5.1の17.6%に対して52.9%を示した。⁵ 1ヶ月のリリースサイクルでの3倍の改善は、スケールだけでなくアーキテクチャの変更を示唆している。

数学性能

ベンチマーク	GPT-5.2 Thinking	GPT-5.1	改善
AIME 2025	100%	89%	+11ポイント
FrontierMath (Tier 1-3)	40.3%	31.0%	+9.3ポイント

出典：OpenAI²⁷

ツール使用なしでのAIME満点は、類似の結果を達成するためにコード実行を必要とする競合他社からGPT-5.2を区別している。FrontierMathは先端数学の未解決問題に対する能力を評価しており、40.3%の解決率は研究グレードの推論の指標である。⁷

ソフトウェアエンジニアリング

ベンチマーク	GPT-5.2	Claude Opus 4.5	差
SWE-Bench Verified	80.0%	80.9%	-0.9
SWE-Bench Pro	55.6%	54.0%	+1.6
Terminal-Bench 2.0	54.0%	59.3%	-5.3

出典：OpenAI¹、Kilo AI⁸、Sonar⁹

Claude Opus 4.5はSWE-Bench Verifiedで僅かに優位を保っているが、GPT-5.2 ThinkingはSWE-Bench Proでリードしており、これは4つのプログラミング言語をテストし汚染耐性を重視している。¹ 競争力学は、どちらのモデルもソフトウェアエンジニアリングワークロードで絶対的に支配的ではないことを示唆している。

インフラストラクチャ要件：コンテキストと計算

400,000トークンのコンテキストウィンドウは、GPT-4の限界に対する5倍の拡張を表している。¹⁰ 推論プロバイダーにとって、コンテキスト長はパラメータ数よりも直接的にメモリ帯域幅要件を駆動する。

メモリと帯域幅需要

仕様	GPT-5.2	GPT-4 Turbo	倍率
コンテキストウィンドウ	400Kトークン	128Kトークン	3.1倍
最大出力	128Kトークン	4Kトークン	32倍
実効KVキャッシュ	~12.8B要素	~4.1B要素	3.1倍

出典：OpenAI API Documentation¹¹、LLM-Stats¹²

KVキャッシュスケーリングは推論中のGPUメモリ割り当てを決定する。128K出力能力を持つ400Kコンテキストウィンドウは、生の計算スループットよりもメモリ帯域幅に最適化されたアーキテクチャを必要とする。

ワークロード別GPU推奨

ワークロードプロファイル	推奨GPU	メモリ	帯域幅	注記
短いコンテキスト（<32K）	H100 80GB	80GB HBM3	3.35 TB/s	標準クエリに対してコスト効率的
中程度のコンテキスト（32K-100K）	H200 141GB	141GB HBM3e	4.8 TB/s	76%多いメモリ、同じ700W TDP
長いコンテキスト（100K-400K）	B200 192GB	192GB HBM3e	8.0 TB/s	フルコンテキスト利用に必要
マルチテナント推論	GB200 NVL72	13.5TB合計	576 TB/s	72GPU統合メモリプール

出典：NVIDIA¹³、Introl GPU Analysis¹⁴

B200の8 TB/sメモリ帯域幅は、長いコンテキスト推論の根本的なボトルネックに対処している。大規模でGPT-5.2ワークロードを提供するオペレーターは、従来のH100デプロイメントでは効率的に提供できないメモリ最適化アーキテクチャを必要とする。

訓練インフラストラクチャ：MicrosoftとNVIDIAのパートナーシップ

GPT-5.2の訓練は、H100、H200、GB200-NVL72システムを実行するAzureデータセンターに依存していた。¹⁵ このインフラストラクチャは、フロンティアモデル開発に対するOpenAIの計算戦略を明らかにしている。

既知の訓練クラスター

場所	容量	GPU世代	専用ユーザー
Wisconsin (Fairwater)	~300MW GPU棟	GB200	OpenAI専用
Georgia (QTS)	~300MW GPU棟	GB200	OpenAI専用
Arizona (4棟)	~130K GPU合計	H100、H200、GB200	OpenAI主要

出典：Semi Analysis¹⁶

各Fairwater施設は単一のGPU棟に約150,000のGB200 GPUを収容し、20万のアメリカ世帯に相当する電力を消費している。¹⁶ WisconsinとGeorgia施設はOpenAIワークロード専用で運用されている。

マルチクラウド拡張

OpenAIは2025年から2031年の7年間でAWSインフラストラクチャに380億ドルをコミットし、EC2 UltraServersで数十万のGB200およびGB300 GPUへのアクセスを提供している。¹⁷ 2025年11月3日に署名されたこの合意は、MicrosoftのAzureフットプリントを超えてOpenAIの計算供給を多様化している。

性能ベンチマーク

システム	Hopperに対する訓練性能	コスト効率
GB200 NVL72	3倍高速	~2倍優秀
GB300 NVL72	4倍高速	未定

出典：NVIDIA MLPerf Results¹⁸

GB200 NVL72は、MLPerf Trainingベンチマークで最大のモデルにおいてHopperアーキテクチャと比較して3倍高速な訓練性能を提供し、1ドルあたりの性能もほぼ2倍優秀だった。¹⁸

API経済学：価格設定と推論トークン

GPT-5.2の価格設定は増大した計算集約性を反映しており、コストモデリングに影響する重要な詳細がある：推論トークンである。

API価格構造

モデルバリアント	入力トークン	出力トークン	キャッシュ入力
GPT-5.2（全バリアント）	$1.75/1M	$14.00/1M	$0.175/1M
GPT-5（比較）	$1.25/1M	$10.00/1M	$0.125/1M
Batch API	$0.875/1M	$7.00/1M	-

出典：OpenAI Pricing¹⁹

GPT-5に対する40%の価格上昇は、5倍のコンテキスト拡張と強化された推論能力を反映している。¹⁰ $0.175/1Mトークンでのキャッシュ入力価格（10倍の削減）は、大きなコードベースに対する繰り返しクエリを経済的に実行可能にしている。

推論トークン経済学

Thinkingモデルは内部推論トークンを生成し、$14.00/1Mで出力トークンとして課金される。¹⁹ 複雑なクエリは最終的な回答を生成する前に数千の見えないトークンを生成でき、標準のトークンカウンターでは見逃されがちな方法でコストを倍増させる。

クエリ複雑度	表示出力	推論トークン	真の出力コスト
単純な事実	500トークン	200トークン	$0.0098
多段階分析	2,000トークン	8,000トークン	$0.14
拡張推論	5,000トークン	50,000トークン	$0.77

OpenAI API documentation¹¹に基づく推定

オペレーターは正確なコスト予測を維持するために推論トークン消費を監視する必要がある。ThinkingバリアントはInstantよりも多くの推論トークンを生成し、Proは研究グレードワークロードのために拡張推論チェーンを生成できる。

競争ポジショニング：GPT-5.2 vs Claude vs Gemini

市場シェアと専門化が2026年初頭の競争環境を定義している。

市場ダイナミクス

指標	GPT-5.2/ChatGPT	Gemini	Claude
市場シェア（2026年1月）	~68%	~18%	~8%
市場シェア（2025年7月）	~87%	~5%	~4%
主な強み	抽象推論	長いコンテキスト処理	ソフトウェアエンジニアリング
企業年間コスト	~$56,500	~$70,000	~$150,000

出典：Medium Analysis²⁰、Humai Comparison²¹

ChatGPTの市場シェアは、Geminiの100万トークンコンテキストウィンドウが文書重視のエンタープライズワークロードを引き付けたため、87%から68%に低下した。²⁰ Claudeのプレミアム価格は、SWE-Bench Verifiedリーダーシップが価値をもたらすソフトウェアエンジニアリングタスクでの支配力を反映している。

カテゴリ別ベンチマークリーダーシップ

カテゴリ	リーダー	スコア	準優勝	スコア
抽象推論（ARC-AGI-2）	GPT-5.2 Pro	54.2%	Gemini 3 Deep Think	45.1%
博士レベル科学（GPQA）	GPT-5.2 Pro	93.2%	Gemini 3 Pro	91.9%
ソフトウェアエンジニアリング（SWE-Bench Verified）	Claude Opus 4.5	80.9%	GPT-5.2	80.0%
長いコンテキスト（LongBench v2）	Gemini 3 Pro	68.2%	GPT-5.2	54.5%
数学（AIME 2025）	GPT-5.2	100%	Kimi K2.5	96.1%

出典：複数のベンチマーク分析⁵⁶⁸²⁰

GPT-5.2は純粋推論と抽象問題解決を所有している。Claudeはソフトウェアエンジニアリングを支配している。Geminiは文書重視のワークロードで優れている。²⁰ インフラストラクチャオペレーターは、ワークロードが優先するモデルファミリーとGPU構成を一致させる必要がある。

インフラストラクチャ計画の含意

ベンチマーク結果は、AI推論ワークロードを提供するオペレーターにとって具体的なインフラストラクチャ決定に変換される。

モデル別メモリ帯域幅要件

モデル	コンテキストウィンドウ	推奨最小帯域幅	GPUクラス
GPT-5.2（フルコンテキスト）	400K	8.0 TB/s	B200/GB200
Claude Opus 4.5	200K	4.8 TB/s	H200/B200
Gemini 3 Pro	1M	8.0+ TB/s	B200/GB200

長いコンテキストワークロードは、H100の能力を超えるメモリ帯域幅を要求する。大規模でGPT-5.2デプロイメントを計画するオペレーターは、最低でもH200を、フル400Kコンテキストウィンドウを利用するワークロードにはB200を優先して予算を組むべきである。

電力と冷却の考慮事項

GPU	TDP	冷却要件	400Kコンテキストクエリあたりの電力
H100	700W	空気冷却可能	高（メモリ制限）
H200	700W	空気冷却可能	中程度
B200	1000W	液体冷却推奨	最適

出典：NVIDIA Specifications¹³、Introl Analysis¹⁴

B200の1000W TDPは冷却インフラストラクチャのアップグレードを必要とする。Introlのグローバルデプロイメント能力は、電力供給から液体冷却設置まで、フルスタックに対応しており、オペレーターが既存施設を再設計することなくB200クラスターをデプロイできるようにしている。

重要なポイント

インフラストラクチャプランナー向け

GPT-5.2の400Kコンテキストウィンドウは、H100デプロイメントでは効率的に対処できないメモリ帯域幅のボトルネックを生み出している。本格的な推論には最低でもH200を計画し、フルコンテキスト利用を必要とするワークロードにはB200割り当てを行う。最大出力トークンの32倍増加は、生成フェーズ中の帯域幅要件を複合化する。

オペレーションチーム向け

推論トークン監視はコスト管理に不可欠になる。正確な予測を維持するために、表示出力と推論トークンを分離するトークンアカウンティングを実装する。10倍削減でのキャッシュ入力価格は、繰り返しクエリパターンに対して永続的なコンテキスト戦略を経済的に魅力的にしている。

戦略的意思決定者向け

ChatGPTの市場シェアが87%から68%に変化したことは、置き換えではなく断片化を示している。Geminiの長いコンテキスト強みとClaudeのソフトウェアエンジニアリングリーダーシップは、多様なワークロードを持つ企業にとってマルチモデル戦略を示唆している。インフラストラクチャ投資は、単一ベンダー最適化よりも異種モデルサービングをサポートすべきである。

参考文献

OpenAI. "Introducing GPT-5.2." OpenAI. December 11, 2025. https://openai.com/index/introducing-gpt-5-2/ ↩↩↩↩
OpenAI. "Advancing Science and Math with GPT-5.2." OpenAI. December 2025. https://openai.com/index/gpt-5-2-for-science-and-math/ ↩↩
FinTech Weekly. "OpenAI Releases GPT-5.2 as Focus Shifts Toward Workplace Automation." FinTech Weekly. December 2025. https://www.fintechweekly.com/magazine/articles/openai-gpt-5-2-release-professional-workflows-automation ↩
Vellum. "GPT-5.2 Benchmarks (Explained)." Vellum Blog. January 2026. https://www.vellum.ai/blog/gpt-5-2-benchmarks ↩
IntuitionLabs. "GPT-5.2 & ARC-AGI-2: A Benchmark Analysis of AI Reasoning." IntuitionLabs. January 2026. https://intuitionlabs.ai/articles/gpt-5-2-arc-agi-2-benchmark ↩↩↩
Vellum. "GPT-5.2 Benchmarks (Explained)." Vellum Blog. January 2026. https://www.vellum.ai/blog/gpt-5-2-benchmarks ↩↩
OpenAI. "GPT-5.2 Model Documentation." OpenAI API. https://platform.openai.com/docs/models/gpt-5.2 ↩↩
Kilo AI. "We Tested GPT-5.2/Pro vs. Opus 4.5 vs. Gemini 3 on 3 Real-World Coding Tasks." Kilo AI Blog. January 2026. https://blog.kilo.ai/p/we-tested-gpt-52pro-vs-opus-45-vs ↩↩
Sonar. "New Data on Code Quality: GPT-5.2 high, Opus 4.5, Gemini 3, and More." SonarSource Blog. January 2026. https://www.sonarsource.com/blog/new-data-on-code-quality-gpt-5-2-high-opus-4-5-gemini-3-and-more/ ↩
eWeek. "OpenAI Launches GPT-5.2 'Garlic' with 400K Context Window for Enterprise Coding." eWeek. December 2025. https://www.eweek.com/news/openai-launches-gpt-5-2/ ↩↩
OpenAI. "GPT-5.2 Model." OpenAI API Documentation. https://platform.openai.com/docs/models/gpt-5.2 ↩↩
LLM-Stats. "GPT-5.2: Pricing, Context Window, Benchmarks, and More." LLM-Stats. December 2025. https://llm-stats.com/models/gpt-5-2-2025-12-11 ↩
NVIDIA. "DGX B200: The Foundation for Your AI Factory." NVIDIA Data Center. https://www.nvidia.com/en-us/data-center/dgx-b200/ ↩↩
Introl. "H100 vs H200 vs B200: Choosing the Right NVIDIA GPUs for Your AI Workload." Introl Blog. June 2025. https://introl.com/blog/h100-vs-h200-vs-b200-choosing-the-right-nvidia-gpus-for-your-ai-workload ↩↩
NVIDIA Blog. "As AI Grows More Complex, Model Builders Rely on NVIDIA." NVIDIA Blog. January 2026. https://blogs.nvidia.com/blog/leading-models-nvidia/ ↩
Semi Analysis. "Microsoft's AI Strategy Deconstructed - from Energy to Tokens." Semi Analysis Newsletter. January 2026. https://newsletter.semianalysis.com/p/microsofts-ai-strategy-deconstructed ↩↩
Tomasz Tunguz. "OpenAI's $1 Trillion Infrastructure Spend." Tomasz Tunguz Blog. January 2026. https://tomtunguz.com/openai-hardware-spending-2025-2035/ ↩
NVIDIA Blog. "As AI Grows More Complex, Model Builders Rely on NVIDIA." NVIDIA Blog. January 2026. https://blogs.nvidia.com/blog/leading-models-nvidia/ ↩↩
OpenAI. "Pricing." OpenAI API. https://platform.openai.com/docs/pricing ↩↩
Medium. "Four Giants, One Winner: Kimi K2.5 vs GPT-5.2 vs Claude Opus 4.5 vs Gemini 3 Pro Comparison." Cogni Down Under. January 2026. https://medium.com/@cognidownunder/four-giants-one-winner-kimi-k2-5-vs-gpt-5-2-vs-claude-opus-4-5-vs-gemini-3-pro-comparison-38124c85d990 ↩↩↩↩
Humai Blog. "Best AI Models 2026: GPT-5 vs Claude 4.5 Opus vs Gemini 3 Pro (Complete Comparison)." Humai. January 2026. https://www.humai.blog/best-ai-models-2026-gpt-5-vs-claude-4-5-opus-vs-gemini-3-pro-complete-comparison/ ↩
R&D World. "How GPT-5.2 Stacks Up Against Gemini 3.0 and Claude Opus 4.5." R&D World Online. January 2026. https://www.rdworldonline.com/how-gpt-5-2-stacks-up-against-gemini-3-0-and-claude-opus-4-5/ ↩
Azure. "GPT-5.2 in Microsoft Foundry: Enterprise AI Reinvented." Microsoft Azure Blog. December 2025. https://azure.microsoft.com/en-us/blog/introducing-gpt-5-2-in-microsoft-foundry-the-new-standard-for-enterprise-ai/ ↩
WCCFTech. "NVIDIA's AI GPUs Used To Train OpenAI's GPT-5.2." WCCFTech. December 2025. https://wccftech.com/nvidia-ai-gpus-openai-gpt-5-2-blackwell-ultra-faster-performance-value/ ↩
EdTech Innovation Hub. "GPT-5.2 Rolls Out with Major Gains in Professional AI Performance." EdTech Innovation Hub. December 2025. https://www.edtechinnovationhub.com/news/gpt-52-targets-everyday-professional-work-long-running-agents-and-science-workloads ↩
DataStudio. "GPT-5.2 Official Release: Capabilities, Context Window, Model Variants, Pricing, and Workflow Power." DataStudios. December 2025. https://www.datastudios.org/post/gpt-5-2-official-release-capabilities-context-window-model-variants-pricing-and-workflow-power ↩
LMCouncil. "AI Model Benchmarks Jan 2026." LM Council. January 2026. https://lmcouncil.ai/benchmarks ↩
VentureBeat. "OpenAI's GPT-5.2 is Here: What Enterprises Need to Know." VentureBeat. December 2025. https://venturebeat.com/ai/openais-gpt-5-2-is-here-what-enterprises-need-to-know ↩
DataCamp. "GPT 5.2: Benchmarks, Model Breakdown, and Real-World Performance." DataCamp Blog. January 2026. https://www.datacamp.com/blog/gpt-5-2 ↩
Vertu. "GPT-5.2 Benchmark Analysis: Reclaiming Leadership vs Gemini 3 Pro & GPT-5.1." Vertu AI Tools. January 2026. https://vertu.com/ai-tools/gpt-5-2-benchmark-analysis-performance-comparison-vs-gpt-5-1-gemini-3-pro/ ↩
Tensorlake. "OpenAI GPT-5.2-Codex (high) vs. Claude Opus 4.5." Tensorlake Blog. January 2026. https://www.tensorlake.ai/blog/gpt5.2-codex-high-vs-opus-4.5-vs-gemini-3-pro ↩
Composio. "Claude 4.5 Opus vs. Gemini 3 Pro vs. GPT-5.2-codex-max: The SOTA Coding Model." Composio Blog. January 2026. https://composio.dev/blog/claude-4-5-opus-vs-gemini-3-pro-vs-gpt-5-codex-max-the-sota-coding-model ↩
AI Fire. "GPT-5.2 Review: Benchmarks vs. Gemini 3.0 & Claude 4.5." AI Fire. January 2026. https://www.aifire.co/p/gpt-5-2-review-benchmarks-vs-gemini-3-0-claude-4-5 ↩
Introl. "GPT-5.2: First Model Above 90% ARC-AGI Changes Inference Math." Introl Blog. January 2026. https://introl.com/blog/gpt-5-2-infrastructure-implications-inference-demand-january-2026 ↩
Atoms.dev. "GPT-5.2: A Comprehensive Analysis of OpenAI's Advanced Frontier Model." Atoms.dev Insights. January 2026. https://atoms.dev/insights/gpt-52-a-comprehensive-analysis-of-openais-advanced-frontier-model/63627c1fc5da46489a31f1cf61aae26d ↩
eesel.ai. "An Overview of GPT 5.2: What's New and Is It Worth It?" eesel.ai Blog. January 2026. https://www.eesel.ai/blog/gpt-52 ↩
Inkeep. "GPT-5.2 Pro Release: What It Means for AI Support Teams." Inkeep Blog. January 2026. https://inkeep.com/blog/gpt-5-2-pro-release ↩
Chatbase. "GPT-5.2: Is It the Best OpenAI Model?" Chatbase Blog. January 2026. https://www.chatbase.co/blog/gpt-5-2 ↩
Price Per Token. "GPT 5 API Pricing 2026 - Costs, Performance & Providers." Price Per Token. 2026. https://pricepertoken.com/pricing-page/model/openai-gpt-5 ↩
TTMS. "GPT-5.2 for Business: OpenAI's Most Advanced LLM." TTMS. January 2026. https://ttms.com/gpt-5-2-for-business-openais-most-advanced-llm/ ↩