推論時スケーリング:AI推論における新たな学習フロンティア
2025年12月12日
2025年12月更新: 推論時スケーリングがAI推論研究の主要なフロンティアとして台頭しています。ThreadWeaverは精度を維持しながら1.5倍のレイテンシ削減を達成。P1は強化学習とテスト時エージェントを通じて、オープンソースモデルとして初めて物理オリンピックの金メダルを獲得。DeepSeek-R1はOpenAI o1と同等の性能を70%低コストで実現。アナリストは2030年までに推論が総AI計算量の75%を占めると予測しています。
要約
AIのスケーリングパラダイムが転換しました。より大きなモデルを学習させる代わりに、研究者たちは推論時により多くの計算を費やすことで最先端の推論能力を達成しています。核心的な洞察は、モデルに拡張された思考連鎖(Chain-of-Thought)を通じて「より長く考えさせる」ことで、学習だけでは達成できない推論能力が生まれるということです。DeepSeek-R1はこれを大規模に実証し、クエリごとに10〜100倍のトークンを生成することでo1と同等の性能を達成しました。ThreadWeaverはこの推論を並列化してレイテンシを削減。P1は強化学習とテスト時エージェントを組み合わせて物理オリンピックの金メダルを獲得しました。インフラの観点では、2026年までに推論需要が学習需要を118倍上回り、GPU調達が推論最適化ハードウェアへとシフトしていくと予測されています。
何が起きたのか
3つの研究ブレークスルーが推論時スケーリングの成熟を示しています:
DeepSeek-R1(2025年1月):DeepSeekはR1をリリースし、純粋な強化学習がOpenAI o1と同等の推論能力を生み出せることを証明しました。このモデルは拡張された思考連鎖推論を通じて、AIMEベンチマークの精度を15.6%から71%に向上させ、多数決投票では86.7%に達しました。1
P1 物理モデル(2025年11月):研究者たちはP1をリリースしました。これは国際物理オリンピック(IPhO 2025)で金メダルレベルの性能を達成した初のオープンソースモデルファミリーです。P1-235B-A22Bは30点満点中21.2点を獲得し、Gemini-2.5-ProとGPT-5に次ぐ3位にランクインしました。2
ThreadWeaver(2025年):ThreadWeaverは並列推論を導入し、逐次推論の精度を維持しながら、トークンレイテンシで平均1.53倍の高速化を達成しました。このアプローチは、逐次的な思考連鎖ではなく、推論パスの同時探索を可能にします。3
インフラにとって重要な理由
メンタルモデル:従来のスケーリングは学習時に計算を投資していました(より大きなモデル、より多くのデータ)。推論時スケーリングはクエリ時に計算を投資します(より長い推論連鎖、複数回の試行、自己検証)。70億パラメータのモデルに100倍の推論計算を与えると、標準的な推論を行う700億パラメータのモデルに匹敵できます。インフラへの影響は深刻です:推論クラスターが学習クラスターよりも重要になります。
推論がボトルネックに:アナリストは2026年までに推論が学習の計算需要を118倍上回ると予測しています。2030年までに推論は総AI計算量の75%を占め、7兆ドルのインフラ投資を推進する可能性があります。4
推論モデルはより多くのトークンを消費:DeepSeek-R1、o1、o3-miniは、非推論モデルよりも「桁違いに多いトークン」を生成します。OpenAIの2024年の推論支出は23億ドルに達し、GPT-4の学習コストの15倍でした。5
GPU インフラ需要が急増:Jensen Huangは、次世代の推論モデルには「最大100倍の計算リソース」が必要だと述べました。6 AI推論市場は1,060億ドル(2025年)から2,550億ドル(2030年)へ、年平均成長率19.2%で成長します。
レイテンシが再び重要に:ThreadWeaverの並列推論は重要な制約に対処しています。逐次推論のレイテンシは連鎖の長さに比例して増加します。リアルタイムアプリケーションでは、推論速度が競争優位性となります。
技術的詳細
DeepSeek-R1のアプローチ
DeepSeek-R1-ZeroはGroup Relative Policy Optimization(GRPO)を使用した純粋な強化学習で推論を学習しました:7
| コンポーネント | 詳細 |
|---|---|
| 学習方法 | 純粋なRL、教師ありファインチューニングなし |
| アルゴリズム | GRPO(価値関数なしのPPO適応版) |
| 重要な洞察 | 推論時の拡張CoTが推論能力を生み出す |
| AIME性能 | 15.6% → 71%(多数決投票で86.7%) |
| コスト優位性 | 同等モデルより70%低い推論コスト |
注目すべきは、DeepSeekがProcess Reward ModelsやMonte Carlo Tree Searchなどの手法を明示的に「失敗した試み」として分類したことです。この発見は、より長い応答を伴う純粋なRLが暗黙的な推論時スケーリングとして機能することを示唆しています。8
ThreadWeaverの並列推論
ThreadWeaverは逐次的な思考連鎖の代わりに、同時推論パスを可能にします:9
| イノベーション | 説明 |
|---|---|
| 並列軌道生成器 | 並列アノテーション付きのCoTデータを生成 |
| トライベースの協調設計 | 位置埋め込みを変更せずに並列推論を可能に |
| P-GRPOアルゴリズム | 精度とレイテンシ削減を同時に最適化 |
Qwen3-8Bベースでの性能:
| ベンチマーク | ThreadWeaver | 逐次 | 高速化 |
|---|---|---|---|
| AIME24 | 79.9% | 78.3% | 1.14倍 |
| AMC23 | — | — | 1.16倍 |
| MATH500 | — | — | 1.23倍 |
| OlympiadBench | — | — | 1.21倍 |
| Minerva Math | — | — | 1.53倍 |
P1 物理モデル
P1は学習時と推論時のスケーリングを組み合わせています:10
学習時(RLポストトレーニング): - ベース言語モデルに対する多段階RLフレームワーク - 段階的な推論能力の強化 - 報酬の疎性とエントロピー崩壊に対処
テスト時(PhysicsMinionsエージェント): - Visual Studio:視覚分析 - Logic Studio:論理推論 - Review Studio:解答検証 - マルチターンの振り返りと自己修正
IPhO 2025での結果:
| モデル | スコア | ランキング |
|---|---|---|
| Gemini-2.5-Pro | 37.7 | — |
| GPT-5 | 37.4 | — |
| P1-235B + PhysicsMinions | 38.4 | 1位 |
| P1-235B-A22B(単体) | 21.2/30 | 金 |
推論計算の予測
| 指標 | 値 | 出典 |
|---|---|---|
| 2025年推論市場 | 1,060億ドル | MarketsandMarkets |
| 2030年推論市場 | 2,550億ドル | MarketsandMarkets |
| 2027年推論チップ市場 | 1,020億ドル | Reuters |
| AI計算における推論の割合(2030年) | 75% | 業界分析 |
| 学習対推論需要(2026年) | 1:118 | アナリスト推定 |
| グローバルAI計算の成長(2025-2027年) | 10倍 | AI 2027予測 |
政策と規制への影響
既存の規制は学習計算の閾値を使用しています(例:EU AI法の10^25 FLOPs)。しかし、推論時スケーリングは計算を変えます:11
- モデルは学習計算だけでなく、推論計算を通じて高い能力を達成できる
- 広範なテスト時推論を行う小さな学習済みモデルが、閾値モデルの能力を超える可能性がある
- 政策立案者は学習計算のみに焦点を当てることで「モデルの実世界への影響を過小評価する」リスクがある
今後の展望
2026年:推論需要が学習を118倍上回ると予測。データセンター計画が推論最適化アーキテクチャへシフト。
2027年:グローバルAI関連計算が1億H100相当に達すると予測(2025年3月から10倍成長)。12
継続中:並列推論(ThreadWeaver)、マルチエージェントシステム(PhysicsMinions)、RLベースの推論(DeepSeek、P1)の研究が継続。
インフラシフト:専用推論インフラ(NVIDIA Blackwell、TPU v5e、Groq LPU)が主要な計算カテゴリに。
重要なポイント
インフラ計画担当者向け: - 2030年までに推論がAI計算の75%を占めると予測 - 推論モデルは標準モデルより10〜100倍のトークンを消費 - レイテンシ最適化(ThreadWeaverスタイルの並列処理)がハードウェア要件を生み出す - 容量モデリングで推論負荷の高いワークロードを計画
運用チーム向け: - NVIDIA Blackwellは大規模推論に最適化(ラックあたり1.4エクサFLOPS) - 推論コストを監視、学習コストを15倍上回る可能性あり(OpenAI 2024年実績) - テスト時計算のチューニングがレイテンシとコストのトレードオフに影響 - エージェントフレームワーク(PhysicsMinions)がマルチターン推論のオーバーヘッドを追加
戦略計画向け: - 学習対推論の計算比率が劇的にシフト - 小さなモデル + 重い推論が、より大きな学習済みモデルに匹敵可能 - DeepSeek-R1が効率性を通じて70%のコスト優位性を実証 - 政策フレームワークが学習計算の閾値を超えて拡大する可能性
参考文献
推論負荷の高いAIワークロードをサポートするGPUインフラについては、Introlにお問い合わせください。
-
HuggingFace Blog. "What is test-time compute and how to scale it?" 2025. ↩
-
arXiv. "P1: Mastering Physics Olympiads with Reinforcement Learning." November 2025. ↩
-
ThreadWeaver. "Adaptive Threading for Efficient Parallel Reasoning." 2025. ↩
-
WhiteFiber. "How Inference Will Reshape AI Infrastructure and Compute Demand." 2025. ↩
-
Sebastian Raschka. "Inference-Time Compute Scaling Methods to Improve Reasoning Models." 2025. ↩
-
NVIDIA. "AI Inference Solutions." 2025. ↩
-
Medium. "Understanding Reasoning Models & Test-Time Compute: Insights from DeepSeek-R1." 2025. ↩
-
DeepSeek. "DeepSeek-R1 Technical Report." January 2025. ↩
-
ThreadWeaver Paper. "ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning." 2025. ↩
-
GitHub. "PRIME-RL/P1: Mastering Physics Olympiads with Reinforcement Learning." 2025. ↩
-
Austin Ellis-Mohr. "Inference-Time Compute Scaling Policy Considerations." 2025. ↩
-
AI 2027. "Compute Forecast." 2025. ↩
-
MarketsandMarkets. "AI Inference Market Size, Share & Growth, 2025 To 2030." 2025. ↩
-
NVIDIA Developer Blog. "Automating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling." 2025. ↩
-
arXiv. "Evaluating Test-Time Scaling LLMs for Legal Reasoning." 2025. ↩
-
Neurohive. "P1: First Open-Source Model to Win Gold at the International Physics Olympiad." 2025. ↩