トークンなしで思考:潜在推論が3.5Bモデルを50Bのようにパフォーマンスさせる方法
チェーン・オブ・ソート推論がテスト時スケーリングパラダイムを支配してきました:モデルは可視的な推論トークンを生成し、回答を出す前に「声に出して考えます」。[^1] 新しい論文はこの仮定を完全に覆します。潜在空間でリカレントブロックを反復することで、研究者は35億パラメータモデルが推論ベンチマークで500億パラメータ相当のパフォーマンスを達成することを実証しました。[^2]
TL;DR
この論文は推論時に追加トークンを生成せずに任意の深さまで展開するアーキテクチャを導入します。[^3] リカレントブロックは隠れ状態を反復的に処理し、モデルが難しい問題で「より深く考える」ことを可能にします。[^4]
トークン生成問題
現在の推論モデルは拡張された推論トークンチェーンを生成することで能力を達成します。[^8]
コンテキストウィンドウ消費:各推論トークンがコンテキスト空間を占有します。[^9]
レイテンシスケーリング:トークン生成は根本的にシーケンシャルです。[^10]
潜在推論の仕組み
リカレントブロック
入力 → 層1-N → リカレントブロック ↺ → 層N+1-M → 出力
↑___________|
(K回反復)
リカレントブロックは可視的な出力を生成せずに隠れ状態を変換します。[^14]
推論時の可変深度
| 推論深度 | 計算コスト | パフォーマンス |
|---|---|---|
| ベースライン (1x) | 標準 | ベースライン |
| 5x反復 | ~5x計算 | 中程度の向上 |
| 50x+反復 | ~50x計算 | 劇的な向上 |
ベンチマークパフォーマンス
最大展開時、3.5Bモデルは標準推論下で約500億パラメータ相当のパフォーマンスを達成します。[^26]
トークンベース推論との比較
| 次元 | チェーン・オブ・ソート | 潜在推論 |
|---|---|---|
| 計算スケーリング | トークン生成 | リカレント反復 |
| コンテキスト使用 | コンテキスト消費 | コンテキスト中立 |
| 解釈可能性 | 可視的推論 | 不透明 |
主要ポイント
- トークン不要:推論は完全に隠れ表現空間で発生可能
- 大規模な実効拡張:リカレント深度により3.5B → 50B相当
- 訓練の簡素さ:標準言語モデリング、専門データ不要
- 柔軟な推論:デプロイ時に計算-パフォーマンストレードオフ制御可能