トークンなしで思考：潜在推論が3.5Bモデルを50Bのようにパフォーマンスさせる方法

新しいアーキテクチャによりAIモデルはトークン生成ではなく潜在空間で推論できます。リカレント深度アプローチはチェーン・オブ・ソートなしでテスト時計算をスケールします。

Blake Crosley

Jan 07, 2026 1 min read Disclaimer

トークンなしで思考：潜在推論が3.5Bモデルを50Bのようにパフォーマンスさせる方法

チェーン・オブ・ソート推論がテスト時スケーリングパラダイムを支配してきました：モデルは可視的な推論トークンを生成し、回答を出す前に「声に出して考えます」。[^1] 新しい論文はこの仮定を完全に覆します。潜在空間でリカレントブロックを反復することで、研究者は35億パラメータモデルが推論ベンチマークで500億パラメータ相当のパフォーマンスを達成することを実証しました。[^2]

TL;DR

この論文は推論時に追加トークンを生成せずに任意の深さまで展開するアーキテクチャを導入します。[^3] リカレントブロックは隠れ状態を反復的に処理し、モデルが難しい問題で「より深く考える」ことを可能にします。[^4]

トークン生成問題

現在の推論モデルは拡張された推論トークンチェーンを生成することで能力を達成します。[^8]

コンテキストウィンドウ消費：各推論トークンがコンテキスト空間を占有します。[^9]

レイテンシスケーリング：トークン生成は根本的にシーケンシャルです。[^10]

潜在推論の仕組み

リカレントブロック

入力 → 層1-N → リカレントブロック ↺ → 層N+1-M → 出力
                     ↑___________|
                     (K回反復)

リカレントブロックは可視的な出力を生成せずに隠れ状態を変換します。[^14]

推論時の可変深度

推論深度	計算コスト	パフォーマンス
ベースライン (1x)	標準	ベースライン
5x反復	~5x計算	中程度の向上
50x+反復	~50x計算	劇的な向上

ベンチマークパフォーマンス

最大展開時、3.5Bモデルは標準推論下で約500億パラメータ相当のパフォーマンスを達成します。[^26]

トークンベース推論との比較

次元	チェーン・オブ・ソート	潜在推論
計算スケーリング	トークン生成	リカレント反復
コンテキスト使用	コンテキスト消費	コンテキスト中立
解釈可能性	可視的推論	不透明

主要ポイント

トークン不要：推論は完全に隠れ表現空間で発生可能
大規模な実効拡張：リカレント深度により3.5B → 50B相当
訓練の簡素さ：標準言語モデリング、専門データ不要
柔軟な推論：デプロイ時に計算-パフォーマンストレードオフ制御可能

トークンなしで思考：潜在推論が3.5Bモデルを50Bのようにパフォーマンスさせる方法

TL;DR

トークン生成問題

潜在推論の仕組み

リカレントブロック

推論時の可変深度

ベンチマークパフォーマンス

トークンベース推論との比較

主要ポイント

You Might Also Like

液浸冷却ROI計算機：AIワークロード向け2〜4年投資回収分析

UK AIコリドー：ロンドンの新興コンピュート拠点

水使用効率：危機を招かないAIデータセンター冷却

お見積り依頼_

リクエストを受信しました_