MiroThinker:AIエージェントの第3のスケーリング次元
AIスケーリングは2つの次元に焦点を当ててきた:モデルサイズとコンテキスト長。[^1] MiroThinkerは第3の次元を導入する:インタラクション深度。この研究エージェントは8B、30B、72Bパラメータのバリアントでリリースされ、強化学習を通じてタスクごとに最大600回のツール呼び出しを処理するようモデルを訓練する。[^2] GAIAベンチマークでは、72Bバリアントが81.9%の精度を達成し、完全オープンソースでありながらGPT-5-highなどの商用システムに迫る。[^3]
TL;DR
MiroThinkerはモデルレベルで「インタラクションスケーリング」を探求し、より深く頻繁なエージェント・環境間インタラクションを処理するようモデルを体系的に訓練する。[^4] 孤立したテスト時スケーリングとは異なり、インタラクションスケーリングは環境フィードバックを使用してエラーを修正し軌道を洗練する。[^5] 256Kコンテキストウィンドウにより、エージェントはタスクごとに最大600回のツール呼び出しを実行し、複雑な研究ワークフローのための持続的なマルチターン推論を可能にする。[^6] 訓練は3つのフェーズを使用:教師あり微調整、選好学習、グループ相対ポリシー最適化による強化学習。[^7]
エージェントスケーリング問題
現在のAIエージェントは根本的な制限に直面している。推論チェーンが延びるにつれ、エラーが複合する。[^9] 軌道の早い段階での単一のミスがタスク全体を脱線させる可能性がある。従来のアプローチは以下で対処する:
より大きなモデル:より良い単一ステップ精度のためのより多くのパラメータ[^10] より長いコンテキスト:推論履歴を保持するためのより多くのスペース[^11] より良いプロンプティング:エラーを減らすための改善された指示[^12]
しかし、これらの介入は核心的な問題に対処していない:拡張推論中に環境から孤立して動作するエージェント。
推論ドリフト
環境フィードバックのない長い推論チェーンは「推論ドリフト」を示す—正しい軌道からの漸進的な逸脱。[^13] エージェントはますます古くなったり誤った仮定に基づいて推論を続ける。
| チェーン長 | エラー率 | 原因 |
|---|---|---|
| 短(1-5ステップ) | 低 | 限定的な複合エラー |
| 中(5-20ステップ) | 中程度 | 蓄積するミス |
| 長(20+ステップ) | 高 | 推論ドリフトが支配 |
フィードバック解決策
MiroThinkerの洞察:環境にエージェントを継続的に修正させる。[^14] 孤立して推論するのではなく、エージェントは外部ツールとのインタラクションを通じて作業をチェックし、エラーが複合する前にキャッチする。
インタラクションスケーリングの定義
インタラクションスケーリングは、エージェント・環境インタラクションの深さをモデルサイズやコンテキスト長に類似したスケーラブルな次元として扱う。[^15]
3つの次元
| 次元 | スケールするもの | どう役立つか |
|---|---|---|
| モデルサイズ | パラメータ | より良い単一ステップ品質 |
| コンテキスト長 | トークンウィンドウ | より多くの情報が利用可能 |
| インタラクション深度 | ツール呼び出し | エラー修正、グラウンディング |
なぜインタラクションが異なるか
モデルサイズ(訓練時に固定)やコンテキスト(受動的ストレージ)とは異なり、インタラクション深度はアクティブな検証とコース修正を可能にする。[^16]
受動的スケーリング:より大きなモデルとコンテキストはより多くの容量を提供 能動的スケーリング:より多くのインタラクションはチェック、修正、洗練のより多くの機会を提供
MiroThinkerアーキテクチャ
エージェントは深いインタラクションのための特定の拡張を備えたReActフレームワークに従う:[^17]
コアループ
思考 → アクション(ツール呼び出し) → 観察 → 思考 → ...
各観察はエージェントのコンテキストにフィードバックし、後続の推論に情報を提供する。[^18]
ツールスイート
MiroThinkerには包括的なツールキットが含まれる:[^19]
| カテゴリ | 例 |
|---|---|
| Web検索 | クエリ作成、結果解析 |
| Webブラウジング | ページナビゲーション、コンテンツ抽出 |
| コード実行 | Pythonランタイム、結果分析 |
| ファイル操作 | 読み取り、書き込み、ドキュメント分析 |
600回のツール呼び出し
256Kコンテキストウィンドウはタスクごとに最大600回のツール呼び出しをサポートする。[^20] 参考として、ほとんどのエージェントベンチマークは20回未満のツール呼び出しを含む。MiroThinkerは典型的なインタラクション深度の30倍で動作する。
訓練方法論
MiroThinker訓練は3つのフェーズで進行する:[^21]
フェーズ1:教師あり微調整
成功したエージェント軌道での初期訓練は基本的なツール使用パターンを教える:[^22]
- いつ検索するか vs ブラウズするか
- 効果的なクエリの作成方法
- ツール出力の解釈
- マルチソース情報の統合
フェーズ2:選好学習
モデルは失敗した軌道よりも成功した軌道を好むことを学ぶ:[^23]
- 軌道結果に対するバイナリフィードバック
- エラー回復の暗黙的学習
- 効率的なツールシーケンスの選好
フェーズ3:強化学習
グループ相対ポリシー最適化(GRPO)は拡張インタラクションのために訓練する:[^24]
- 正しい最終回答への報酬
- 長い軌道にわたる暗黙的なクレジット割り当て
- いつ継続するか vs 戦略を変えるかを学ぶ
ベースモデル
MiroThinkerはオープンウェイトの基盤上に構築される:[^25]
| サイズ | ベースモデル |
|---|---|
| 8B | Qwen2.5-8B |
| 30B | Qwen3-30B |
| 72B | Qwen2.5-72B |
ベンチマークパフォーマンス
GAIA(汎用AIアシスタント)
GAIAはWeb検索、推論、マルチステップ問題解決を必要とする現実的なアシスタントタスクをテストする:[^26]
| モデル | 精度 |
|---|---|
| MiroThinker-72B | 81.9% |
| GPT-5-high | ~85%(推定) |
| 以前のオープンソースSOTA | ~65% |
MiroThinkerは完全にオープンでありながら商用パフォーマンスに迫る。
HLE(人類最後の試験)
多様なドメインにわたる極めて挑戦的な質問:[^27]
| モデル | 精度 |
|---|---|
| MiroThinker-72B | 37.7% |
| 人間の専門家 | 可変 |
BrowseComp
複雑なWebブラウジングと情報統合:[^28]
| モデル | 精度 |
|---|---|
| MiroThinker-72B(英語) | 47.1% |
| MiroThinker-72B(中国語) | 55.6% |
中国語のパフォーマンスは強力な多言語転移を示唆する。
スケーリング挙動
重要な発見:パフォーマンスはインタラクション深度とともに予測可能に向上する。[^29]
MiroThinkerがより多くのツール呼び出しに従事すると: - 精度が向上(ハードウェア/コンテキストの限界まで) - エラー回復がより効果的になる - 複雑なタスクが扱えるようになる
これはインタラクション深度が単なる収穫逓減ではなく、真のスケーリング挙動を示すことを実証する。
他のアプローチとの比較
vs. Chain-of-Thought
| 次元 | Chain-of-Thought | MiroThinker |
|---|---|---|
| フィードバック | なし(孤立した推論) | 継続的(ツール結果) |
| エラー処理 | 最善を願う | 検出して修正 |
| グラウンディング | テキストパターンのみ | 外部検証 |
vs. ReActエージェント
| 次元 | 標準ReAct | MiroThinker |
|---|---|---|
| インタラクション深度 | 典型的に10-20回 | 最大600回 |
| 訓練 | プロンプトエンジニアリング | 深いインタラクションのためのRL |
| 持続性 | 短いタスク | 拡張ワークフロー |
なぜインタラクションスケーリングが機能するか
論文はインタラクションスケーリングの有効性の背後にあるいくつかのメカニズムを特定する:[^30]
エラー検出
より多くのツール呼び出しはミスを発見するより多くの機会を作る:[^31]
- 矛盾する検索結果が誤った仮定を明らかにする
- 失敗した操作が無効な状態を露出する
- 予期しない出力が再考を促す
情報取得
拡張インタラクションはより関連性の高い情報を収集する:[^32]
- フォローアップ検索が理解を洗練する
- 複数のソースがクロスバリデーションを可能にする
- 深いブラウジングが隠れた詳細を発見する
戦略の洗練
長い軌道は戦略の進化を可能にする:[^33]
- 初期アプローチを放棄できる
- 新しい角度を探索できる
- 統合が遅れて到着した情報を組み込める
オープンソースリリース
MiroMindチームは包括的なリソースをリリースした:[^34]
モデル
| バリアント | HuggingFace |
|---|---|
| MiroThinker-v1.0-8B | 利用可能 |
| MiroThinker-v1.0-30B | 利用可能 |
| MiroThinker-v1.0-72B | 利用可能 |
| MiroThinker-v1.5-30B | 利用可能(更新版) |
コード
- 完全な訓練パイプライン
- 推論実装
- ツール統合例
- 評価スクリプト
エージェント開発への影響
訓練パラダイムシフト
効果的なエージェントは、より良いベースモデルだけでなく、深いインタラクションのための特定の訓練を必要とする可能性がある。[^35]
| 古いアプローチ | 新しいアプローチ |
|---|---|
| LLMを訓練し、ツールを追加 | 深いツール使用のために訓練 |
| プロンプトエンジニアリング | 強化学習 |
| 一桁の呼び出し | 数百の呼び出し |
主要ポイント
MiroThinkerはインタラクションスケーリングをAI能力の第3の実行可能な次元として確立する:
- 新次元:インタラクション深度はモデルサイズとコンテキスト長のようにスケールする
- 600回のツール呼び出し:典型的なエージェントインタラクション深度の30倍で訓練
- 81.9% GAIA:完全にオープンでありながら商用パフォーマンスに迫る
- 3フェーズ訓練:SFT → 選好学習 → RLパイプライン
- エラー修正:環境フィードバックが推論ドリフトを防ぐ
- オープンリリース:モデル、コード、訓練レシピがすべて利用可能
次世代のAIエージェントは、より大きなモデルだけでなく、環境とのより深いエンゲージメントを通じて能力を証明する可能性がある。