MiroThinker:AI智能体的第三个扩展维度
AI扩展一直聚焦于两个维度:模型大小和上下文长度。[^1] MiroThinker引入了第三个维度:交互深度。这个研究智能体发布了8B、30B和72B参数的变体,通过强化学习训练模型处理每个任务多达600次工具调用。[^2] 在GAIA基准测试中,72B变体达到81.9%的准确率,接近GPT-5-high等商业系统,同时保持完全开源。[^3]
摘要
MiroThinker在模型层面探索"交互扩展",系统地训练模型处理更深更频繁的智能体-环境交互。[^4] 与孤立的测试时扩展不同,交互扩展使用环境反馈来纠正错误和优化轨迹。[^5] 凭借256K上下文窗口,智能体每个任务执行多达600次工具调用,为复杂的研究工作流程提供持续的多轮推理。[^6] 训练使用三个阶段:监督微调、偏好学习和组相对策略优化的强化学习。[^7]
智能体扩展问题
当前AI智能体面临根本性限制。随着推理链延长,错误会累积。[^9] 轨迹早期的单个错误可能导致整个任务失败。传统方法通过以下方式解决:
更大的模型:更多参数获得更好的单步准确率[^10] 更长的上下文:更多空间保存推理历史[^11] 更好的提示:改进指令以减少错误[^12]
然而,这些干预措施没有解决核心问题:智能体在扩展推理期间与环境隔离运行。
推理漂移
没有环境反馈的长推理链表现出"推理漂移"——逐渐偏离正确轨迹。[^13] 智能体基于越来越过时或错误的假设继续推理。
| 链长度 | 错误率 | 原因 |
|---|---|---|
| 短(1-5步) | 低 | 有限的复合错误 |
| 中(5-20步) | 中等 | 累积错误 |
| 长(20+步) | 高 | 推理漂移主导 |
反馈解决方案
MiroThinker的洞察:让环境持续纠正智能体。[^14] 智能体不是孤立推理,而是通过与外部工具交互来验证其工作,在错误累积之前捕获它们。
交互扩展定义
交互扩展将智能体-环境交互深度视为可扩展维度,类似于模型大小或上下文长度。[^15]
三个维度
| 维度 | 扩展什么 | 如何帮助 |
|---|---|---|
| 模型大小 | 参数 | 更好的单步质量 |
| 上下文长度 | 令牌窗口 | 更多可用信息 |
| 交互深度 | 工具调用 | 错误纠正、锚定 |
为什么交互不同
与模型大小(训练时固定)或上下文(被动存储)不同,交互深度实现主动验证和航向修正。[^16]
被动扩展:更大的模型和上下文提供更多容量 主动扩展:更多交互提供更多检查、纠正和优化的机会
MiroThinker架构
智能体遵循ReAct框架,并为深度交互进行了特定增强:[^17]
核心循环
思考 → 动作(工具调用) → 观察 → 思考 → ...
每个观察都反馈到智能体的上下文中,为后续推理提供信息。[^18]
工具套件
MiroThinker包含全面的工具包:[^19]
| 类别 | 示例 |
|---|---|
| 网络搜索 | 查询制定、结果解析 |
| 网页浏览 | 页面导航、内容提取 |
| 代码执行 | Python运行时、结果分析 |
| 文件操作 | 读取、写入、分析文档 |
600次工具调用
256K上下文窗口支持每个任务多达600次工具调用。[^20] 作为参考,大多数智能体基准测试涉及少于20次工具调用。MiroThinker以30倍的典型交互深度运行。
训练方法
MiroThinker训练分三个阶段进行:[^21]
第一阶段:监督微调
对成功智能体轨迹的初始训练教授基本工具使用模式:[^22]
- 何时搜索vs浏览
- 如何制定有效查询
- 解释工具输出
- 综合多源信息
第二阶段:偏好学习
模型学习偏好成功轨迹而非失败轨迹:[^23]
- 轨迹结果的二元反馈
- 隐式学习错误恢复
- 偏好高效工具序列
第三阶段:强化学习
组相对策略优化(GRPO)训练扩展交互:[^24]
- 正确最终答案的奖励
- 跨长轨迹的隐式信用分配
- 学习何时坚持vs转换策略
基础模型
MiroThinker建立在开放权重基础上:[^25]
| 大小 | 基础模型 |
|---|---|
| 8B | Qwen2.5-8B |
| 30B | Qwen3-30B |
| 72B | Qwen2.5-72B |
基准性能
GAIA(通用AI助手)
GAIA测试需要网络搜索、推理和多步问题解决的现实助手任务:[^26]
| 模型 | 准确率 |
|---|---|
| MiroThinker-72B | 81.9% |
| GPT-5-high | ~85%(估计) |
| 之前开源SOTA | ~65% |
MiroThinker在完全开放的同时接近商业性能。
HLE(人类最后考试)
跨多个领域的极具挑战性的问题:[^27]
| 模型 | 准确率 |
|---|---|
| MiroThinker-72B | 37.7% |
| 人类专家 | 可变 |
BrowseComp
复杂网页浏览和信息综合:[^28]
| 模型 | 准确率 |
|---|---|
| MiroThinker-72B(英语) | 47.1% |
| MiroThinker-72B(中文) | 55.6% |
中文性能表明强大的多语言迁移。
扩展行为
关键发现:性能随交互深度可预测地提高。[^29]
当MiroThinker参与更多工具调用时: - 准确率提高(达到硬件/上下文限制) - 错误恢复变得更有效 - 复杂任务变得可处理
这表明交互深度展现真正的扩展行为,而非仅仅是收益递减。
与其他方法的比较
vs. Chain-of-Thought
| 维度 | Chain-of-Thought | MiroThinker |
|---|---|---|
| 反馈 | 无(孤立推理) | 持续(工具结果) |
| 错误处理 | 听天由命 | 检测并纠正 |
| 锚定 | 仅文本模式 | 外部验证 |
vs. ReAct智能体
| 维度 | 标准ReAct | MiroThinker |
|---|---|---|
| 交互深度 | 典型10-20次调用 | 多达600次调用 |
| 训练 | 提示工程 | 深度交互的RL |
| 持久性 | 短任务 | 扩展工作流 |
为什么交互扩展有效
论文确定了交互扩展有效性背后的几个机制:[^30]
错误检测
更多工具调用创造更多发现错误的机会:[^31]
- 矛盾的搜索结果揭示错误假设
- 失败的操作暴露无效状态
- 意外输出触发重新考虑
信息获取
扩展交互收集更多相关信息:[^32]
- 后续搜索优化理解
- 多个来源实现交叉验证
- 深度浏览发现隐藏细节
策略优化
长轨迹允许策略演进:[^33]
- 初始方法可以放弃
- 新角度可以探索
- 综合可以纳入后来到达的信息
开源发布
MiroMind团队发布了全面的资源:[^34]
模型
| 变体 | HuggingFace |
|---|---|
| MiroThinker-v1.0-8B | 可用 |
| MiroThinker-v1.0-30B | 可用 |
| MiroThinker-v1.0-72B | 可用 |
| MiroThinker-v1.5-30B | 可用(更新版) |
代码
- 完整训练管道
- 推理实现
- 工具集成示例
- 评估脚本
对智能体开发的影响
训练范式转变
有效的智能体可能需要针对深度交互的特定训练,而不仅仅是更好的基础模型。[^35]
| 旧方法 | 新方法 |
|---|---|
| 训练LLM,添加工具 | 训练深度工具使用 |
| 提示工程 | 强化学习 |
| 个位数调用 | 数百次调用 |
关键要点
MiroThinker将交互扩展确立为AI能力的第三个可行维度:
- 新维度:交互深度像模型大小和上下文长度一样扩展
- 600次工具调用:训练达到30倍典型智能体交互深度
- 81.9% GAIA:完全开放的同时接近商业性能
- 三阶段训练:SFT → 偏好学习 → RL管道
- 错误纠正:环境反馈防止推理漂移
- 开放发布:模型、代码和训练配方均可用
下一代AI智能体可能不仅通过更大的模型证明能力,还通过与环境更深入的互动。