MiroThinker:AI智能体的第三个扩展维度

MiroThinker引入交互扩展——训练智能体处理每个任务600次工具调用。GAIA基准测试达81.9%。超越模型大小和上下文的新维度。

MiroThinker:AI智能体的第三个扩展维度

MiroThinker:AI智能体的第三个扩展维度

AI扩展一直聚焦于两个维度:模型大小和上下文长度。[^1] MiroThinker引入了第三个维度:交互深度。这个研究智能体发布了8B、30B和72B参数的变体,通过强化学习训练模型处理每个任务多达600次工具调用。[^2] 在GAIA基准测试中,72B变体达到81.9%的准确率,接近GPT-5-high等商业系统,同时保持完全开源。[^3]

摘要

MiroThinker在模型层面探索"交互扩展",系统地训练模型处理更深更频繁的智能体-环境交互。[^4] 与孤立的测试时扩展不同,交互扩展使用环境反馈来纠正错误和优化轨迹。[^5] 凭借256K上下文窗口,智能体每个任务执行多达600次工具调用,为复杂的研究工作流程提供持续的多轮推理。[^6] 训练使用三个阶段:监督微调、偏好学习和组相对策略优化的强化学习。[^7]

智能体扩展问题

当前AI智能体面临根本性限制。随着推理链延长,错误会累积。[^9] 轨迹早期的单个错误可能导致整个任务失败。传统方法通过以下方式解决:

更大的模型:更多参数获得更好的单步准确率[^10] 更长的上下文:更多空间保存推理历史[^11] 更好的提示:改进指令以减少错误[^12]

然而,这些干预措施没有解决核心问题:智能体在扩展推理期间与环境隔离运行。

推理漂移

没有环境反馈的长推理链表现出"推理漂移"——逐渐偏离正确轨迹。[^13] 智能体基于越来越过时或错误的假设继续推理。

链长度 错误率 原因
短(1-5步) 有限的复合错误
中(5-20步) 中等 累积错误
长(20+步) 推理漂移主导

反馈解决方案

MiroThinker的洞察:让环境持续纠正智能体。[^14] 智能体不是孤立推理,而是通过与外部工具交互来验证其工作,在错误累积之前捕获它们。

交互扩展定义

交互扩展将智能体-环境交互深度视为可扩展维度,类似于模型大小或上下文长度。[^15]

三个维度

维度 扩展什么 如何帮助
模型大小 参数 更好的单步质量
上下文长度 令牌窗口 更多可用信息
交互深度 工具调用 错误纠正、锚定

为什么交互不同

与模型大小(训练时固定)或上下文(被动存储)不同,交互深度实现主动验证和航向修正。[^16]

被动扩展:更大的模型和上下文提供更多容量 主动扩展:更多交互提供更多检查、纠正和优化的机会

MiroThinker架构

智能体遵循ReAct框架,并为深度交互进行了特定增强:[^17]

核心循环

思考 → 动作(工具调用) → 观察 → 思考 → ...

每个观察都反馈到智能体的上下文中,为后续推理提供信息。[^18]

工具套件

MiroThinker包含全面的工具包:[^19]

类别 示例
网络搜索 查询制定、结果解析
网页浏览 页面导航、内容提取
代码执行 Python运行时、结果分析
文件操作 读取、写入、分析文档

600次工具调用

256K上下文窗口支持每个任务多达600次工具调用。[^20] 作为参考,大多数智能体基准测试涉及少于20次工具调用。MiroThinker以30倍的典型交互深度运行。

训练方法

MiroThinker训练分三个阶段进行:[^21]

第一阶段:监督微调

对成功智能体轨迹的初始训练教授基本工具使用模式:[^22]

  • 何时搜索vs浏览
  • 如何制定有效查询
  • 解释工具输出
  • 综合多源信息

第二阶段:偏好学习

模型学习偏好成功轨迹而非失败轨迹:[^23]

  • 轨迹结果的二元反馈
  • 隐式学习错误恢复
  • 偏好高效工具序列

第三阶段:强化学习

组相对策略优化(GRPO)训练扩展交互:[^24]

  • 正确最终答案的奖励
  • 跨长轨迹的隐式信用分配
  • 学习何时坚持vs转换策略

基础模型

MiroThinker建立在开放权重基础上:[^25]

大小 基础模型
8B Qwen2.5-8B
30B Qwen3-30B
72B Qwen2.5-72B

基准性能

GAIA(通用AI助手)

GAIA测试需要网络搜索、推理和多步问题解决的现实助手任务:[^26]

模型 准确率
MiroThinker-72B 81.9%
GPT-5-high ~85%(估计)
之前开源SOTA ~65%

MiroThinker在完全开放的同时接近商业性能。

HLE(人类最后考试)

跨多个领域的极具挑战性的问题:[^27]

模型 准确率
MiroThinker-72B 37.7%
人类专家 可变

BrowseComp

复杂网页浏览和信息综合:[^28]

模型 准确率
MiroThinker-72B(英语) 47.1%
MiroThinker-72B(中文) 55.6%

中文性能表明强大的多语言迁移。

扩展行为

关键发现:性能随交互深度可预测地提高。[^29]

当MiroThinker参与更多工具调用时: - 准确率提高(达到硬件/上下文限制) - 错误恢复变得更有效 - 复杂任务变得可处理

这表明交互深度展现真正的扩展行为,而非仅仅是收益递减。

与其他方法的比较

vs. Chain-of-Thought

维度 Chain-of-Thought MiroThinker
反馈 无(孤立推理) 持续(工具结果)
错误处理 听天由命 检测并纠正
锚定 仅文本模式 外部验证

vs. ReAct智能体

维度 标准ReAct MiroThinker
交互深度 典型10-20次调用 多达600次调用
训练 提示工程 深度交互的RL
持久性 短任务 扩展工作流

为什么交互扩展有效

论文确定了交互扩展有效性背后的几个机制:[^30]

错误检测

更多工具调用创造更多发现错误的机会:[^31]

  • 矛盾的搜索结果揭示错误假设
  • 失败的操作暴露无效状态
  • 意外输出触发重新考虑

信息获取

扩展交互收集更多相关信息:[^32]

  • 后续搜索优化理解
  • 多个来源实现交叉验证
  • 深度浏览发现隐藏细节

策略优化

长轨迹允许策略演进:[^33]

  • 初始方法可以放弃
  • 新角度可以探索
  • 综合可以纳入后来到达的信息

开源发布

MiroMind团队发布了全面的资源:[^34]

模型

变体 HuggingFace
MiroThinker-v1.0-8B 可用
MiroThinker-v1.0-30B 可用
MiroThinker-v1.0-72B 可用
MiroThinker-v1.5-30B 可用(更新版)

代码

  • 完整训练管道
  • 推理实现
  • 工具集成示例
  • 评估脚本

对智能体开发的影响

训练范式转变

有效的智能体可能需要针对深度交互的特定训练,而不仅仅是更好的基础模型。[^35]

旧方法 新方法
训练LLM,添加工具 训练深度工具使用
提示工程 强化学习
个位数调用 数百次调用

关键要点

MiroThinker将交互扩展确立为AI能力的第三个可行维度:

  1. 新维度:交互深度像模型大小和上下文长度一样扩展
  2. 600次工具调用:训练达到30倍典型智能体交互深度
  3. 81.9% GAIA:完全开放的同时接近商业性能
  4. 三阶段训练:SFT → 偏好学习 → RL管道
  5. 错误纠正:环境反馈防止推理漂移
  6. 开放发布:模型、代码和训练配方均可用

下一代AI智能体可能不仅通过更大的模型证明能力,还通过与环境更深入的互动。

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING