MiroThinker：AI智能体的第三个扩展维度

MiroThinker引入交互扩展——训练智能体处理每个任务600次工具调用。GAIA基准测试达81.9%。超越模型大小和上下文的新维度。

Blake Crosley

Jan 07, 2026 1 min read Disclaimer

MiroThinker：AI智能体的第三个扩展维度

AI扩展一直聚焦于两个维度：模型大小和上下文长度。[^1] MiroThinker引入了第三个维度：交互深度。这个研究智能体发布了8B、30B和72B参数的变体，通过强化学习训练模型处理每个任务多达600次工具调用。[^2] 在GAIA基准测试中，72B变体达到81.9%的准确率，接近GPT-5-high等商业系统，同时保持完全开源。[^3]

摘要

MiroThinker在模型层面探索"交互扩展"，系统地训练模型处理更深更频繁的智能体-环境交互。[^4] 与孤立的测试时扩展不同，交互扩展使用环境反馈来纠正错误和优化轨迹。[^5] 凭借256K上下文窗口，智能体每个任务执行多达600次工具调用，为复杂的研究工作流程提供持续的多轮推理。[^6] 训练使用三个阶段：监督微调、偏好学习和组相对策略优化的强化学习。[^7]

智能体扩展问题

当前AI智能体面临根本性限制。随着推理链延长，错误会累积。[^9] 轨迹早期的单个错误可能导致整个任务失败。传统方法通过以下方式解决：

更大的模型：更多参数获得更好的单步准确率[^10] 更长的上下文：更多空间保存推理历史[^11] 更好的提示：改进指令以减少错误[^12]

然而，这些干预措施没有解决核心问题：智能体在扩展推理期间与环境隔离运行。

推理漂移

没有环境反馈的长推理链表现出"推理漂移"——逐渐偏离正确轨迹。[^13] 智能体基于越来越过时或错误的假设继续推理。

链长度	错误率	原因
短（1-5步）	低	有限的复合错误
中（5-20步）	中等	累积错误
长（20+步）	高	推理漂移主导

反馈解决方案

MiroThinker的洞察：让环境持续纠正智能体。[^14] 智能体不是孤立推理，而是通过与外部工具交互来验证其工作，在错误累积之前捕获它们。

交互扩展定义

交互扩展将智能体-环境交互深度视为可扩展维度，类似于模型大小或上下文长度。[^15]

三个维度

维度	扩展什么	如何帮助
模型大小	参数	更好的单步质量
上下文长度	令牌窗口	更多可用信息
交互深度	工具调用	错误纠正、锚定

为什么交互不同

与模型大小（训练时固定）或上下文（被动存储）不同，交互深度实现主动验证和航向修正。[^16]

被动扩展：更大的模型和上下文提供更多容量 主动扩展：更多交互提供更多检查、纠正和优化的机会

MiroThinker架构

智能体遵循ReAct框架，并为深度交互进行了特定增强：[^17]

核心循环

思考 → 动作（工具调用） → 观察 → 思考 → ...

每个观察都反馈到智能体的上下文中，为后续推理提供信息。[^18]

工具套件

MiroThinker包含全面的工具包：[^19]

类别	示例
网络搜索	查询制定、结果解析
网页浏览	页面导航、内容提取
代码执行	Python运行时、结果分析
文件操作	读取、写入、分析文档

600次工具调用

256K上下文窗口支持每个任务多达600次工具调用。[^20] 作为参考，大多数智能体基准测试涉及少于20次工具调用。MiroThinker以30倍的典型交互深度运行。

训练方法

MiroThinker训练分三个阶段进行：[^21]

第一阶段：监督微调

对成功智能体轨迹的初始训练教授基本工具使用模式：[^22]

何时搜索vs浏览
如何制定有效查询
解释工具输出
综合多源信息

第二阶段：偏好学习

模型学习偏好成功轨迹而非失败轨迹：[^23]

轨迹结果的二元反馈
隐式学习错误恢复
偏好高效工具序列

第三阶段：强化学习

组相对策略优化（GRPO）训练扩展交互：[^24]

正确最终答案的奖励
跨长轨迹的隐式信用分配
学习何时坚持vs转换策略

基础模型

MiroThinker建立在开放权重基础上：[^25]

大小	基础模型
8B	Qwen2.5-8B
30B	Qwen3-30B
72B	Qwen2.5-72B

基准性能

GAIA（通用AI助手）

GAIA测试需要网络搜索、推理和多步问题解决的现实助手任务：[^26]

模型	准确率
MiroThinker-72B	81.9%
GPT-5-high	~85%（估计）
之前开源SOTA	~65%

MiroThinker在完全开放的同时接近商业性能。

HLE（人类最后考试）

跨多个领域的极具挑战性的问题：[^27]

模型	准确率
MiroThinker-72B	37.7%
人类专家	可变

BrowseComp

复杂网页浏览和信息综合：[^28]

模型	准确率
MiroThinker-72B（英语）	47.1%
MiroThinker-72B（中文）	55.6%

中文性能表明强大的多语言迁移。

扩展行为

关键发现：性能随交互深度可预测地提高。[^29]

当MiroThinker参与更多工具调用时： - 准确率提高（达到硬件/上下文限制） - 错误恢复变得更有效 - 复杂任务变得可处理

这表明交互深度展现真正的扩展行为，而非仅仅是收益递减。

与其他方法的比较

vs. Chain-of-Thought

维度	Chain-of-Thought	MiroThinker
反馈	无（孤立推理）	持续（工具结果）
错误处理	听天由命	检测并纠正
锚定	仅文本模式	外部验证

vs. ReAct智能体

维度	标准ReAct	MiroThinker
交互深度	典型10-20次调用	多达600次调用
训练	提示工程	深度交互的RL
持久性	短任务	扩展工作流

为什么交互扩展有效

论文确定了交互扩展有效性背后的几个机制：[^30]

错误检测

更多工具调用创造更多发现错误的机会：[^31]

矛盾的搜索结果揭示错误假设
失败的操作暴露无效状态
意外输出触发重新考虑

信息获取

扩展交互收集更多相关信息：[^32]

后续搜索优化理解
多个来源实现交叉验证
深度浏览发现隐藏细节

策略优化

长轨迹允许策略演进：[^33]

初始方法可以放弃
新角度可以探索
综合可以纳入后来到达的信息

开源发布

MiroMind团队发布了全面的资源：[^34]

模型

变体	HuggingFace
MiroThinker-v1.0-8B	可用
MiroThinker-v1.0-30B	可用
MiroThinker-v1.0-72B	可用
MiroThinker-v1.5-30B	可用（更新版）

代码

完整训练管道
推理实现
工具集成示例
评估脚本

对智能体开发的影响

训练范式转变

有效的智能体可能需要针对深度交互的特定训练，而不仅仅是更好的基础模型。[^35]

旧方法	新方法
训练LLM，添加工具	训练深度工具使用
提示工程	强化学习
个位数调用	数百次调用

关键要点

MiroThinker将交互扩展确立为AI能力的第三个可行维度：

新维度：交互深度像模型大小和上下文长度一样扩展
600次工具调用：训练达到30倍典型智能体交互深度
81.9% GAIA：完全开放的同时接近商业性能
三阶段训练：SFT → 偏好学习 → RL管道
错误纠正：环境反馈防止推理漂移
开放发布：模型、代码和训练配方均可用

下一代AI智能体可能不仅通过更大的模型证明能力，还通过与环境更深入的互动。

MiroThinker：AI智能体的第三个扩展维度

摘要

智能体扩展问题

推理漂移

反馈解决方案

交互扩展定义

三个维度

为什么交互不同

MiroThinker架构

核心循环

工具套件

600次工具调用

训练方法

第一阶段：监督微调

第二阶段：偏好学习

第三阶段：强化学习

基础模型

基准性能

GAIA（通用AI助手）

HLE（人类最后考试）

BrowseComp

扩展行为

与其他方法的比较

vs. Chain-of-Thought

vs. ReAct智能体

为什么交互扩展有效

错误检测

信息获取

策略优化

开源发布

模型

代码

对智能体开发的影响

训练范式转变

关键要点

You Might Also Like

日本AI基础设施：亚洲最大经济体的觉醒

KV缓存优化：生产级LLM的内存效率

模块化数据中心设计：AI快速部署12个月建设指南

申请报价_

请求已收到_