无需Token的思考:潜在推理如何让3.5B模型表现如50B
思维链推理主导了测试时扩展范式:模型生成可见的推理token,在产生答案前"出声思考"。[^1] 一篇新论文完全挑战了这一假设。通过在潜在空间迭代循环块,研究人员证明35亿参数模型在推理基准测试中达到了相当于500亿参数的性能。[^2]
TL;DR
该论文介绍了一种在推理时展开到任意深度而不产生额外token的架构。[^3] 循环块迭代处理隐藏状态,使模型能够在困难问题上"更努力地思考"。[^4]
Token生成问题
当前推理模型通过生成扩展的推理token链来实现其能力。[^8]
上下文窗口消耗:每个推理token都占用上下文空间。[^9]
延迟扩展:生成token本质上是顺序的。[^10]
潜在推理如何工作
循环块
输入 → 层1-N → 循环块 ↺ → 层N+1-M → 输出
↑___________|
(迭代K次)
循环块转换隐藏状态而不产生任何可见输出。[^14]
推理时的可变深度
| 推理深度 | 计算成本 | 性能 |
|---|---|---|
| 基线 (1x) | 标准 | 基线 |
| 5x迭代 | ~5x计算 | 适度提升 |
| 50x+迭代 | ~50x计算 | 显著提升 |
基准性能
在最大展开时,3.5B模型达到相当于约500亿参数的性能。[^26]
与基于Token推理的比较
| 维度 | 思维链 | 潜在推理 |
|---|---|---|
| 计算扩展 | Token生成 | 循环迭代 |
| 上下文使用 | 消耗上下文 | 上下文中性 |
| 可解释性 | 可见推理 | 不透明 |
关键要点
- 无需Token:推理可完全在隐藏表示空间中进行
- 大规模有效扩展:通过循环深度实现3.5B → 50B等效
- 训练简单性:标准语言建模,无需专门数据
- 灵活推理:部署时可控的计算-性能权衡