无需Token的思考:潜在推理如何让3.5B模型表现如50B

新架构让AI模型在潜在空间而非生成token中推理。循环深度方法在无需思维链的情况下扩展测试时计算。

无需Token的思考:潜在推理如何让3.5B模型表现如50B

无需Token的思考:潜在推理如何让3.5B模型表现如50B

思维链推理主导了测试时扩展范式:模型生成可见的推理token,在产生答案前"出声思考"。[^1] 一篇新论文完全挑战了这一假设。通过在潜在空间迭代循环块,研究人员证明35亿参数模型在推理基准测试中达到了相当于500亿参数的性能。[^2]

TL;DR

该论文介绍了一种在推理时展开到任意深度而不产生额外token的架构。[^3] 循环块迭代处理隐藏状态,使模型能够在困难问题上"更努力地思考"。[^4]

Token生成问题

当前推理模型通过生成扩展的推理token链来实现其能力。[^8]

上下文窗口消耗:每个推理token都占用上下文空间。[^9]

延迟扩展:生成token本质上是顺序的。[^10]

潜在推理如何工作

循环块

输入 → 层1-N → 循环块 ↺ → 层N+1-M → 输出
                  ↑___________|
                  (迭代K次)

循环块转换隐藏状态而不产生任何可见输出。[^14]

推理时的可变深度

推理深度 计算成本 性能
基线 (1x) 标准 基线
5x迭代 ~5x计算 适度提升
50x+迭代 ~50x计算 显著提升

基准性能

在最大展开时,3.5B模型达到相当于约500亿参数的性能。[^26]

与基于Token推理的比较

维度 思维链 潜在推理
计算扩展 Token生成 循环迭代
上下文使用 消耗上下文 上下文中性
可解释性 可见推理 不透明

关键要点

  1. 无需Token:推理可完全在隐藏表示空间中进行
  2. 大规模有效扩展:通过循环深度实现3.5B → 50B等效
  3. 训练简单性:标准语言建模,无需专门数据
  4. 灵活推理:部署时可控的计算-性能权衡

申请报价_

告诉我们您的项目需求,我们将在72小时内回复。

> 传输完成

请求已收到_

感谢您的咨询。我们的团队将审核您的请求并在72小时内回复。

排队处理中