无需Token的思考：潜在推理如何让3.5B模型表现如50B

新架构让AI模型在潜在空间而非生成token中推理。循环深度方法在无需思维链的情况下扩展测试时计算。

Blake Crosley

Jan 07, 2026 1 min read Disclaimer

思维链推理主导了测试时扩展范式：模型生成可见的推理token，在产生答案前"出声思考"。[^1] 一篇新论文完全挑战了这一假设。通过在潜在空间迭代循环块，研究人员证明35亿参数模型在推理基准测试中达到了相当于500亿参数的性能。[^2]

TL;DR

该论文介绍了一种在推理时展开到任意深度而不产生额外token的架构。[^3] 循环块迭代处理隐藏状态，使模型能够在困难问题上"更努力地思考"。[^4]

当前推理模型通过生成扩展的推理token链来实现其能力。[^8]

上下文窗口消耗：每个推理token都占用上下文空间。[^9]

延迟扩展：生成token本质上是顺序的。[^10]

输入 → 层1-N → 循环块 ↺ → 层N+1-M → 输出
                  ↑___________|
                  (迭代K次)

循环块转换隐藏状态而不产生任何可见输出。[^14]

在最大展开时，3.5B模型达到相当于约500亿参数的性能。[^26]