推理时扩展:AI推理能力的新训练前沿
2025年12月12日
2025年12月更新: 推理时扩展已成为AI推理研究的主导前沿。ThreadWeaver在保持准确率的同时实现了1.5倍延迟降低。P1通过强化学习和测试时智能体成为首个在物理奥林匹克竞赛中获得金牌的开源模型。DeepSeek-R1以70%更低成本匹敌OpenAI o1。分析师预测到2030年推理将占据总AI计算量的75%。
要点速览
AI扩展范式已经转变。研究人员不再通过训练更大的模型,而是通过在推理时投入更多计算来实现最先进的推理能力。核心洞察:让模型通过扩展的思维链进行"更长时间的思考",能产生仅靠训练无法实现的推理能力。DeepSeek-R1大规模证明了这一点,通过每次查询生成10-100倍的token来匹敌o1。ThreadWeaver通过并行化推理来降低延迟。P1结合强化学习训练和测试时智能体,在物理奥林匹克竞赛中获得金牌。在基础设施方面,到2026年推理需求将超过训练需求118倍,推动GPU采购向推理优化硬件转型。
发生了什么
三项研究突破展示了推理时扩展的成熟:
DeepSeek-R1(2025年1月):DeepSeek发布R1,证明纯强化学习可以产生匹敌OpenAI o1的推理能力。该模型通过扩展的思维链推理,将AIME基准测试准确率从15.6%提升到71%,采用多数投票后达到86.7%。1
P1物理模型(2025年11月):研究人员发布P1,这是首个在国际物理奥林匹克竞赛(IPhO 2025)中达到金牌水平的开源模型家族。P1-235B-A22B得分21.2/30,仅次于Gemini-2.5-Pro和GPT-5排名第三。2
ThreadWeaver(2025年):ThreadWeaver引入并行推理,在token延迟方面实现平均1.53倍加速,同时保持与顺序推理相当的准确率。该方法支持推理路径的并发探索,而非顺序的思维链。3
对基础设施的重要意义
思维模型:传统扩展在训练时投入计算(更大的模型、更多数据)。推理时扩展在查询时投入计算(更长的推理链、多次尝试、自我验证)。一个70亿参数的模型配合100倍推理计算,可以匹敌一个使用标准推理的700亿参数模型。基础设施影响深远:推理集群比训练集群更重要。
推理成为瓶颈:分析师预测到2026年推理计算需求将超过训练需求118倍。到2030年,推理可能占据总AI计算量的75%,推动7万亿美元的基础设施投资。4
推理模型消耗更多Token:DeepSeek-R1、o1和o3-mini生成的token"比非推理模型多出数个数量级"。OpenAI 2024年的推理支出达到23亿美元:是GPT-4训练成本的15倍。5
GPU基础设施需求激增:黄仁勋表示下一代推理模型需要"高达100倍的计算资源"。6 AI推理市场从1060亿美元(2025年)增长到2550亿美元(2030年),年复合增长率19.2%。
延迟再次成为关键:ThreadWeaver的并行推理解决了一个关键约束。顺序推理延迟与链长度成正比增长。对于实时应用,推理速度成为竞争优势。
技术细节
DeepSeek-R1方法
DeepSeek-R1-Zero通过使用组相对策略优化(GRPO)的纯强化学习来训练推理:7
| 组件 | 详情 |
|---|---|
| 训练方法 | 纯强化学习,无监督微调 |
| 算法 | GRPO(无价值函数的PPO变体) |
| 核心洞察 | 推理时的扩展思维链产生推理能力 |
| AIME表现 | 15.6% → 71%(多数投票后86.7%) |
| 成本优势 | 推理成本比同类模型低70% |
值得注意的是,DeepSeek明确将过程奖励模型和蒙特卡洛树搜索等方法归类为"不成功的尝试"。这一发现表明,纯强化学习配合更长的响应可以作为隐式的推理时扩展。8
ThreadWeaver并行推理
ThreadWeaver实现并发推理路径,而非顺序的思维链:9
| 创新 | 描述 |
|---|---|
| 并行轨迹生成器 | 生成带有并行标注的思维链数据 |
| 基于Trie的协同设计 | 无需修改位置嵌入即可实现并行推理 |
| P-GRPO算法 | 联合优化准确率和延迟降低 |
基于Qwen3-8B的性能表现:
| 基准测试 | ThreadWeaver | 顺序推理 | 加速比 |
|---|---|---|---|
| AIME24 | 79.9% | 78.3% | 1.14x |
| AMC23 | — | — | 1.16x |
| MATH500 | — | — | 1.23x |
| OlympiadBench | — | — | 1.21x |
| Minerva Math | — | — | 1.53x |
P1物理模型
P1结合了训练时和测试时扩展:10
训练时(强化学习后训练): - 基于基础语言模型的多阶段强化学习框架 - 渐进式推理能力增强 - 解决奖励稀疏和熵崩溃问题
测试时(PhysicsMinions智能体): - Visual Studio:视觉分析 - Logic Studio:逻辑推理 - Review Studio:解答验证 - 多轮反思和自我修正
IPhO 2025成绩:
| 模型 | 得分 | 排名 |
|---|---|---|
| Gemini-2.5-Pro | 37.7 | — |
| GPT-5 | 37.4 | — |
| P1-235B + PhysicsMinions | 38.4 | 第1名 |
| P1-235B-A22B(单独) | 21.2/30 | 金牌 |
推理计算预测
| 指标 | 数值 | 来源 |
|---|---|---|
| 2025年推理市场规模 | 1060亿美元 | MarketsandMarkets |
| 2030年推理市场规模 | 2550亿美元 | MarketsandMarkets |
| 2027年推理芯片市场 | 1020亿美元 | 路透社 |
| 推理占AI计算比例(2030年) | 75% | 行业分析 |
| 训练与推理需求比(2026年) | 1:118 | 分析师估计 |
| 全球AI计算增长(2025-2027) | 10倍 | AI 2027预测 |
政策和监管影响
现有法规使用训练计算阈值(如欧盟AI法案的10^25 FLOPs)。然而,推理时扩展改变了计算方式:11
- 模型可以通过推理计算而非仅靠训练来实现高能力
- 具有广泛测试时推理的较小训练模型可能超过阈值模型的能力
- 政策制定者如果仅关注训练计算,可能会"低估模型的实际影响"
未来展望
2026年:预计推理需求将超过训练118倍。数据中心规划向推理优化架构转型。
2027年:预计全球AI相关计算将达到1亿H100等效单位(比2025年3月增长10倍)。12
持续进展:并行推理(ThreadWeaver)、多智能体系统(PhysicsMinions)和基于强化学习的推理(DeepSeek、P1)研究持续推进。
基础设施转型:专用推理基础设施(NVIDIA Blackwell、TPU v5e、Groq LPU)成为主导计算类别。
核心要点
对于基础设施规划者: - 预计到2030年推理将占据75%的AI计算量 - 推理模型消耗的token是标准模型的10-100倍 - 延迟优化(ThreadWeaver式并行)产生硬件需求 - 在容量规划中考虑推理密集型工作负载
对于运维团队: - NVIDIA Blackwell针对大规模推理优化(每机架1.4 exaFLOPS) - 监控推理成本,可能超过训练成本15倍(参考OpenAI 2024年数据) - 测试时计算调优影响延迟和成本权衡 - 智能体框架(PhysicsMinions)增加多轮推理开销
对于战略规划: - 训练与推理计算比例正在剧烈变化 - 较小模型+大量推理可以匹敌更大的训练模型 - DeepSeek-R1通过效率优化展示了70%的成本优势 - 政策框架可能扩展到训练计算阈值之外
参考文献
如需支持推理密集型AI工作负载的GPU基础设施,请联系Introl。
-
HuggingFace Blog. "What is test-time compute and how to scale it?" 2025. ↩
-
arXiv. "P1: Mastering Physics Olympiads with Reinforcement Learning." November 2025. ↩
-
ThreadWeaver. "Adaptive Threading for Efficient Parallel Reasoning." 2025. ↩
-
WhiteFiber. "How Inference Will Reshape AI Infrastructure and Compute Demand." 2025. ↩
-
Sebastian Raschka. "Inference-Time Compute Scaling Methods to Improve Reasoning Models." 2025. ↩
-
NVIDIA. "AI Inference Solutions." 2025. ↩
-
Medium. "Understanding Reasoning Models & Test-Time Compute: Insights from DeepSeek-R1." 2025. ↩
-
DeepSeek. "DeepSeek-R1 Technical Report." January 2025. ↩
-
ThreadWeaver Paper. "ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning." 2025. ↩
-
GitHub. "PRIME-RL/P1: Mastering Physics Olympiads with Reinforcement Learning." 2025. ↩
-
Austin Ellis-Mohr. "Inference-Time Compute Scaling Policy Considerations." 2025. ↩
-
AI 2027. "Compute Forecast." 2025. ↩
-
MarketsandMarkets. "AI Inference Market Size, Share & Growth, 2025 To 2030." 2025. ↩
-
NVIDIA Developer Blog. "Automating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling." 2025. ↩
-
arXiv. "Evaluating Test-Time Scaling LLMs for Legal Reasoning." 2025. ↩
-
Neurohive. "P1: First Open-Source Model to Win Gold at the International Physics Olympiad." 2025. ↩