s1:1000个训练样本如何击败OpenAI的o1-preview 27%
斯坦福的研究团队提出了一个简单的问题:测试时扩展的最小可行方法是什么?[^1] 他们的答案颠覆了关于构建推理模型计算需求的假设。s1模型仅在1000个精心挑选的样本上微调,在竞赛数学基准测试中超越OpenAI的o1-preview高达27%。[^2]
TL;DR
s1论文引入了"预算强制",一种通过提前终止推理或附加"Wait"令牌来延长思考来控制模型思考时间的技术。[^3] 研究人员策划了s1K,一个从59000个候选中按难度、多样性和质量选择的1000个问题的数据集。[^4]
s1方法:极简主义
1. 数据集策划(s1K)
| 标准 | 目的 | 实现 |
|---|---|---|
| 难度 | 需要扩展推理的问题 | Claude 3.5 Sonnet需要>4000思考令牌的问题 |
| 多样性 | 防止过拟合 | 聚类和采样 |
| 质量 | 正确的推理轨迹 | 人工验证 |
2. 标准微调
在16个H100 GPU上不到26分钟完成训练。[^19]
3. 推理时的预算强制
强制终止:移除思考结束令牌并添加"Wait"令牌。[^21]
强制继续:重复插入"Wait"令牌延长推理链。[^22]
基准测试结果
| 基准测试 | s1-32B | o1-preview | 提升 |
|---|---|---|---|
| MATH | 最高+27% | 基线 | 显著 |
| AIME 2024 | 57% | ~44% | +13分 |
关键要点
- 质量胜于数量:1000个优秀样本胜过数百万平庸样本
- 简单制胜:预算强制无需RL即可获得竞争性结果
- 可及性:与从头训练相比资源需求适中