s1:1000个训练样本如何击败OpenAI的o1-preview 27%

斯坦福的s1模型使用'预算强制'仅用1K样本就在数学基准测试中超越o1-preview。测试时扩展突破详解。

s1:1000个训练样本如何击败OpenAI的o1-preview 27%

s1:1000个训练样本如何击败OpenAI的o1-preview 27%

斯坦福的研究团队提出了一个简单的问题:测试时扩展的最小可行方法是什么?[^1] 他们的答案颠覆了关于构建推理模型计算需求的假设。s1模型仅在1000个精心挑选的样本上微调,在竞赛数学基准测试中超越OpenAI的o1-preview高达27%。[^2]

TL;DR

s1论文引入了"预算强制",一种通过提前终止推理或附加"Wait"令牌来延长思考来控制模型思考时间的技术。[^3] 研究人员策划了s1K,一个从59000个候选中按难度、多样性和质量选择的1000个问题的数据集。[^4]

s1方法:极简主义

1. 数据集策划(s1K)

标准 目的 实现
难度 需要扩展推理的问题 Claude 3.5 Sonnet需要>4000思考令牌的问题
多样性 防止过拟合 聚类和采样
质量 正确的推理轨迹 人工验证

2. 标准微调

在16个H100 GPU上不到26分钟完成训练。[^19]

3. 推理时的预算强制

强制终止:移除思考结束令牌并添加"Wait"令牌。[^21]

强制继续:重复插入"Wait"令牌延长推理链。[^22]

基准测试结果

基准测试 s1-32B o1-preview 提升
MATH 最高+27% 基线 显著
AIME 2024 57% ~44% +13分

关键要点

  1. 质量胜于数量:1000个优秀样本胜过数百万平庸样本
  2. 简单制胜:预算强制无需RL即可获得竞争性结果
  3. 可及性:与从头训练相比资源需求适中

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING