s1:1,000の訓練例がOpenAIのo1-previewを27%上回った方法
スタンフォードの研究チームはシンプルな質問を投げかけました:テスト時スケーリングの最小限の実行可能なアプローチとは何か?[^1] 彼らの答えは、推論モデル構築の計算要件に関する仮定を覆します。s1モデルは、わずか1,000の慎重に選ばれた例で微調整され、競技数学ベンチマークでOpenAIのo1-previewを最大27%上回ります。[^2]
TL;DR
s1論文は「バジェットフォーシング」を導入します。これは推論を早期に終了するか、「Wait」トークンを追加して熟考を延長することで、モデルがどれだけ長く考えるかを制御する技術です。[^3] 研究者はs1Kをキュレートしました—59,000の候補から難易度、多様性、品質で選ばれた1,000の質問のデータセットです。[^4]
s1アプローチ:過激なシンプルさ
1. データセットキュレーション(s1K)
| 基準 | 目的 | 実装 |
|---|---|---|
| 難易度 | 拡張推論が必要な問題 | Claude 3.5 Sonnetが>4,000思考トークンを必要とした質問 |
| 多様性 | 過学習を防ぐ | クラスタリングとサンプリング |
| 品質 | 正しい推論トレース | 人間による検証 |
2. 標準的な微調整
16台のH100 GPUで26分未満でトレーニング完了。[^19]
3. 推論時のバジェットフォーシング
強制終了:思考終了トークンを削除し、「Wait」トークンを追加。[^21]
強制継続:「Wait」トークンを繰り返し挿入して推論チェーンを延長。[^22]
ベンチマーク結果
| ベンチマーク | s1-32B | o1-preview | 改善 |
|---|---|---|---|
| MATH | 最大+27% | ベースライン | 有意 |
| AIME 2024 | 57% | ~44% | +13ポイント |
主要ポイント
- 量より質:1,000の優れた例が何百万の平凡な例を上回る
- シンプルが勝つ:バジェットフォーシングはRLなしで競争力のある結果を達成
- アクセシビリティ:ゼロからの訓練と比較して控えめなリソース