s1：1,000の訓練例がOpenAIのo1-previewを27%上回った方法

スタンフォードのs1モデルは「バジェットフォーシング」を使用し、わずか1K例で数学ベンチマークでo1-previewを上回る。テスト時スケーリングのブレークスルーを解説。

Blake Crosley

Jan 07, 2026 1 min read Disclaimer

s1：1,000の訓練例がOpenAIのo1-previewを27%上回った方法

スタンフォードの研究チームはシンプルな質問を投げかけました：テスト時スケーリングの最小限の実行可能なアプローチとは何か？[^1] 彼らの答えは、推論モデル構築の計算要件に関する仮定を覆します。s1モデルは、わずか1,000の慎重に選ばれた例で微調整され、競技数学ベンチマークでOpenAIのo1-previewを最大27%上回ります。[^2]

TL;DR

s1論文は「バジェットフォーシング」を導入します。これは推論を早期に終了するか、「Wait」トークンを追加して熟考を延長することで、モデルがどれだけ長く考えるかを制御する技術です。[^3] 研究者はs1Kをキュレートしました—59,000の候補から難易度、多様性、品質で選ばれた1,000の質問のデータセットです。[^4]

s1アプローチ：過激なシンプルさ

1. データセットキュレーション（s1K）

基準	目的	実装
難易度	拡張推論が必要な問題	Claude 3.5 Sonnetが>4,000思考トークンを必要とした質問
多様性	過学習を防ぐ	クラスタリングとサンプリング
品質	正しい推論トレース	人間による検証

2. 標準的な微調整

16台のH100 GPUで26分未満でトレーニング完了。[^19]

3. 推論時のバジェットフォーシング

強制終了：思考終了トークンを削除し、「Wait」トークンを追加。[^21]

強制継続：「Wait」トークンを繰り返し挿入して推論チェーンを延長。[^22]

ベンチマーク結果

ベンチマーク	s1-32B	o1-preview	改善
MATH	最大+27%	ベースライン	有意
AIME 2024	57%	~44%	+13ポイント

主要ポイント

量より質：1,000の優れた例が何百万の平凡な例を上回る
シンプルが勝つ：バジェットフォーシングはRLなしで競争力のある結果を達成
アクセシビリティ：ゼロからの訓練と比較して控えめなリソース

s1：1,000の訓練例がOpenAIのo1-previewを27%上回った方法

TL;DR

s1アプローチ：過激なシンプルさ

1. データセットキュレーション（s1K）

2. 標準的な微調整

3. 推論時のバジェットフォーシング

ベンチマーク結果

主要ポイント

You Might Also Like

日本のAIインフラ：アジア最大の経済大国が目覚める

KVキャッシュ最適化：本番LLMのためのメモリ効率化

シンガポールと東南アジアがグローバルAIインフラの中心地として台頭

お見積り依頼_

リクエストを受信しました_