s1:1,000の訓練例がOpenAIのo1-previewを27%上回った方法

スタンフォードのs1モデルは「バジェットフォーシング」を使用し、わずか1K例で数学ベンチマークでo1-previewを上回る。テスト時スケーリングのブレークスルーを解説。

s1:1,000の訓練例がOpenAIのo1-previewを27%上回った方法

s1:1,000の訓練例がOpenAIのo1-previewを27%上回った方法

スタンフォードの研究チームはシンプルな質問を投げかけました:テスト時スケーリングの最小限の実行可能なアプローチとは何か?[^1] 彼らの答えは、推論モデル構築の計算要件に関する仮定を覆します。s1モデルは、わずか1,000の慎重に選ばれた例で微調整され、競技数学ベンチマークでOpenAIのo1-previewを最大27%上回ります。[^2]

TL;DR

s1論文は「バジェットフォーシング」を導入します。これは推論を早期に終了するか、「Wait」トークンを追加して熟考を延長することで、モデルがどれだけ長く考えるかを制御する技術です。[^3] 研究者はs1Kをキュレートしました—59,000の候補から難易度、多様性、品質で選ばれた1,000の質問のデータセットです。[^4]

s1アプローチ:過激なシンプルさ

1. データセットキュレーション(s1K)

基準 目的 実装
難易度 拡張推論が必要な問題 Claude 3.5 Sonnetが>4,000思考トークンを必要とした質問
多様性 過学習を防ぐ クラスタリングとサンプリング
品質 正しい推論トレース 人間による検証

2. 標準的な微調整

16台のH100 GPUで26分未満でトレーニング完了。[^19]

3. 推論時のバジェットフォーシング

強制終了:思考終了トークンを削除し、「Wait」トークンを追加。[^21]

強制継続:「Wait」トークンを繰り返し挿入して推論チェーンを延長。[^22]

ベンチマーク結果

ベンチマーク s1-32B o1-preview 改善
MATH 最大+27% ベースライン 有意
AIME 2024 57% ~44% +13ポイント

主要ポイント

  1. 量より質:1,000の優れた例が何百万の平凡な例を上回る
  2. シンプルが勝つ:バジェットフォーシングはRLなしで競争力のある結果を達成
  3. アクセシビリティ:ゼロからの訓練と比較して控えめなリソース

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING