s1: 1,000개 훈련 예제가 OpenAI의 o1-preview를 27% 앞선 방법
스탠포드 연구팀이 간단한 질문을 던졌습니다: 테스트 시간 스케일링의 최소 실행 가능한 접근 방식은 무엇인가?[^1] 그들의 답은 추론 모델 구축을 위한 계산 요구 사항에 대한 가정을 뒤집습니다. s1 모델은 단 1,000개의 신중하게 선택된 예제로 미세 조정되어 경쟁 수학 벤치마크에서 OpenAI의 o1-preview를 최대 27% 능가합니다.[^2]
TL;DR
s1 논문은 "예산 강제"를 도입합니다—추론을 일찍 종료하거나 "Wait" 토큰을 추가하여 숙고를 연장함으로써 모델이 얼마나 오래 생각하는지 제어하는 기술입니다.[^3]
s1 접근 방식: 급진적 단순성
1. 데이터셋 큐레이션 (s1K)
| 기준 | 목적 | 구현 |
|---|---|---|
| 난이도 | 확장 추론이 필요한 문제 | Claude 3.5 Sonnet이 >4,000 사고 토큰이 필요했던 질문 |
| 다양성 | 과적합 방지 | 클러스터링 및 샘플링 |
| 품질 | 올바른 추론 흔적 | 인간 검증 |
2. 표준 미세 조정
16개 H100 GPU에서 26분 미만에 훈련 완료.[^19]
3. 추론 시 예산 강제
강제 종료: 사고 종료 토큰을 제거하고 "Wait" 토큰 추가.[^21]
강제 계속: "Wait" 토큰을 반복 삽입하여 추론 체인 연장.[^22]
벤치마크 결과
| 벤치마크 | s1-32B | o1-preview | 개선 |
|---|---|---|---|
| MATH | 최대 +27% | 기준선 | 상당함 |
| AIME 2024 | 57% | ~44% | +13점 |
핵심 요점
- 양보다 질: 1,000개의 우수한 예제가 수백만 개의 평범한 것을 능가
- 단순함이 승리: 예산 강제는 RL 없이 경쟁력 있는 결과 달성
- 접근성: 처음부터 훈련하는 것에 비해 적당한 리소스