s1: 1,000개 훈련 예제가 OpenAI의 o1-preview를 27% 앞선 방법

스탠포드의 s1 모델은 '예산 강제'를 사용하여 1K 예제만으로 수학 벤치마크에서 o1-preview를 능가합니다. 테스트 시간 스케일링 돌파구 설명.

s1: 1,000개 훈련 예제가 OpenAI의 o1-preview를 27% 앞선 방법

s1: 1,000개 훈련 예제가 OpenAI의 o1-preview를 27% 앞선 방법

스탠포드 연구팀이 간단한 질문을 던졌습니다: 테스트 시간 스케일링의 최소 실행 가능한 접근 방식은 무엇인가?[^1] 그들의 답은 추론 모델 구축을 위한 계산 요구 사항에 대한 가정을 뒤집습니다. s1 모델은 단 1,000개의 신중하게 선택된 예제로 미세 조정되어 경쟁 수학 벤치마크에서 OpenAI의 o1-preview를 최대 27% 능가합니다.[^2]

TL;DR

s1 논문은 "예산 강제"를 도입합니다—추론을 일찍 종료하거나 "Wait" 토큰을 추가하여 숙고를 연장함으로써 모델이 얼마나 오래 생각하는지 제어하는 기술입니다.[^3]

s1 접근 방식: 급진적 단순성

1. 데이터셋 큐레이션 (s1K)

기준 목적 구현
난이도 확장 추론이 필요한 문제 Claude 3.5 Sonnet이 >4,000 사고 토큰이 필요했던 질문
다양성 과적합 방지 클러스터링 및 샘플링
품질 올바른 추론 흔적 인간 검증

2. 표준 미세 조정

16개 H100 GPU에서 26분 미만에 훈련 완료.[^19]

3. 추론 시 예산 강제

강제 종료: 사고 종료 토큰을 제거하고 "Wait" 토큰 추가.[^21]

강제 계속: "Wait" 토큰을 반복 삽입하여 추론 체인 연장.[^22]

벤치마크 결과

벤치마크 s1-32B o1-preview 개선
MATH 최대 +27% 기준선 상당함
AIME 2024 57% ~44% +13점

핵심 요점

  1. 양보다 질: 1,000개의 우수한 예제가 수백만 개의 평범한 것을 능가
  2. 단순함이 승리: 예산 강제는 RL 없이 경쟁력 있는 결과 달성
  3. 접근성: 처음부터 훈련하는 것에 비해 적당한 리소스

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING