s1: Як 1000 прикладів для навчання перевершили o1-preview від OpenAI на 27%
Команда дослідників зі Стенфорда поставила просте питання: який мінімально життєздатний підхід до масштабування часу тестування?[^1] Їхня відповідь перевертає припущення про обчислювальні вимоги для побудови моделей міркування. Модель s1, налаштована лише на 1000 ретельно відібраних прикладах, перевершує o1-preview від OpenAI до 27% на змагальних математичних бенчмарках.[^2]
TL;DR
Стаття s1 представляє "бюджетне форсування", техніку, яка контролює, як довго модель думає, завершуючи міркування рано або додаючи токени "Wait".[^3]
Підхід s1: Радикальна простота
1. Курація датасету (s1K)
| Критерій | Мета | Реалізація |
|---|---|---|
| Складність | Проблеми, що вимагають розширеного міркування | Питання, де Claude 3.5 Sonnet потребував >4000 токенів думання |
| Різноманітність | Запобігання перенавчанню | Кластеризація та вибірка |
| Якість | Правильні сліди міркування | Людська верифікація |
2. Стандартне Fine-Tuning
Навчання завершено менш ніж за 26 хвилин на 16 GPU H100.[^19]
3. Бюджетне форсування при інференсі
Примусове завершення: Видаляє токен кінця-думання і додає токен "Wait".[^21]
Примусове продовження: Повторне вставлення токенів "Wait" подовжує ланцюги міркування.[^22]
Результати бенчмарків
| Бенчмарк | s1-32B | o1-preview | Покращення |
|---|---|---|---|
| MATH | До +27% | Базова лінія | Значне |
| AIME 2024 | 57% | ~44% | +13 балів |
Ключові висновки
- Кількість проти якості: 1000 відмінних прикладів перевершують мільйони посередніх
- Простота перемагає: Бюджетне форсування досягає конкурентних результатів без RL
- Доступність: Скромні ресурси порівняно з навчанням з нуля