s1: Як 1000 прикладів для навчання перевершили o1-preview від OpenAI на 27%

Модель s1 від Стенфорда використовує 'бюджетне форсування' для перевершення o1-preview на математичних бенчмарках лише з 1K прикладами.

Blake Crosley

Jan 07, 2026 1 min read Disclaimer

s1: Як 1000 прикладів для навчання перевершили o1-preview від OpenAI на 27%

Команда дослідників зі Стенфорда поставила просте питання: який мінімально життєздатний підхід до масштабування часу тестування?[^1] Їхня відповідь перевертає припущення про обчислювальні вимоги для побудови моделей міркування. Модель s1, налаштована лише на 1000 ретельно відібраних прикладах, перевершує o1-preview від OpenAI до 27% на змагальних математичних бенчмарках.[^2]

TL;DR

Стаття s1 представляє "бюджетне форсування", техніку, яка контролює, як довго модель думає, завершуючи міркування рано або додаючи токени "Wait".[^3]

Підхід s1: Радикальна простота

1. Курація датасету (s1K)

Критерій	Мета	Реалізація
Складність	Проблеми, що вимагають розширеного міркування	Питання, де Claude 3.5 Sonnet потребував >4000 токенів думання
Різноманітність	Запобігання перенавчанню	Кластеризація та вибірка
Якість	Правильні сліди міркування	Людська верифікація

2. Стандартне Fine-Tuning

Навчання завершено менш ніж за 26 хвилин на 16 GPU H100.[^19]

3. Бюджетне форсування при інференсі

Примусове завершення: Видаляє токен кінця-думання і додає токен "Wait".[^21]

Примусове продовження: Повторне вставлення токенів "Wait" подовжує ланцюги міркування.[^22]

Результати бенчмарків

Бенчмарк	s1-32B	o1-preview	Покращення
MATH	До +27%	Базова лінія	Значне
AIME 2024	57%	~44%	+13 балів

Ключові висновки

Кількість проти якості: 1000 відмінних прикладів перевершують мільйони посередніх
Простота перемагає: Бюджетне форсування досягає конкурентних результатів без RL
Доступність: Скромні ресурси порівняно з навчанням з нуля

s1: Як 1000 прикладів для навчання перевершили o1-preview від OpenAI на 27%

TL;DR

Підхід s1: Радикальна простота

1. Курація датасету (s1K)

2. Стандартне Fine-Tuning

3. Бюджетне форсування при інференсі

Результати бенчмарків

Ключові висновки

You Might Also Like

ШІ-інфраструктура Японії: найбільша економіка Азії прокидаєт...

Оптимізація KV-кешу: ефективне використання пам'яті для прод...

Сінгапур і Південно-Східна Азія стають глобальними центрами ...

Запросити пропозицію_

Запит отримано_