s1: Як 1000 прикладів для навчання перевершили o1-preview від OpenAI на 27%

Модель s1 від Стенфорда використовує 'бюджетне форсування' для перевершення o1-preview на математичних бенчмарках лише з 1K прикладами.

s1: Як 1000 прикладів для навчання перевершили o1-preview від OpenAI на 27%

s1: Як 1000 прикладів для навчання перевершили o1-preview від OpenAI на 27%

Команда дослідників зі Стенфорда поставила просте питання: який мінімально життєздатний підхід до масштабування часу тестування?[^1] Їхня відповідь перевертає припущення про обчислювальні вимоги для побудови моделей міркування. Модель s1, налаштована лише на 1000 ретельно відібраних прикладах, перевершує o1-preview від OpenAI до 27% на змагальних математичних бенчмарках.[^2]

TL;DR

Стаття s1 представляє "бюджетне форсування", техніку, яка контролює, як довго модель думає, завершуючи міркування рано або додаючи токени "Wait".[^3]

Підхід s1: Радикальна простота

1. Курація датасету (s1K)

Критерій Мета Реалізація
Складність Проблеми, що вимагають розширеного міркування Питання, де Claude 3.5 Sonnet потребував >4000 токенів думання
Різноманітність Запобігання перенавчанню Кластеризація та вибірка
Якість Правильні сліди міркування Людська верифікація

2. Стандартне Fine-Tuning

Навчання завершено менш ніж за 26 хвилин на 16 GPU H100.[^19]

3. Бюджетне форсування при інференсі

Примусове завершення: Видаляє токен кінця-думання і додає токен "Wait".[^21]

Примусове продовження: Повторне вставлення токенів "Wait" подовжує ланцюги міркування.[^22]

Результати бенчмарків

Бенчмарк s1-32B o1-preview Покращення
MATH До +27% Базова лінія Значне
AIME 2024 57% ~44% +13 балів

Ключові висновки

  1. Кількість проти якості: 1000 відмінних прикладів перевершують мільйони посередніх
  2. Простота перемагає: Бюджетне форсування досягає конкурентних результатів без RL
  3. Доступність: Скромні ресурси порівняно з навчанням з нуля

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING