s1: Як 1000 прикладів для навчання перевершили o1-preview від OpenAI на 27%

Модель s1 від Стенфорда використовує 'бюджетне форсування' для перевершення o1-preview на математичних бенчмарках лише з 1K прикладами.

s1: Як 1000 прикладів для навчання перевершили o1-preview від OpenAI на 27%

s1: Як 1000 прикладів для навчання перевершили o1-preview від OpenAI на 27%

Команда дослідників зі Стенфорда поставила просте питання: який мінімально життєздатний підхід до масштабування часу тестування?[^1] Їхня відповідь перевертає припущення про обчислювальні вимоги для побудови моделей міркування. Модель s1, налаштована лише на 1000 ретельно відібраних прикладах, перевершує o1-preview від OpenAI до 27% на змагальних математичних бенчмарках.[^2]

TL;DR

Стаття s1 представляє "бюджетне форсування", техніку, яка контролює, як довго модель думає, завершуючи міркування рано або додаючи токени "Wait".[^3]

Підхід s1: Радикальна простота

1. Курація датасету (s1K)

Критерій Мета Реалізація
Складність Проблеми, що вимагають розширеного міркування Питання, де Claude 3.5 Sonnet потребував >4000 токенів думання
Різноманітність Запобігання перенавчанню Кластеризація та вибірка
Якість Правильні сліди міркування Людська верифікація

2. Стандартне Fine-Tuning

Навчання завершено менш ніж за 26 хвилин на 16 GPU H100.[^19]

3. Бюджетне форсування при інференсі

Примусове завершення: Видаляє токен кінця-думання і додає токен "Wait".[^21]

Примусове продовження: Повторне вставлення токенів "Wait" подовжує ланцюги міркування.[^22]

Результати бенчмарків

Бенчмарк s1-32B o1-preview Покращення
MATH До +27% Базова лінія Значне
AIME 2024 57% ~44% +13 балів

Ключові висновки

  1. Кількість проти якості: 1000 відмінних прикладів перевершують мільйони посередніх
  2. Простота перемагає: Бюджетне форсування досягає конкурентних результатів без RL
  3. Доступність: Скромні ресурси порівняно з навчанням з нуля

Запросити пропозицію_

Розкажіть про ваш проект і ми відповімо протягом 72 годин.

> ПЕРЕДАЧА_ЗАВЕРШЕНА

Запит отримано_

Дякуємо за ваш запит. Наша команда розгляне його та відповість протягом 72 годин.

В ЧЕРЗІ НА ОБРОБКУ