s1: Cách 1.000 Ví Dụ Huấn Luyện Đánh Bại o1-preview của OpenAI 27%

Mô hình s1 của Stanford sử dụng 'budget forcing' để vượt qua o1-preview trên benchmark toán với chỉ 1K ví dụ.

s1: Cách 1.000 Ví Dụ Huấn Luyện Đánh Bại o1-preview của OpenAI 27%

s1: Cách 1.000 Ví Dụ Huấn Luyện Đánh Bại o1-preview của OpenAI 27%

Một nhóm nghiên cứu từ Stanford đặt ra câu hỏi đơn giản: phương pháp tối thiểu khả thi cho test-time scaling là gì?[^1] Câu trả lời của họ lật đổ các giả định về yêu cầu tính toán để xây dựng mô hình lập luận. Mô hình s1, được tinh chỉnh trên chỉ 1.000 ví dụ được chọn cẩn thận, vượt qua o1-preview của OpenAI tới 27% trên benchmark toán thi đấu.[^2]

TL;DR

Bài báo s1 giới thiệu "budget forcing", kỹ thuật kiểm soát thời gian mô hình suy nghĩ bằng cách kết thúc lập luận sớm hoặc thêm token "Wait".[^3]

Phương Pháp s1: Đơn Giản Triệt Để

1. Curation Dataset (s1K)

Tiêu Chí Mục Đích Triển Khai
Độ Khó Vấn đề cần lập luận mở rộng Câu hỏi Claude 3.5 Sonnet cần >4.000 token suy nghĩ
Đa Dạng Ngăn overfitting Phân cụm và lấy mẫu
Chất Lượng Dấu vết lập luận đúng Xác minh con người

2. Fine-Tuning Chuẩn

Huấn luyện hoàn thành trong dưới 26 phút trên 16 GPU H100.[^19]

3. Budget Forcing Khi Suy Luận

Kết Thúc Bắt Buộc: Xóa token kết-thúc-suy-nghĩ và thêm token "Wait".[^21]

Tiếp Tục Bắt Buộc: Chèn lặp lại token "Wait" kéo dài chuỗi lập luận.[^22]

Kết Quả Benchmark

Benchmark s1-32B o1-preview Cải Thiện
MATH Đến +27% Baseline Đáng kể
AIME 2024 57% ~44% +13 điểm

Điểm Chính

  1. Số Lượng vs Chất Lượng: 1.000 ví dụ xuất sắc vượt qua hàng triệu tầm thường
  2. Đơn Giản Thắng: Budget forcing đạt kết quả cạnh tranh không cần RL
  3. Khả Năng Tiếp Cận: Tài nguyên khiêm tốn so với huấn luyện từ đầu

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING