s1: Cách 1.000 Ví Dụ Huấn Luyện Đánh Bại o1-preview của OpenAI 27%
Một nhóm nghiên cứu từ Stanford đặt ra câu hỏi đơn giản: phương pháp tối thiểu khả thi cho test-time scaling là gì?[^1] Câu trả lời của họ lật đổ các giả định về yêu cầu tính toán để xây dựng mô hình lập luận. Mô hình s1, được tinh chỉnh trên chỉ 1.000 ví dụ được chọn cẩn thận, vượt qua o1-preview của OpenAI tới 27% trên benchmark toán thi đấu.[^2]
TL;DR
Bài báo s1 giới thiệu "budget forcing", kỹ thuật kiểm soát thời gian mô hình suy nghĩ bằng cách kết thúc lập luận sớm hoặc thêm token "Wait".[^3]
Phương Pháp s1: Đơn Giản Triệt Để
1. Curation Dataset (s1K)
| Tiêu Chí | Mục Đích | Triển Khai |
|---|---|---|
| Độ Khó | Vấn đề cần lập luận mở rộng | Câu hỏi Claude 3.5 Sonnet cần >4.000 token suy nghĩ |
| Đa Dạng | Ngăn overfitting | Phân cụm và lấy mẫu |
| Chất Lượng | Dấu vết lập luận đúng | Xác minh con người |
2. Fine-Tuning Chuẩn
Huấn luyện hoàn thành trong dưới 26 phút trên 16 GPU H100.[^19]
3. Budget Forcing Khi Suy Luận
Kết Thúc Bắt Buộc: Xóa token kết-thúc-suy-nghĩ và thêm token "Wait".[^21]
Tiếp Tục Bắt Buộc: Chèn lặp lại token "Wait" kéo dài chuỗi lập luận.[^22]
Kết Quả Benchmark
| Benchmark | s1-32B | o1-preview | Cải Thiện |
|---|---|---|---|
| MATH | Đến +27% | Baseline | Đáng kể |
| AIME 2024 | 57% | ~44% | +13 điểm |
Điểm Chính
- Số Lượng vs Chất Lượng: 1.000 ví dụ xuất sắc vượt qua hàng triệu tầm thường
- Đơn Giản Thắng: Budget forcing đạt kết quả cạnh tranh không cần RL
- Khả Năng Tiếp Cận: Tài nguyên khiêm tốn so với huấn luyện từ đầu