s1: Cách 1.000 Ví Dụ Huấn Luyện Đánh Bại o1-preview của OpenAI 27%

Mô hình s1 của Stanford sử dụng 'budget forcing' để vượt qua o1-preview trên benchmark toán với chỉ 1K ví dụ.

Blake Crosley

Jan 07, 2026 1 min read Disclaimer

s1: Cách 1.000 Ví Dụ Huấn Luyện Đánh Bại o1-preview của OpenAI 27%

Một nhóm nghiên cứu từ Stanford đặt ra câu hỏi đơn giản: phương pháp tối thiểu khả thi cho test-time scaling là gì?[^1] Câu trả lời của họ lật đổ các giả định về yêu cầu tính toán để xây dựng mô hình lập luận. Mô hình s1, được tinh chỉnh trên chỉ 1.000 ví dụ được chọn cẩn thận, vượt qua o1-preview của OpenAI tới 27% trên benchmark toán thi đấu.[^2]

TL;DR

Bài báo s1 giới thiệu "budget forcing", kỹ thuật kiểm soát thời gian mô hình suy nghĩ bằng cách kết thúc lập luận sớm hoặc thêm token "Wait".[^3]

Phương Pháp s1: Đơn Giản Triệt Để

1. Curation Dataset (s1K)

Tiêu Chí	Mục Đích	Triển Khai
Độ Khó	Vấn đề cần lập luận mở rộng	Câu hỏi Claude 3.5 Sonnet cần >4.000 token suy nghĩ
Đa Dạng	Ngăn overfitting	Phân cụm và lấy mẫu
Chất Lượng	Dấu vết lập luận đúng	Xác minh con người

2. Fine-Tuning Chuẩn

Huấn luyện hoàn thành trong dưới 26 phút trên 16 GPU H100.[^19]

3. Budget Forcing Khi Suy Luận

Kết Thúc Bắt Buộc: Xóa token kết-thúc-suy-nghĩ và thêm token "Wait".[^21]

Tiếp Tục Bắt Buộc: Chèn lặp lại token "Wait" kéo dài chuỗi lập luận.[^22]

Kết Quả Benchmark

Benchmark	s1-32B	o1-preview	Cải Thiện
MATH	Đến +27%	Baseline	Đáng kể
AIME 2024	57%	~44%	+13 điểm

Điểm Chính

Số Lượng vs Chất Lượng: 1.000 ví dụ xuất sắc vượt qua hàng triệu tầm thường
Đơn Giản Thắng: Budget forcing đạt kết quả cạnh tranh không cần RL
Khả Năng Tiếp Cận: Tài nguyên khiêm tốn so với huấn luyện từ đầu

s1: Cách 1.000 Ví Dụ Huấn Luyện Đánh Bại o1-preview của OpenAI 27%

TL;DR

Phương Pháp s1: Đơn Giản Triệt Để

1. Curation Dataset (s1K)

2. Fine-Tuning Chuẩn

3. Budget Forcing Khi Suy Luận

Kết Quả Benchmark

Điểm Chính

You Might Also Like

Hạ tầng AI Nhật Bản: Nền kinh tế lớn nhất châu Á thức giấc

Tối Ưu Hóa KV Cache: Hiệu Quả Bộ Nhớ Cho LLM Sản Xuất

Singapore và Đông Nam Á nổi lên như các trung tâm hạ tầng AI...

Yêu cầu báo giá_

Đã Nhận Yêu cầu_