s1: Cách 1.000 Ví Dụ Huấn Luyện Đánh Bại o1-preview của OpenAI 27%

Mô hình s1 của Stanford sử dụng 'budget forcing' để vượt qua o1-preview trên benchmark toán với chỉ 1K ví dụ.

s1: Cách 1.000 Ví Dụ Huấn Luyện Đánh Bại o1-preview của OpenAI 27%

s1: Cách 1.000 Ví Dụ Huấn Luyện Đánh Bại o1-preview của OpenAI 27%

Một nhóm nghiên cứu từ Stanford đặt ra câu hỏi đơn giản: phương pháp tối thiểu khả thi cho test-time scaling là gì?[^1] Câu trả lời của họ lật đổ các giả định về yêu cầu tính toán để xây dựng mô hình lập luận. Mô hình s1, được tinh chỉnh trên chỉ 1.000 ví dụ được chọn cẩn thận, vượt qua o1-preview của OpenAI tới 27% trên benchmark toán thi đấu.[^2]

TL;DR

Bài báo s1 giới thiệu "budget forcing", kỹ thuật kiểm soát thời gian mô hình suy nghĩ bằng cách kết thúc lập luận sớm hoặc thêm token "Wait".[^3]

Phương Pháp s1: Đơn Giản Triệt Để

1. Curation Dataset (s1K)

Tiêu Chí Mục Đích Triển Khai
Độ Khó Vấn đề cần lập luận mở rộng Câu hỏi Claude 3.5 Sonnet cần >4.000 token suy nghĩ
Đa Dạng Ngăn overfitting Phân cụm và lấy mẫu
Chất Lượng Dấu vết lập luận đúng Xác minh con người

2. Fine-Tuning Chuẩn

Huấn luyện hoàn thành trong dưới 26 phút trên 16 GPU H100.[^19]

3. Budget Forcing Khi Suy Luận

Kết Thúc Bắt Buộc: Xóa token kết-thúc-suy-nghĩ và thêm token "Wait".[^21]

Tiếp Tục Bắt Buộc: Chèn lặp lại token "Wait" kéo dài chuỗi lập luận.[^22]

Kết Quả Benchmark

Benchmark s1-32B o1-preview Cải Thiện
MATH Đến +27% Baseline Đáng kể
AIME 2024 57% ~44% +13 điểm

Điểm Chính

  1. Số Lượng vs Chất Lượng: 1.000 ví dụ xuất sắc vượt qua hàng triệu tầm thường
  2. Đơn Giản Thắng: Budget forcing đạt kết quả cạnh tranh không cần RL
  3. Khả Năng Tiếp Cận: Tài nguyên khiêm tốn so với huấn luyện từ đầu

Yêu cầu báo giá_

Hãy cho chúng tôi biết về dự án của bạn và chúng tôi sẽ phản hồi trong vòng 72 giờ.

> TRUYỀN_TẢI_HOÀN_TẤT

Đã Nhận Yêu cầu_

Cảm ơn bạn đã gửi yêu cầu. Đội ngũ của chúng tôi sẽ xem xét và phản hồi trong vòng 72 giờ.

ĐANG XẾP HÀNG XỬ LÝ