Suy Nghĩ Không Cần Token: Lập Luận Tiềm Ẩn Giúp Mô Hình 3.5B Hoạt Động Như 50B
Lập luận chuỗi-suy-nghĩ đã thống trị mô hình test-time scaling: mô hình tạo các token lập luận có thể nhìn thấy, "suy nghĩ thành tiếng".[^1] Bài báo mới thách thức hoàn toàn giả định này. Bằng cách lặp khối hồi quy trong không gian tiềm ẩn, các nhà nghiên cứu chứng minh mô hình 3.5 tỷ tham số đạt hiệu suất tương đương 50 tỷ tham số.[^2]
TL;DR
Bài báo giới thiệu kiến trúc mở ra đến độ sâu tùy ý tại thời điểm suy luận mà không tạo token bổ sung.[^3]
Vấn Đề Tạo Token
Tiêu Thụ Cửa Sổ Ngữ Cảnh: Mỗi token lập luận chiếm không gian ngữ cảnh.[^9]
Mở Rộng Độ Trễ: Tạo token về cơ bản vẫn tuần tự.[^10]
Lập Luận Tiềm Ẩn Hoạt Động Như Thế Nào
Khối Hồi Quy
Đầu vào → Lớp 1-N → Khối Hồi Quy ↺ → Lớp N+1-M → Đầu ra
↑___________|
(lặp K lần)
Hiệu Suất Benchmark
Ở mức mở tối đa, mô hình 3.5B đạt hiệu suất tương đương ~50 tỷ tham số.[^26]
Điểm Chính
- Không Cần Token: Lập luận có thể xảy ra hoàn toàn trong không gian biểu diễn ẩn
- Mở Rộng Hiệu Quả Lớn: 3.5B → 50B tương đương qua độ sâu hồi quy
- Đơn Giản Huấn Luyện: Mô hình ngôn ngữ chuẩn, không cần dữ liệu chuyên biệt