Suy Nghĩ Không Cần Token: Lập Luận Tiềm Ẩn Giúp Mô Hình 3.5B Hoạt Động Như 50B

Kiến trúc mới cho phép mô hình AI lập luận trong không gian tiềm ẩn thay vì tạo token.

Suy Nghĩ Không Cần Token: Lập Luận Tiềm Ẩn Giúp Mô Hình 3.5B Hoạt Động Như 50B

Suy Nghĩ Không Cần Token: Lập Luận Tiềm Ẩn Giúp Mô Hình 3.5B Hoạt Động Như 50B

Lập luận chuỗi-suy-nghĩ đã thống trị mô hình test-time scaling: mô hình tạo các token lập luận có thể nhìn thấy, "suy nghĩ thành tiếng".[^1] Bài báo mới thách thức hoàn toàn giả định này. Bằng cách lặp khối hồi quy trong không gian tiềm ẩn, các nhà nghiên cứu chứng minh mô hình 3.5 tỷ tham số đạt hiệu suất tương đương 50 tỷ tham số.[^2]

TL;DR

Bài báo giới thiệu kiến trúc mở ra đến độ sâu tùy ý tại thời điểm suy luận mà không tạo token bổ sung.[^3]

Vấn Đề Tạo Token

Tiêu Thụ Cửa Sổ Ngữ Cảnh: Mỗi token lập luận chiếm không gian ngữ cảnh.[^9]

Mở Rộng Độ Trễ: Tạo token về cơ bản vẫn tuần tự.[^10]

Lập Luận Tiềm Ẩn Hoạt Động Như Thế Nào

Khối Hồi Quy

Đầu vào → Lớp 1-N → Khối Hồi Quy ↺ → Lớp N+1-M → Đầu ra
                        ↑___________|
                        (lặp K lần)

Hiệu Suất Benchmark

Ở mức mở tối đa, mô hình 3.5B đạt hiệu suất tương đương ~50 tỷ tham số.[^26]

Điểm Chính

  1. Không Cần Token: Lập luận có thể xảy ra hoàn toàn trong không gian biểu diễn ẩn
  2. Mở Rộng Hiệu Quả Lớn: 3.5B → 50B tương đương qua độ sâu hồi quy
  3. Đơn Giản Huấn Luyện: Mô hình ngôn ngữ chuẩn, không cần dữ liệu chuyên biệt

Yêu cầu báo giá_

Hãy cho chúng tôi biết về dự án của bạn và chúng tôi sẽ phản hồi trong vòng 72 giờ.

> TRUYỀN_TẢI_HOÀN_TẤT

Đã Nhận Yêu cầu_

Cảm ơn bạn đã gửi yêu cầu. Đội ngũ của chúng tôi sẽ xem xét và phản hồi trong vòng 72 giờ.

ĐANG XẾP HÀNG XỬ LÝ