Berpikir Tanpa Token: Bagaimana Penalaran Laten Membuat Model 3.5B Berkinerja Seperti 50B
Penalaran rantai-pemikiran mendominasi paradigma test-time scaling: model menghasilkan token penalaran yang terlihat, "berpikir keras".[^1] Paper baru ini menantang asumsi ini sepenuhnya. Dengan mengiterasi blok berulang di ruang laten, peneliti mendemonstrasikan bahwa model 3.5 miliar parameter mencapai kinerja setara dengan 50 miliar parameter.[^2]
TL;DR
Paper memperkenalkan arsitektur yang membuka gulungan ke kedalaman sewenang-wenang saat inferensi tanpa menghasilkan token tambahan.[^3]
Masalah Generasi Token
Konsumsi Jendela Konteks: Setiap token penalaran menempati ruang konteks.[^9]
Penskalaan Latensi: Generasi token secara fundamental tetap sekuensial.[^10]
Cara Kerja Penalaran Laten
Blok Berulang
Input → Lapisan 1-N → Blok Berulang ↺ → Lapisan N+1-M → Output
↑___________|
(iterasi K kali)
Kinerja Benchmark
Pada pembukaan maksimal, model 3.5B mencapai kinerja setara dengan ~50 miliar parameter.[^26]
Perbandingan dengan Penalaran Berbasis Token
| Dimensi | Rantai-Pemikiran | Penalaran Laten |
|---|---|---|
| Penskalaan komputasi | Generasi token | Iterasi berulang |
| Penggunaan konteks | Mengonsumsi konteks | Netral konteks |
| Interpretabilitas | Penalaran terlihat | Buram |
Poin Kunci
- Token Tidak Diperlukan: Penalaran dapat terjadi sepenuhnya di ruang representasi tersembunyi
- Ekspansi Efektif Masif: 3.5B → 50B setara melalui kedalaman berulang
- Kesederhanaan Pelatihan: Pemodelan bahasa standar, tanpa data khusus