Berpikir Tanpa Token: Bagaimana Penalaran Laten Membuat Model 3.5B Berkinerja Seperti 50B

Arsitektur baru memungkinkan model AI bernalar di ruang laten alih-alih menghasilkan token.

Blake Crosley

Jan 07, 2026 1 min read Disclaimer

Berpikir Tanpa Token: Bagaimana Penalaran Laten Membuat Model 3.5B Berkinerja Seperti 50B

Penalaran rantai-pemikiran mendominasi paradigma test-time scaling: model menghasilkan token penalaran yang terlihat, "berpikir keras".[^1] Paper baru ini menantang asumsi ini sepenuhnya. Dengan mengiterasi blok berulang di ruang laten, peneliti mendemonstrasikan bahwa model 3.5 miliar parameter mencapai kinerja setara dengan 50 miliar parameter.[^2]

TL;DR

Paper memperkenalkan arsitektur yang membuka gulungan ke kedalaman sewenang-wenang saat inferensi tanpa menghasilkan token tambahan.[^3]

Masalah Generasi Token

Konsumsi Jendela Konteks: Setiap token penalaran menempati ruang konteks.[^9]

Penskalaan Latensi: Generasi token secara fundamental tetap sekuensial.[^10]

Cara Kerja Penalaran Laten

Blok Berulang

Input → Lapisan 1-N → Blok Berulang ↺ → Lapisan N+1-M → Output
                          ↑___________|
                          (iterasi K kali)

Kinerja Benchmark

Pada pembukaan maksimal, model 3.5B mencapai kinerja setara dengan ~50 miliar parameter.[^26]

Perbandingan dengan Penalaran Berbasis Token

Dimensi	Rantai-Pemikiran	Penalaran Laten
Penskalaan komputasi	Generasi token	Iterasi berulang
Penggunaan konteks	Mengonsumsi konteks	Netral konteks
Interpretabilitas	Penalaran terlihat	Buram

Poin Kunci

Token Tidak Diperlukan: Penalaran dapat terjadi sepenuhnya di ruang representasi tersembunyi
Ekspansi Efektif Masif: 3.5B → 50B setara melalui kedalaman berulang
Kesederhanaan Pelatihan: Pemodelan bahasa standar, tanpa data khusus

Berpikir Tanpa Token: Bagaimana Penalaran Laten Membuat Model 3.5B Berkinerja Seperti 50B

TL;DR

Masalah Generasi Token

Cara Kerja Penalaran Laten

Blok Berulang

Kinerja Benchmark

Perbandingan dengan Penalaran Berbasis Token

Poin Kunci

You Might Also Like

Kalkulator ROI Pendinginan Imersi: Payback Period 2-4 Tahun ...

Koridor AI Inggris: Pusat Komputasi Baru di London

Efisiensi Penggunaan Air: Pendinginan Pusat Data AI Tanpa Kr...

Minta Penawaran_

Permintaan Diterima_