Berpikir Tanpa Token: Bagaimana Penalaran Laten Membuat Model 3.5B Berkinerja Seperti 50B

Arsitektur baru memungkinkan model AI bernalar di ruang laten alih-alih menghasilkan token.

Berpikir Tanpa Token: Bagaimana Penalaran Laten Membuat Model 3.5B Berkinerja Seperti 50B

Berpikir Tanpa Token: Bagaimana Penalaran Laten Membuat Model 3.5B Berkinerja Seperti 50B

Penalaran rantai-pemikiran mendominasi paradigma test-time scaling: model menghasilkan token penalaran yang terlihat, "berpikir keras".[^1] Paper baru ini menantang asumsi ini sepenuhnya. Dengan mengiterasi blok berulang di ruang laten, peneliti mendemonstrasikan bahwa model 3.5 miliar parameter mencapai kinerja setara dengan 50 miliar parameter.[^2]

TL;DR

Paper memperkenalkan arsitektur yang membuka gulungan ke kedalaman sewenang-wenang saat inferensi tanpa menghasilkan token tambahan.[^3]

Masalah Generasi Token

Konsumsi Jendela Konteks: Setiap token penalaran menempati ruang konteks.[^9]

Penskalaan Latensi: Generasi token secara fundamental tetap sekuensial.[^10]

Cara Kerja Penalaran Laten

Blok Berulang

Input → Lapisan 1-N → Blok Berulang ↺ → Lapisan N+1-M → Output
                          ↑___________|
                          (iterasi K kali)

Kinerja Benchmark

Pada pembukaan maksimal, model 3.5B mencapai kinerja setara dengan ~50 miliar parameter.[^26]

Perbandingan dengan Penalaran Berbasis Token

Dimensi Rantai-Pemikiran Penalaran Laten
Penskalaan komputasi Generasi token Iterasi berulang
Penggunaan konteks Mengonsumsi konteks Netral konteks
Interpretabilitas Penalaran terlihat Buram

Poin Kunci

  1. Token Tidak Diperlukan: Penalaran dapat terjadi sepenuhnya di ruang representasi tersembunyi
  2. Ekspansi Efektif Masif: 3.5B → 50B setara melalui kedalaman berulang
  3. Kesederhanaan Pelatihan: Pemodelan bahasa standar, tanpa data khusus

Minta Penawaran_

Ceritakan tentang proyek Anda dan kami akan merespons dalam 72 jam.

> TRANSMISSION_COMPLETE

Permintaan Diterima_

Terima kasih atas pertanyaan Anda. Tim kami akan meninjau permintaan Anda dan merespons dalam 72 jam.

QUEUED FOR PROCESSING