MiroThinker: Dimensi Penskalaan Ketiga untuk Agen AI

MiroThinker memperkenalkan penskalaan interaksi—melatih agen untuk menangani 600 panggilan alat per tugas. 81,9% pada benchmark GAIA. Dimensi baru melampaui ukuran model dan konteks.

Blake Crosley

Jan 07, 2026 5 min read Disclaimer

MiroThinker: Dimensi Penskalaan Ketiga untuk Agen AI

Penskalaan AI telah berfokus pada dua dimensi: ukuran model dan panjang konteks.[^1] MiroThinker memperkenalkan dimensi ketiga: kedalaman interaksi. Agen penelitian ini, dirilis dengan varian parameter 8B, 30B, dan 72B, melatih model untuk menangani hingga 600 panggilan alat per tugas melalui reinforcement learning.[^2] Pada benchmark GAIA, varian 72B mencapai akurasi 81,9%, mendekati sistem komersial seperti GPT-5-high sambil tetap sepenuhnya open source.[^3]

TL;DR

MiroThinker mengeksplorasi "penskalaan interaksi" di tingkat model, secara sistematis melatih model untuk menangani interaksi agen-lingkungan yang lebih dalam dan lebih sering.[^4] Berbeda dengan penskalaan waktu-tes yang terisolasi, penskalaan interaksi menggunakan umpan balik lingkungan untuk mengoreksi kesalahan dan menyempurnakan trajektori.[^5] Dengan jendela konteks 256K, agen melakukan hingga 600 panggilan alat per tugas, memungkinkan penalaran multi-giliran berkelanjutan untuk alur kerja penelitian yang kompleks.[^6]

Masalah Penskalaan Agen

Agen AI saat ini menghadapi keterbatasan fundamental. Saat rantai penalaran memanjang, kesalahan bertumpuk.[^9] Satu kesalahan di awal trajektori dapat menggagalkan seluruh tugas. Pendekatan tradisional mengatasi ini melalui:

Model Lebih Besar: Lebih banyak parameter untuk akurasi langkah-tunggal yang lebih baik[^10] Konteks Lebih Panjang: Lebih banyak ruang untuk menyimpan riwayat penalaran[^11] Prompting Lebih Baik: Instruksi yang ditingkatkan untuk mengurangi kesalahan[^12]

Namun, intervensi ini tidak mengatasi masalah inti: agen yang beroperasi terisolasi dari lingkungan mereka selama penalaran yang diperluas.

Penyimpangan Penalaran

Rantai penalaran panjang tanpa umpan balik lingkungan menunjukkan "penyimpangan penalaran"—penyimpangan bertahap dari trajektori yang benar.[^13] Agen terus bernalar berdasarkan asumsi yang semakin usang atau salah.

Panjang Rantai	Tingkat Kesalahan	Penyebab
Pendek (1-5 langkah)	Rendah	Kesalahan gabungan terbatas
Menengah (5-20 langkah)	Sedang	Kesalahan terakumulasi
Panjang (20+ langkah)	Tinggi	Penyimpangan penalaran mendominasi

Solusi Umpan Balik

Wawasan MiroThinker: biarkan lingkungan mengoreksi agen secara terus-menerus.[^14] Alih-alih bernalar secara terisolasi, agen memeriksa pekerjaannya dengan berinteraksi dengan alat eksternal, menangkap kesalahan sebelum bertumpuk.

Penskalaan Interaksi Didefinisikan

Penskalaan interaksi memperlakukan kedalaman interaksi agen-lingkungan sebagai dimensi yang dapat diskalakan analog dengan ukuran model atau panjang konteks.[^15]

Tiga Dimensi

Dimensi	Apa yang Diskalakan	Bagaimana Membantu
Ukuran Model	Parameter	Kualitas langkah-tunggal lebih baik
Panjang Konteks	Jendela token	Lebih banyak informasi tersedia
Kedalaman Interaksi	Panggilan alat	Koreksi kesalahan, grounding

Mengapa Interaksi Berbeda

Berbeda dengan ukuran model (tetap saat pelatihan) atau konteks (penyimpanan pasif), kedalaman interaksi memungkinkan verifikasi aktif dan koreksi arah.[^16]

Penskalaan Pasif: Model dan konteks yang lebih besar menyediakan lebih banyak kapasitas Penskalaan Aktif: Lebih banyak interaksi menyediakan lebih banyak kesempatan untuk memeriksa, mengoreksi, dan menyempurnakan

Arsitektur MiroThinker

Agen mengikuti framework ReAct dengan peningkatan khusus untuk interaksi dalam:[^17]

Loop Inti

Pikiran → Tindakan (Panggilan Alat) → Observasi → Pikiran → ...

Setiap observasi diumpankan kembali ke konteks agen, menginformasikan penalaran berikutnya.[^18]

Suite Alat

MiroThinker mencakup toolkit komprehensif:[^19]

Kategori	Contoh
Pencarian Web	Formulasi query, parsing hasil
Browsing Web	Navigasi halaman, ekstraksi konten
Eksekusi Kode	Runtime Python, analisis hasil
Operasi File	Baca, tulis, analisis dokumen

600 Panggilan Alat

Jendela konteks 256K mendukung hingga 600 panggilan alat per tugas.[^20] Untuk konteks, sebagian besar benchmark agen melibatkan kurang dari 20 panggilan alat. MiroThinker beroperasi pada 30x kedalaman interaksi tipikal.

Metodologi Pelatihan

Pelatihan MiroThinker berlanjut dalam tiga fase:[^21]

Fase 1: Supervised Fine-Tuning

Pelatihan awal pada trajektori agen yang berhasil mengajarkan pola penggunaan alat dasar:[^22]

Kapan mencari vs browsing
Cara merumuskan query yang efektif
Menginterpretasikan output alat
Mensintesis informasi multi-sumber

Fase 2: Pembelajaran Preferensi

Model belajar memilih trajektori yang berhasil daripada yang gagal:[^23]

Umpan balik biner pada hasil trajektori
Pembelajaran implisit pemulihan kesalahan
Preferensi untuk urutan alat yang efisien

Fase 3: Reinforcement Learning

Group Relative Policy Optimization (GRPO) melatih untuk interaksi yang diperluas:[^24]

Hadiah untuk jawaban akhir yang benar
Penugasan kredit implisit di seluruh trajektori panjang
Mempelajari kapan bertahan vs mengubah strategi

Model Dasar

MiroThinker dibangun di atas fondasi open-weight:[^25]

Ukuran	Model Dasar
8B	Qwen2.5-8B
30B	Qwen3-30B
72B	Qwen2.5-72B

Performa Benchmark

GAIA (General AI Assistants)

GAIA menguji tugas asisten realistis yang memerlukan pencarian web, penalaran, dan pemecahan masalah multi-langkah:[^26]

Model	Akurasi
MiroThinker-72B	81,9%
GPT-5-high	~85% (estimasi)
SOTA open source sebelumnya	~65%

MiroThinker mendekati performa komersial sambil tetap sepenuhnya terbuka.

HLE (Humanity's Last Exam)

Pertanyaan sangat menantang di berbagai domain:[^27]

Model	Akurasi
MiroThinker-72B	37,7%
Pakar manusia	Bervariasi

BrowseComp

Browsing web kompleks dan sintesis informasi:[^28]

Model	Akurasi
MiroThinker-72B (Inggris)	47,1%
MiroThinker-72B (Cina)	55,6%

Performa Cina menunjukkan transfer multibahasa yang kuat.

Perilaku Penskalaan

Temuan kritis: performa meningkat secara dapat diprediksi dengan kedalaman interaksi.[^29]

Saat MiroThinker terlibat dalam lebih banyak panggilan alat: - Akurasi meningkat (hingga batas hardware/konteks) - Pemulihan kesalahan menjadi lebih efektif - Tugas kompleks menjadi dapat ditangani

Ini menunjukkan bahwa kedalaman interaksi menunjukkan perilaku penskalaan sejati, bukan hanya hasil yang menurun.

Perbandingan dengan Pendekatan Lain

vs. Chain-of-Thought

Dimensi	Chain-of-Thought	MiroThinker
Umpan balik	Tidak ada (penalaran terisolasi)	Berkelanjutan (hasil alat)
Penanganan kesalahan	Berharap yang terbaik	Deteksi dan koreksi
Grounding	Hanya pola teks	Verifikasi eksternal

vs. Agen ReAct

Dimensi	ReAct Standar	MiroThinker
Kedalaman interaksi	10-20 panggilan tipikal	Hingga 600 panggilan
Pelatihan	Prompt engineering	RL untuk interaksi dalam
Persistensi	Tugas pendek	Alur kerja yang diperluas

Mengapa Penskalaan Interaksi Bekerja

Paper mengidentifikasi beberapa mekanisme di balik efektivitas penskalaan interaksi:[^30]

Deteksi Kesalahan

Lebih banyak panggilan alat menciptakan lebih banyak kesempatan untuk menemukan kesalahan:[^31]

Hasil pencarian yang kontradiktif mengungkap asumsi yang salah
Operasi yang gagal mengekspos status yang tidak valid
Output yang tidak terduga memicu pertimbangan ulang

Akuisisi Informasi

Interaksi yang diperluas mengumpulkan lebih banyak informasi relevan:[^32]

Pencarian lanjutan menyempurnakan pemahaman
Banyak sumber memungkinkan validasi silang
Browsing mendalam menemukan detail tersembunyi

Penyempurnaan Strategi

Trajektori panjang memungkinkan evolusi strategi:[^33]

Pendekatan awal dapat ditinggalkan
Sudut baru dapat dieksplorasi
Sintesis dapat menggabungkan informasi yang tiba terlambat

Rilis Open Source

Tim MiroMind merilis sumber daya komprehensif:[^34]

Model

Varian	HuggingFace
MiroThinker-v1.0-8B	Tersedia
MiroThinker-v1.0-30B	Tersedia
MiroThinker-v1.0-72B	Tersedia
MiroThinker-v1.5-30B	Tersedia (diperbarui)

Kode

Pipeline pelatihan lengkap
Implementasi inferensi
Contoh integrasi alat
Skrip evaluasi

Implikasi untuk Pengembangan Agen

Pergeseran Paradigma Pelatihan

Agen yang efektif mungkin memerlukan pelatihan khusus untuk interaksi dalam, bukan hanya model dasar yang lebih baik.[^35]

Pendekatan Lama	Pendekatan Baru
Latih LLM, tambah alat	Latih untuk penggunaan alat mendalam
Prompt engineering	Reinforcement learning
Panggilan satu digit	Ratusan panggilan

Poin Kunci

MiroThinker menetapkan penskalaan interaksi sebagai dimensi ketiga yang layak untuk kemampuan AI:

Dimensi Baru: Kedalaman interaksi berskala seperti ukuran model dan panjang konteks
600 Panggilan Alat: Dilatih untuk 30x kedalaman interaksi agen tipikal
81,9% GAIA: Mendekati performa komersial sambil sepenuhnya terbuka
Pelatihan Tiga Fase: Pipeline SFT → Pembelajaran Preferensi → RL
Koreksi Kesalahan: Umpan balik lingkungan mencegah penyimpangan penalaran
Rilis Terbuka: Model, kode, dan resep pelatihan semuanya tersedia

Generasi berikutnya agen AI mungkin terbukti mampu bukan hanya melalui model yang lebih besar, tetapi melalui keterlibatan yang lebih dalam dengan lingkungan mereka.

MiroThinker: Dimensi Penskalaan Ketiga untuk Agen AI

TL;DR

Masalah Penskalaan Agen

Penyimpangan Penalaran

Solusi Umpan Balik

Penskalaan Interaksi Didefinisikan

Tiga Dimensi

Mengapa Interaksi Berbeda

Arsitektur MiroThinker

Loop Inti

Suite Alat

600 Panggilan Alat

Metodologi Pelatihan

Fase 1: Supervised Fine-Tuning

Fase 2: Pembelajaran Preferensi

Fase 3: Reinforcement Learning

Model Dasar

Performa Benchmark

GAIA (General AI Assistants)

HLE (Humanity's Last Exam)

BrowseComp

Perilaku Penskalaan

Perbandingan dengan Pendekatan Lain

vs. Chain-of-Thought

vs. Agen ReAct

Mengapa Penskalaan Interaksi Bekerja

Deteksi Kesalahan

Akuisisi Informasi

Penyempurnaan Strategi

Rilis Open Source

Model

Kode

Implikasi untuk Pengembangan Agen

Pergeseran Paradigma Pelatihan

Poin Kunci

You Might Also Like

Infrastruktur AI Jepang: Ekonomi Terbesar Asia Bangkit

Optimisasi KV Cache: Efisiensi Memori untuk LLM Produksi

Singapura dan Asia Tenggara muncul sebagai pusat infrastrukt...

Minta Penawaran_

Permintaan Diterima_