MiroThinker: Dimensi Penskalaan Ketiga untuk Agen AI
Penskalaan AI telah berfokus pada dua dimensi: ukuran model dan panjang konteks.[^1] MiroThinker memperkenalkan dimensi ketiga: kedalaman interaksi. Agen penelitian ini, dirilis dengan varian parameter 8B, 30B, dan 72B, melatih model untuk menangani hingga 600 panggilan alat per tugas melalui reinforcement learning.[^2] Pada benchmark GAIA, varian 72B mencapai akurasi 81,9%, mendekati sistem komersial seperti GPT-5-high sambil tetap sepenuhnya open source.[^3]
TL;DR
MiroThinker mengeksplorasi "penskalaan interaksi" di tingkat model, secara sistematis melatih model untuk menangani interaksi agen-lingkungan yang lebih dalam dan lebih sering.[^4] Berbeda dengan penskalaan waktu-tes yang terisolasi, penskalaan interaksi menggunakan umpan balik lingkungan untuk mengoreksi kesalahan dan menyempurnakan trajektori.[^5] Dengan jendela konteks 256K, agen melakukan hingga 600 panggilan alat per tugas, memungkinkan penalaran multi-giliran berkelanjutan untuk alur kerja penelitian yang kompleks.[^6]
Masalah Penskalaan Agen
Agen AI saat ini menghadapi keterbatasan fundamental. Saat rantai penalaran memanjang, kesalahan bertumpuk.[^9] Satu kesalahan di awal trajektori dapat menggagalkan seluruh tugas. Pendekatan tradisional mengatasi ini melalui:
Model Lebih Besar: Lebih banyak parameter untuk akurasi langkah-tunggal yang lebih baik[^10] Konteks Lebih Panjang: Lebih banyak ruang untuk menyimpan riwayat penalaran[^11] Prompting Lebih Baik: Instruksi yang ditingkatkan untuk mengurangi kesalahan[^12]
Namun, intervensi ini tidak mengatasi masalah inti: agen yang beroperasi terisolasi dari lingkungan mereka selama penalaran yang diperluas.
Penyimpangan Penalaran
Rantai penalaran panjang tanpa umpan balik lingkungan menunjukkan "penyimpangan penalaran"—penyimpangan bertahap dari trajektori yang benar.[^13] Agen terus bernalar berdasarkan asumsi yang semakin usang atau salah.
| Panjang Rantai | Tingkat Kesalahan | Penyebab |
|---|---|---|
| Pendek (1-5 langkah) | Rendah | Kesalahan gabungan terbatas |
| Menengah (5-20 langkah) | Sedang | Kesalahan terakumulasi |
| Panjang (20+ langkah) | Tinggi | Penyimpangan penalaran mendominasi |
Solusi Umpan Balik
Wawasan MiroThinker: biarkan lingkungan mengoreksi agen secara terus-menerus.[^14] Alih-alih bernalar secara terisolasi, agen memeriksa pekerjaannya dengan berinteraksi dengan alat eksternal, menangkap kesalahan sebelum bertumpuk.
Penskalaan Interaksi Didefinisikan
Penskalaan interaksi memperlakukan kedalaman interaksi agen-lingkungan sebagai dimensi yang dapat diskalakan analog dengan ukuran model atau panjang konteks.[^15]
Tiga Dimensi
| Dimensi | Apa yang Diskalakan | Bagaimana Membantu |
|---|---|---|
| Ukuran Model | Parameter | Kualitas langkah-tunggal lebih baik |
| Panjang Konteks | Jendela token | Lebih banyak informasi tersedia |
| Kedalaman Interaksi | Panggilan alat | Koreksi kesalahan, grounding |
Mengapa Interaksi Berbeda
Berbeda dengan ukuran model (tetap saat pelatihan) atau konteks (penyimpanan pasif), kedalaman interaksi memungkinkan verifikasi aktif dan koreksi arah.[^16]
Penskalaan Pasif: Model dan konteks yang lebih besar menyediakan lebih banyak kapasitas Penskalaan Aktif: Lebih banyak interaksi menyediakan lebih banyak kesempatan untuk memeriksa, mengoreksi, dan menyempurnakan
Arsitektur MiroThinker
Agen mengikuti framework ReAct dengan peningkatan khusus untuk interaksi dalam:[^17]
Loop Inti
Pikiran → Tindakan (Panggilan Alat) → Observasi → Pikiran → ...
Setiap observasi diumpankan kembali ke konteks agen, menginformasikan penalaran berikutnya.[^18]
Suite Alat
MiroThinker mencakup toolkit komprehensif:[^19]
| Kategori | Contoh |
|---|---|
| Pencarian Web | Formulasi query, parsing hasil |
| Browsing Web | Navigasi halaman, ekstraksi konten |
| Eksekusi Kode | Runtime Python, analisis hasil |
| Operasi File | Baca, tulis, analisis dokumen |
600 Panggilan Alat
Jendela konteks 256K mendukung hingga 600 panggilan alat per tugas.[^20] Untuk konteks, sebagian besar benchmark agen melibatkan kurang dari 20 panggilan alat. MiroThinker beroperasi pada 30x kedalaman interaksi tipikal.
Metodologi Pelatihan
Pelatihan MiroThinker berlanjut dalam tiga fase:[^21]
Fase 1: Supervised Fine-Tuning
Pelatihan awal pada trajektori agen yang berhasil mengajarkan pola penggunaan alat dasar:[^22]
- Kapan mencari vs browsing
- Cara merumuskan query yang efektif
- Menginterpretasikan output alat
- Mensintesis informasi multi-sumber
Fase 2: Pembelajaran Preferensi
Model belajar memilih trajektori yang berhasil daripada yang gagal:[^23]
- Umpan balik biner pada hasil trajektori
- Pembelajaran implisit pemulihan kesalahan
- Preferensi untuk urutan alat yang efisien
Fase 3: Reinforcement Learning
Group Relative Policy Optimization (GRPO) melatih untuk interaksi yang diperluas:[^24]
- Hadiah untuk jawaban akhir yang benar
- Penugasan kredit implisit di seluruh trajektori panjang
- Mempelajari kapan bertahan vs mengubah strategi
Model Dasar
MiroThinker dibangun di atas fondasi open-weight:[^25]
| Ukuran | Model Dasar |
|---|---|
| 8B | Qwen2.5-8B |
| 30B | Qwen3-30B |
| 72B | Qwen2.5-72B |
Performa Benchmark
GAIA (General AI Assistants)
GAIA menguji tugas asisten realistis yang memerlukan pencarian web, penalaran, dan pemecahan masalah multi-langkah:[^26]
| Model | Akurasi |
|---|---|
| MiroThinker-72B | 81,9% |
| GPT-5-high | ~85% (estimasi) |
| SOTA open source sebelumnya | ~65% |
MiroThinker mendekati performa komersial sambil tetap sepenuhnya terbuka.
HLE (Humanity's Last Exam)
Pertanyaan sangat menantang di berbagai domain:[^27]
| Model | Akurasi |
|---|---|
| MiroThinker-72B | 37,7% |
| Pakar manusia | Bervariasi |
BrowseComp
Browsing web kompleks dan sintesis informasi:[^28]
| Model | Akurasi |
|---|---|
| MiroThinker-72B (Inggris) | 47,1% |
| MiroThinker-72B (Cina) | 55,6% |
Performa Cina menunjukkan transfer multibahasa yang kuat.
Perilaku Penskalaan
Temuan kritis: performa meningkat secara dapat diprediksi dengan kedalaman interaksi.[^29]
Saat MiroThinker terlibat dalam lebih banyak panggilan alat: - Akurasi meningkat (hingga batas hardware/konteks) - Pemulihan kesalahan menjadi lebih efektif - Tugas kompleks menjadi dapat ditangani
Ini menunjukkan bahwa kedalaman interaksi menunjukkan perilaku penskalaan sejati, bukan hanya hasil yang menurun.
Perbandingan dengan Pendekatan Lain
vs. Chain-of-Thought
| Dimensi | Chain-of-Thought | MiroThinker |
|---|---|---|
| Umpan balik | Tidak ada (penalaran terisolasi) | Berkelanjutan (hasil alat) |
| Penanganan kesalahan | Berharap yang terbaik | Deteksi dan koreksi |
| Grounding | Hanya pola teks | Verifikasi eksternal |
vs. Agen ReAct
| Dimensi | ReAct Standar | MiroThinker |
|---|---|---|
| Kedalaman interaksi | 10-20 panggilan tipikal | Hingga 600 panggilan |
| Pelatihan | Prompt engineering | RL untuk interaksi dalam |
| Persistensi | Tugas pendek | Alur kerja yang diperluas |
Mengapa Penskalaan Interaksi Bekerja
Paper mengidentifikasi beberapa mekanisme di balik efektivitas penskalaan interaksi:[^30]
Deteksi Kesalahan
Lebih banyak panggilan alat menciptakan lebih banyak kesempatan untuk menemukan kesalahan:[^31]
- Hasil pencarian yang kontradiktif mengungkap asumsi yang salah
- Operasi yang gagal mengekspos status yang tidak valid
- Output yang tidak terduga memicu pertimbangan ulang
Akuisisi Informasi
Interaksi yang diperluas mengumpulkan lebih banyak informasi relevan:[^32]
- Pencarian lanjutan menyempurnakan pemahaman
- Banyak sumber memungkinkan validasi silang
- Browsing mendalam menemukan detail tersembunyi
Penyempurnaan Strategi
Trajektori panjang memungkinkan evolusi strategi:[^33]
- Pendekatan awal dapat ditinggalkan
- Sudut baru dapat dieksplorasi
- Sintesis dapat menggabungkan informasi yang tiba terlambat
Rilis Open Source
Tim MiroMind merilis sumber daya komprehensif:[^34]
Model
| Varian | HuggingFace |
|---|---|
| MiroThinker-v1.0-8B | Tersedia |
| MiroThinker-v1.0-30B | Tersedia |
| MiroThinker-v1.0-72B | Tersedia |
| MiroThinker-v1.5-30B | Tersedia (diperbarui) |
Kode
- Pipeline pelatihan lengkap
- Implementasi inferensi
- Contoh integrasi alat
- Skrip evaluasi
Implikasi untuk Pengembangan Agen
Pergeseran Paradigma Pelatihan
Agen yang efektif mungkin memerlukan pelatihan khusus untuk interaksi dalam, bukan hanya model dasar yang lebih baik.[^35]
| Pendekatan Lama | Pendekatan Baru |
|---|---|
| Latih LLM, tambah alat | Latih untuk penggunaan alat mendalam |
| Prompt engineering | Reinforcement learning |
| Panggilan satu digit | Ratusan panggilan |
Poin Kunci
MiroThinker menetapkan penskalaan interaksi sebagai dimensi ketiga yang layak untuk kemampuan AI:
- Dimensi Baru: Kedalaman interaksi berskala seperti ukuran model dan panjang konteks
- 600 Panggilan Alat: Dilatih untuk 30x kedalaman interaksi agen tipikal
- 81,9% GAIA: Mendekati performa komersial sambil sepenuhnya terbuka
- Pelatihan Tiga Fase: Pipeline SFT → Pembelajaran Preferensi → RL
- Koreksi Kesalahan: Umpan balik lingkungan mencegah penyimpangan penalaran
- Rilis Terbuka: Model, kode, dan resep pelatihan semuanya tersedia
Generasi berikutnya agen AI mungkin terbukti mampu bukan hanya melalui model yang lebih besar, tetapi melalui keterlibatan yang lebih dalam dengan lingkungan mereka.