MiroThinker: Dimensi Penskalaan Ketiga untuk Agen AI

MiroThinker memperkenalkan penskalaan interaksi—melatih agen untuk menangani 600 panggilan alat per tugas. 81,9% pada benchmark GAIA. Dimensi baru melampaui ukuran model dan konteks.

MiroThinker: Dimensi Penskalaan Ketiga untuk Agen AI

MiroThinker: Dimensi Penskalaan Ketiga untuk Agen AI

Penskalaan AI telah berfokus pada dua dimensi: ukuran model dan panjang konteks.[^1] MiroThinker memperkenalkan dimensi ketiga: kedalaman interaksi. Agen penelitian ini, dirilis dengan varian parameter 8B, 30B, dan 72B, melatih model untuk menangani hingga 600 panggilan alat per tugas melalui reinforcement learning.[^2] Pada benchmark GAIA, varian 72B mencapai akurasi 81,9%, mendekati sistem komersial seperti GPT-5-high sambil tetap sepenuhnya open source.[^3]

TL;DR

MiroThinker mengeksplorasi "penskalaan interaksi" di tingkat model, secara sistematis melatih model untuk menangani interaksi agen-lingkungan yang lebih dalam dan lebih sering.[^4] Berbeda dengan penskalaan waktu-tes yang terisolasi, penskalaan interaksi menggunakan umpan balik lingkungan untuk mengoreksi kesalahan dan menyempurnakan trajektori.[^5] Dengan jendela konteks 256K, agen melakukan hingga 600 panggilan alat per tugas, memungkinkan penalaran multi-giliran berkelanjutan untuk alur kerja penelitian yang kompleks.[^6]

Masalah Penskalaan Agen

Agen AI saat ini menghadapi keterbatasan fundamental. Saat rantai penalaran memanjang, kesalahan bertumpuk.[^9] Satu kesalahan di awal trajektori dapat menggagalkan seluruh tugas. Pendekatan tradisional mengatasi ini melalui:

Model Lebih Besar: Lebih banyak parameter untuk akurasi langkah-tunggal yang lebih baik[^10] Konteks Lebih Panjang: Lebih banyak ruang untuk menyimpan riwayat penalaran[^11] Prompting Lebih Baik: Instruksi yang ditingkatkan untuk mengurangi kesalahan[^12]

Namun, intervensi ini tidak mengatasi masalah inti: agen yang beroperasi terisolasi dari lingkungan mereka selama penalaran yang diperluas.

Penyimpangan Penalaran

Rantai penalaran panjang tanpa umpan balik lingkungan menunjukkan "penyimpangan penalaran"—penyimpangan bertahap dari trajektori yang benar.[^13] Agen terus bernalar berdasarkan asumsi yang semakin usang atau salah.

Panjang Rantai Tingkat Kesalahan Penyebab
Pendek (1-5 langkah) Rendah Kesalahan gabungan terbatas
Menengah (5-20 langkah) Sedang Kesalahan terakumulasi
Panjang (20+ langkah) Tinggi Penyimpangan penalaran mendominasi

Solusi Umpan Balik

Wawasan MiroThinker: biarkan lingkungan mengoreksi agen secara terus-menerus.[^14] Alih-alih bernalar secara terisolasi, agen memeriksa pekerjaannya dengan berinteraksi dengan alat eksternal, menangkap kesalahan sebelum bertumpuk.

Penskalaan Interaksi Didefinisikan

Penskalaan interaksi memperlakukan kedalaman interaksi agen-lingkungan sebagai dimensi yang dapat diskalakan analog dengan ukuran model atau panjang konteks.[^15]

Tiga Dimensi

Dimensi Apa yang Diskalakan Bagaimana Membantu
Ukuran Model Parameter Kualitas langkah-tunggal lebih baik
Panjang Konteks Jendela token Lebih banyak informasi tersedia
Kedalaman Interaksi Panggilan alat Koreksi kesalahan, grounding

Mengapa Interaksi Berbeda

Berbeda dengan ukuran model (tetap saat pelatihan) atau konteks (penyimpanan pasif), kedalaman interaksi memungkinkan verifikasi aktif dan koreksi arah.[^16]

Penskalaan Pasif: Model dan konteks yang lebih besar menyediakan lebih banyak kapasitas Penskalaan Aktif: Lebih banyak interaksi menyediakan lebih banyak kesempatan untuk memeriksa, mengoreksi, dan menyempurnakan

Arsitektur MiroThinker

Agen mengikuti framework ReAct dengan peningkatan khusus untuk interaksi dalam:[^17]

Loop Inti

Pikiran → Tindakan (Panggilan Alat) → Observasi → Pikiran → ...

Setiap observasi diumpankan kembali ke konteks agen, menginformasikan penalaran berikutnya.[^18]

Suite Alat

MiroThinker mencakup toolkit komprehensif:[^19]

Kategori Contoh
Pencarian Web Formulasi query, parsing hasil
Browsing Web Navigasi halaman, ekstraksi konten
Eksekusi Kode Runtime Python, analisis hasil
Operasi File Baca, tulis, analisis dokumen

600 Panggilan Alat

Jendela konteks 256K mendukung hingga 600 panggilan alat per tugas.[^20] Untuk konteks, sebagian besar benchmark agen melibatkan kurang dari 20 panggilan alat. MiroThinker beroperasi pada 30x kedalaman interaksi tipikal.

Metodologi Pelatihan

Pelatihan MiroThinker berlanjut dalam tiga fase:[^21]

Fase 1: Supervised Fine-Tuning

Pelatihan awal pada trajektori agen yang berhasil mengajarkan pola penggunaan alat dasar:[^22]

  • Kapan mencari vs browsing
  • Cara merumuskan query yang efektif
  • Menginterpretasikan output alat
  • Mensintesis informasi multi-sumber

Fase 2: Pembelajaran Preferensi

Model belajar memilih trajektori yang berhasil daripada yang gagal:[^23]

  • Umpan balik biner pada hasil trajektori
  • Pembelajaran implisit pemulihan kesalahan
  • Preferensi untuk urutan alat yang efisien

Fase 3: Reinforcement Learning

Group Relative Policy Optimization (GRPO) melatih untuk interaksi yang diperluas:[^24]

  • Hadiah untuk jawaban akhir yang benar
  • Penugasan kredit implisit di seluruh trajektori panjang
  • Mempelajari kapan bertahan vs mengubah strategi

Model Dasar

MiroThinker dibangun di atas fondasi open-weight:[^25]

Ukuran Model Dasar
8B Qwen2.5-8B
30B Qwen3-30B
72B Qwen2.5-72B

Performa Benchmark

GAIA (General AI Assistants)

GAIA menguji tugas asisten realistis yang memerlukan pencarian web, penalaran, dan pemecahan masalah multi-langkah:[^26]

Model Akurasi
MiroThinker-72B 81,9%
GPT-5-high ~85% (estimasi)
SOTA open source sebelumnya ~65%

MiroThinker mendekati performa komersial sambil tetap sepenuhnya terbuka.

HLE (Humanity's Last Exam)

Pertanyaan sangat menantang di berbagai domain:[^27]

Model Akurasi
MiroThinker-72B 37,7%
Pakar manusia Bervariasi

BrowseComp

Browsing web kompleks dan sintesis informasi:[^28]

Model Akurasi
MiroThinker-72B (Inggris) 47,1%
MiroThinker-72B (Cina) 55,6%

Performa Cina menunjukkan transfer multibahasa yang kuat.

Perilaku Penskalaan

Temuan kritis: performa meningkat secara dapat diprediksi dengan kedalaman interaksi.[^29]

Saat MiroThinker terlibat dalam lebih banyak panggilan alat: - Akurasi meningkat (hingga batas hardware/konteks) - Pemulihan kesalahan menjadi lebih efektif - Tugas kompleks menjadi dapat ditangani

Ini menunjukkan bahwa kedalaman interaksi menunjukkan perilaku penskalaan sejati, bukan hanya hasil yang menurun.

Perbandingan dengan Pendekatan Lain

vs. Chain-of-Thought

Dimensi Chain-of-Thought MiroThinker
Umpan balik Tidak ada (penalaran terisolasi) Berkelanjutan (hasil alat)
Penanganan kesalahan Berharap yang terbaik Deteksi dan koreksi
Grounding Hanya pola teks Verifikasi eksternal

vs. Agen ReAct

Dimensi ReAct Standar MiroThinker
Kedalaman interaksi 10-20 panggilan tipikal Hingga 600 panggilan
Pelatihan Prompt engineering RL untuk interaksi dalam
Persistensi Tugas pendek Alur kerja yang diperluas

Mengapa Penskalaan Interaksi Bekerja

Paper mengidentifikasi beberapa mekanisme di balik efektivitas penskalaan interaksi:[^30]

Deteksi Kesalahan

Lebih banyak panggilan alat menciptakan lebih banyak kesempatan untuk menemukan kesalahan:[^31]

  • Hasil pencarian yang kontradiktif mengungkap asumsi yang salah
  • Operasi yang gagal mengekspos status yang tidak valid
  • Output yang tidak terduga memicu pertimbangan ulang

Akuisisi Informasi

Interaksi yang diperluas mengumpulkan lebih banyak informasi relevan:[^32]

  • Pencarian lanjutan menyempurnakan pemahaman
  • Banyak sumber memungkinkan validasi silang
  • Browsing mendalam menemukan detail tersembunyi

Penyempurnaan Strategi

Trajektori panjang memungkinkan evolusi strategi:[^33]

  • Pendekatan awal dapat ditinggalkan
  • Sudut baru dapat dieksplorasi
  • Sintesis dapat menggabungkan informasi yang tiba terlambat

Rilis Open Source

Tim MiroMind merilis sumber daya komprehensif:[^34]

Model

Varian HuggingFace
MiroThinker-v1.0-8B Tersedia
MiroThinker-v1.0-30B Tersedia
MiroThinker-v1.0-72B Tersedia
MiroThinker-v1.5-30B Tersedia (diperbarui)

Kode

  • Pipeline pelatihan lengkap
  • Implementasi inferensi
  • Contoh integrasi alat
  • Skrip evaluasi

Implikasi untuk Pengembangan Agen

Pergeseran Paradigma Pelatihan

Agen yang efektif mungkin memerlukan pelatihan khusus untuk interaksi dalam, bukan hanya model dasar yang lebih baik.[^35]

Pendekatan Lama Pendekatan Baru
Latih LLM, tambah alat Latih untuk penggunaan alat mendalam
Prompt engineering Reinforcement learning
Panggilan satu digit Ratusan panggilan

Poin Kunci

MiroThinker menetapkan penskalaan interaksi sebagai dimensi ketiga yang layak untuk kemampuan AI:

  1. Dimensi Baru: Kedalaman interaksi berskala seperti ukuran model dan panjang konteks
  2. 600 Panggilan Alat: Dilatih untuk 30x kedalaman interaksi agen tipikal
  3. 81,9% GAIA: Mendekati performa komersial sambil sepenuhnya terbuka
  4. Pelatihan Tiga Fase: Pipeline SFT → Pembelajaran Preferensi → RL
  5. Koreksi Kesalahan: Umpan balik lingkungan mencegah penyimpangan penalaran
  6. Rilis Terbuka: Model, kode, dan resep pelatihan semuanya tersedia

Generasi berikutnya agen AI mungkin terbukti mampu bukan hanya melalui model yang lebih besar, tetapi melalui keterlibatan yang lebih dalam dengan lingkungan mereka.

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING