MiroThinker: Третій Вимір Масштабування для AI-Агентів
Масштабування AI зосереджувалося на двох вимірах: розмір моделі та довжина контексту.[^1] MiroThinker вводить третій: глибина взаємодії. Дослідницький агент, випущений з варіантами 8B, 30B та 72B параметрів, навчає моделі обробляти до 600 викликів інструментів на завдання через навчання з підкріпленням.[^2] На бенчмарку GAIA варіант 72B досягає точності 81,9%, наближаючись до комерційних систем як GPT-5-high, залишаючись повністю відкритим.[^3]
TL;DR
MiroThinker досліджує "масштабування взаємодії" на рівні моделі, систематично навчаючи моделі обробляти глибші та частіші взаємодії агент-середовище.[^4] На відміну від ізольованого масштабування часу тестування, масштабування взаємодії використовує зворотний зв'язок середовища для виправлення помилок та уточнення траєкторій.[^5] З контекстним вікном 256K агент виконує до 600 викликів інструментів на завдання, уможливлюючи стійке багатокрокове міркування для складних дослідницьких робочих процесів.[^6]
Проблема Масштабування Агентів
Поточні AI-агенти стикаються з фундаментальним обмеженням. Коли ланцюги міркувань подовжуються, помилки накопичуються.[^9] Одна помилка на початку траєкторії може зірвати все завдання. Традиційні підходи вирішують це через:
Більші Моделі: Більше параметрів для кращої точності одного кроку[^10] Довший Контекст: Більше місця для зберігання історії міркувань[^11] Кращий Промптінг: Покращені інструкції для зменшення помилок[^12]
Однак ці втручання не вирішують основну проблему: агенти, що працюють ізольовано від свого середовища під час розширеного міркування.
Дрейф Міркування
Довгі ланцюги міркувань без зворотного зв'язку середовища демонструють "дрейф міркування"—поступове відхилення від правильних траєкторій.[^13] Агент продовжує міркувати на основі дедалі застарілих або неправильних припущень.
| Довжина Ланцюга | Рівень Помилок | Причина |
|---|---|---|
| Короткий (1-5 кроків) | Низький | Обмежена складена помилка |
| Середній (5-20 кроків) | Помірний | Накопичені помилки |
| Довгий (20+ кроків) | Високий | Дрейф міркування домінує |
Рішення Зворотного Зв'язку
Інсайт MiroThinker: дозволити середовищу безперервно виправляти агента.[^14] Замість ізольованого міркування агент перевіряє свою роботу, взаємодіючи із зовнішніми інструментами, виловлюючи помилки до їх накопичення.
Визначення Масштабування Взаємодії
Масштабування взаємодії розглядає глибину взаємодії агент-середовище як масштабований вимір, аналогічний розміру моделі або довжині контексту.[^15]
Три Виміри
| Вимір | Що Масштабується | Як Допомагає |
|---|---|---|
| Розмір Моделі | Параметри | Краща якість одного кроку |
| Довжина Контексту | Вікно токенів | Більше доступної інформації |
| Глибина Взаємодії | Виклики інструментів | Виправлення помилок, заземлення |
Чому Взаємодія Інша
На відміну від розміру моделі (фіксованого при навчанні) або контексту (пасивне зберігання), глибина взаємодії уможливлює активну верифікацію та корекцію курсу.[^16]
Пасивне Масштабування: Більші моделі та контексти забезпечують більшу ємність Активне Масштабування: Більше взаємодій забезпечують більше можливостей для перевірки, виправлення та уточнення
Архітектура MiroThinker
Агент дотримується фреймворку ReAct зі специфічними покращеннями для глибокої взаємодії:[^17]
Основний Цикл
Думка → Дія (Виклик Інструменту) → Спостереження → Думка → ...
Кожне спостереження повертається в контекст агента, інформуючи подальше міркування.[^18]
Набір Інструментів
MiroThinker включає комплексний набір інструментів:[^19]
| Категорія | Приклади |
|---|---|
| Веб-пошук | Формулювання запитів, парсинг результатів |
| Веб-браузинг | Навігація сторінками, екстракція контенту |
| Виконання Коду | Python runtime, аналіз результатів |
| Файлові Операції | Читання, запис, аналіз документів |
600 Викликів Інструментів
Контекстне вікно 256K підтримує до 600 викликів інструментів на завдання.[^20] Для контексту, більшість бенчмарків агентів включають менше 20 викликів інструментів. MiroThinker працює на 30-кратній типовій глибині взаємодії.
Методологія Навчання
Навчання MiroThinker проходить у три фази:[^21]
Фаза 1: Supervised Fine-Tuning
Початкове навчання на успішних траєкторіях агентів вчить базовим патернам використання інструментів:[^22]
- Коли шукати vs переглядати
- Як формулювати ефективні запити
- Інтерпретація виводу інструментів
- Синтез інформації з багатьох джерел
Фаза 2: Навчання Преференцій
Модель вчиться надавати перевагу успішним траєкторіям над невдалими:[^23]
- Бінарний зворотний зв'язок щодо результатів траєкторії
- Неявне навчання відновлення після помилок
- Перевага ефективних послідовностей інструментів
Фаза 3: Навчання з Підкріпленням
Group Relative Policy Optimization (GRPO) навчає для розширеної взаємодії:[^24]
- Винагороди за правильні кінцеві відповіді
- Неявне присвоєння кредиту через довгі траєкторії
- Навчання коли наполягати vs змінювати стратегії
Базові Моделі
MiroThinker побудований на фундаменті відкритих ваг:[^25]
| Розмір | Базова Модель |
|---|---|
| 8B | Qwen2.5-8B |
| 30B | Qwen3-30B |
| 72B | Qwen2.5-72B |
Продуктивність на Бенчмарках
GAIA (Загальні AI Асистенти)
GAIA тестує реалістичні завдання асистента, що вимагають веб-пошуку, міркування та багатокрокового вирішення проблем:[^26]
| Модель | Точність |
|---|---|
| MiroThinker-72B | 81,9% |
| GPT-5-high | ~85% (оцінка) |
| Попередній open-source SOTA | ~65% |
MiroThinker наближається до комерційної продуктивності, залишаючись повністю відкритим.
HLE (Останній Іспит Людства)
Надзвичайно складні запитання з різних доменів:[^27]
| Модель | Точність |
|---|---|
| MiroThinker-72B | 37,7% |
| Людський експерт | Варіюється |
BrowseComp
Складний веб-браузинг та синтез інформації:[^28]
| Модель | Точність |
|---|---|
| MiroThinker-72B (англійська) | 47,1% |
| MiroThinker-72B (китайська) | 55,6% |
Продуктивність китайською вказує на сильний багатомовний трансфер.
Поведінка Масштабування
Критичне відкриття: продуктивність передбачувано покращується зі збільшенням глибини взаємодії.[^29]
Коли MiroThinker залучається до більшої кількості викликів інструментів: - Точність зростає (до меж апаратного забезпечення/контексту) - Відновлення після помилок стає ефективнішим - Складні завдання стають виконуваними
Це демонструє, що глибина взаємодії показує справжню поведінку масштабування, а не просто спадну віддачу.
Ключові Висновки
MiroThinker встановлює масштабування взаємодії як третій життєздатний вимір для можливостей AI:
- Новий Вимір: Глибина взаємодії масштабується як розмір моделі та довжина контексту
- 600 Викликів Інструментів: Навчений для 30-кратної типової глибини взаємодії агента
- 81,9% GAIA: Наближається до комерційної продуктивності, будучи повністю відкритим
- Трифазне Навчання: Пайплайн SFT → Навчання Преференцій → RL
- Виправлення Помилок: Зворотний зв'язок середовища запобігає дрейфу міркування
- Відкритий Реліз: Моделі, код та рецепти навчання доступні
Наступне покоління AI-агентів може виявитися здатним не лише через більші моделі, але через глибшу взаємодію зі своїми середовищами.