MiroThinker: Третій Вимір Масштабування для AI-Агентів

MiroThinker впроваджує масштабування взаємодії—навчання агентів обробляти 600 викликів інструментів на завдання. 81,9% на бенчмарку GAIA. Новий вимір за межами розміру моделі та контексту.

MiroThinker: Третій Вимір Масштабування для AI-Агентів

MiroThinker: Третій Вимір Масштабування для AI-Агентів

Масштабування AI зосереджувалося на двох вимірах: розмір моделі та довжина контексту.[^1] MiroThinker вводить третій: глибина взаємодії. Дослідницький агент, випущений з варіантами 8B, 30B та 72B параметрів, навчає моделі обробляти до 600 викликів інструментів на завдання через навчання з підкріпленням.[^2] На бенчмарку GAIA варіант 72B досягає точності 81,9%, наближаючись до комерційних систем як GPT-5-high, залишаючись повністю відкритим.[^3]

TL;DR

MiroThinker досліджує "масштабування взаємодії" на рівні моделі, систематично навчаючи моделі обробляти глибші та частіші взаємодії агент-середовище.[^4] На відміну від ізольованого масштабування часу тестування, масштабування взаємодії використовує зворотний зв'язок середовища для виправлення помилок та уточнення траєкторій.[^5] З контекстним вікном 256K агент виконує до 600 викликів інструментів на завдання, уможливлюючи стійке багатокрокове міркування для складних дослідницьких робочих процесів.[^6]

Проблема Масштабування Агентів

Поточні AI-агенти стикаються з фундаментальним обмеженням. Коли ланцюги міркувань подовжуються, помилки накопичуються.[^9] Одна помилка на початку траєкторії може зірвати все завдання. Традиційні підходи вирішують це через:

Більші Моделі: Більше параметрів для кращої точності одного кроку[^10] Довший Контекст: Більше місця для зберігання історії міркувань[^11] Кращий Промптінг: Покращені інструкції для зменшення помилок[^12]

Однак ці втручання не вирішують основну проблему: агенти, що працюють ізольовано від свого середовища під час розширеного міркування.

Дрейф Міркування

Довгі ланцюги міркувань без зворотного зв'язку середовища демонструють "дрейф міркування"—поступове відхилення від правильних траєкторій.[^13] Агент продовжує міркувати на основі дедалі застарілих або неправильних припущень.

Довжина Ланцюга Рівень Помилок Причина
Короткий (1-5 кроків) Низький Обмежена складена помилка
Середній (5-20 кроків) Помірний Накопичені помилки
Довгий (20+ кроків) Високий Дрейф міркування домінує

Рішення Зворотного Зв'язку

Інсайт MiroThinker: дозволити середовищу безперервно виправляти агента.[^14] Замість ізольованого міркування агент перевіряє свою роботу, взаємодіючи із зовнішніми інструментами, виловлюючи помилки до їх накопичення.

Визначення Масштабування Взаємодії

Масштабування взаємодії розглядає глибину взаємодії агент-середовище як масштабований вимір, аналогічний розміру моделі або довжині контексту.[^15]

Три Виміри

Вимір Що Масштабується Як Допомагає
Розмір Моделі Параметри Краща якість одного кроку
Довжина Контексту Вікно токенів Більше доступної інформації
Глибина Взаємодії Виклики інструментів Виправлення помилок, заземлення

Чому Взаємодія Інша

На відміну від розміру моделі (фіксованого при навчанні) або контексту (пасивне зберігання), глибина взаємодії уможливлює активну верифікацію та корекцію курсу.[^16]

Пасивне Масштабування: Більші моделі та контексти забезпечують більшу ємність Активне Масштабування: Більше взаємодій забезпечують більше можливостей для перевірки, виправлення та уточнення

Архітектура MiroThinker

Агент дотримується фреймворку ReAct зі специфічними покращеннями для глибокої взаємодії:[^17]

Основний Цикл

Думка → Дія (Виклик Інструменту) → Спостереження → Думка → ...

Кожне спостереження повертається в контекст агента, інформуючи подальше міркування.[^18]

Набір Інструментів

MiroThinker включає комплексний набір інструментів:[^19]

Категорія Приклади
Веб-пошук Формулювання запитів, парсинг результатів
Веб-браузинг Навігація сторінками, екстракція контенту
Виконання Коду Python runtime, аналіз результатів
Файлові Операції Читання, запис, аналіз документів

600 Викликів Інструментів

Контекстне вікно 256K підтримує до 600 викликів інструментів на завдання.[^20] Для контексту, більшість бенчмарків агентів включають менше 20 викликів інструментів. MiroThinker працює на 30-кратній типовій глибині взаємодії.

Методологія Навчання

Навчання MiroThinker проходить у три фази:[^21]

Фаза 1: Supervised Fine-Tuning

Початкове навчання на успішних траєкторіях агентів вчить базовим патернам використання інструментів:[^22]

  • Коли шукати vs переглядати
  • Як формулювати ефективні запити
  • Інтерпретація виводу інструментів
  • Синтез інформації з багатьох джерел

Фаза 2: Навчання Преференцій

Модель вчиться надавати перевагу успішним траєкторіям над невдалими:[^23]

  • Бінарний зворотний зв'язок щодо результатів траєкторії
  • Неявне навчання відновлення після помилок
  • Перевага ефективних послідовностей інструментів

Фаза 3: Навчання з Підкріпленням

Group Relative Policy Optimization (GRPO) навчає для розширеної взаємодії:[^24]

  • Винагороди за правильні кінцеві відповіді
  • Неявне присвоєння кредиту через довгі траєкторії
  • Навчання коли наполягати vs змінювати стратегії

Базові Моделі

MiroThinker побудований на фундаменті відкритих ваг:[^25]

Розмір Базова Модель
8B Qwen2.5-8B
30B Qwen3-30B
72B Qwen2.5-72B

Продуктивність на Бенчмарках

GAIA (Загальні AI Асистенти)

GAIA тестує реалістичні завдання асистента, що вимагають веб-пошуку, міркування та багатокрокового вирішення проблем:[^26]

Модель Точність
MiroThinker-72B 81,9%
GPT-5-high ~85% (оцінка)
Попередній open-source SOTA ~65%

MiroThinker наближається до комерційної продуктивності, залишаючись повністю відкритим.

HLE (Останній Іспит Людства)

Надзвичайно складні запитання з різних доменів:[^27]

Модель Точність
MiroThinker-72B 37,7%
Людський експерт Варіюється

BrowseComp

Складний веб-браузинг та синтез інформації:[^28]

Модель Точність
MiroThinker-72B (англійська) 47,1%
MiroThinker-72B (китайська) 55,6%

Продуктивність китайською вказує на сильний багатомовний трансфер.

Поведінка Масштабування

Критичне відкриття: продуктивність передбачувано покращується зі збільшенням глибини взаємодії.[^29]

Коли MiroThinker залучається до більшої кількості викликів інструментів: - Точність зростає (до меж апаратного забезпечення/контексту) - Відновлення після помилок стає ефективнішим - Складні завдання стають виконуваними

Це демонструє, що глибина взаємодії показує справжню поведінку масштабування, а не просто спадну віддачу.

Ключові Висновки

MiroThinker встановлює масштабування взаємодії як третій життєздатний вимір для можливостей AI:

  1. Новий Вимір: Глибина взаємодії масштабується як розмір моделі та довжина контексту
  2. 600 Викликів Інструментів: Навчений для 30-кратної типової глибини взаємодії агента
  3. 81,9% GAIA: Наближається до комерційної продуктивності, будучи повністю відкритим
  4. Трифазне Навчання: Пайплайн SFT → Навчання Преференцій → RL
  5. Виправлення Помилок: Зворотний зв'язок середовища запобігає дрейфу міркування
  6. Відкритий Реліз: Моделі, код та рецепти навчання доступні

Наступне покоління AI-агентів може виявитися здатним не лише через більші моделі, але через глибшу взаємодію зі своїми середовищами.

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING