MiroThinker: AI 에이전트를 위한 세 번째 스케일링 차원
AI 스케일링은 두 가지 차원에 집중해왔습니다: 모델 크기와 컨텍스트 길이.[^1] MiroThinker는 세 번째 차원을 도입합니다: 상호작용 깊이. 8B, 30B, 72B 파라미터 변형으로 출시된 이 연구 에이전트는 강화 학습을 통해 작업당 최대 600회의 도구 호출을 처리하도록 모델을 훈련합니다.[^2] GAIA 벤치마크에서 72B 변형은 81.9%의 정확도를 달성하며, 완전 오픈소스이면서 GPT-5-high와 같은 상용 시스템에 근접합니다.[^3]
TL;DR
MiroThinker는 모델 수준에서 "상호작용 스케일링"을 탐구하며, 더 깊고 빈번한 에이전트-환경 상호작용을 처리하도록 모델을 체계적으로 훈련합니다.[^4] 고립된 테스트 시간 스케일링과 달리, 상호작용 스케일링은 환경 피드백을 사용하여 오류를 수정하고 궤적을 개선합니다.[^5] 256K 컨텍스트 윈도우로 에이전트는 작업당 최대 600회의 도구 호출을 수행하여 복잡한 연구 워크플로우를 위한 지속적인 다중 턴 추론을 가능하게 합니다.[^6] 훈련은 세 단계를 사용합니다: 지도 미세 조정, 선호도 학습, 그룹 상대 정책 최적화를 통한 강화 학습.[^7]
에이전트 스케일링 문제
현재 AI 에이전트는 근본적인 한계에 직면합니다. 추론 체인이 확장되면서 오류가 복합됩니다.[^9] 궤적 초기의 단일 실수가 전체 작업을 탈선시킬 수 있습니다. 전통적인 접근 방식은 다음을 통해 이를 해결합니다:
더 큰 모델: 더 나은 단일 단계 정확도를 위한 더 많은 파라미터[^10] 더 긴 컨텍스트: 추론 기록을 유지할 더 많은 공간[^11] 더 나은 프롬프팅: 오류를 줄이기 위한 개선된 지시[^12]
그러나 이러한 개입은 핵심 문제를 해결하지 못합니다: 확장된 추론 동안 환경과 격리되어 작동하는 에이전트.
추론 드리프트
환경 피드백 없는 긴 추론 체인은 "추론 드리프트"를 나타냅니다—올바른 궤적으로부터의 점진적 이탈.[^13] 에이전트는 점점 더 오래되거나 잘못된 가정을 기반으로 추론을 계속합니다.
| 체인 길이 | 오류율 | 원인 |
|---|---|---|
| 짧음 (1-5 단계) | 낮음 | 제한된 복합 오류 |
| 중간 (5-20 단계) | 보통 | 축적되는 실수 |
| 긺 (20+ 단계) | 높음 | 추론 드리프트 지배 |
피드백 솔루션
MiroThinker의 통찰: 환경이 에이전트를 지속적으로 수정하도록 합니다.[^14] 격리되어 추론하는 대신, 에이전트는 외부 도구와 상호작용하여 작업을 확인하고 오류가 복합되기 전에 포착합니다.
상호작용 스케일링 정의
상호작용 스케일링은 에이전트-환경 상호작용의 깊이를 모델 크기나 컨텍스트 길이와 유사한 확장 가능한 차원으로 취급합니다.[^15]
세 가지 차원
| 차원 | 무엇이 스케일되는가 | 어떻게 도움이 되는가 |
|---|---|---|
| 모델 크기 | 파라미터 | 더 나은 단일 단계 품질 |
| 컨텍스트 길이 | 토큰 윈도우 | 더 많은 정보 사용 가능 |
| 상호작용 깊이 | 도구 호출 | 오류 수정, 그라운딩 |
왜 상호작용이 다른가
모델 크기(훈련 시 고정)나 컨텍스트(수동 저장)와 달리, 상호작용 깊이는 능동적 검증과 코스 수정을 가능하게 합니다.[^16]
수동 스케일링: 더 큰 모델과 컨텍스트는 더 많은 용량을 제공 능동 스케일링: 더 많은 상호작용은 확인, 수정, 개선할 더 많은 기회를 제공
MiroThinker 아키텍처
에이전트는 깊은 상호작용을 위한 특정 향상과 함께 ReAct 프레임워크를 따릅니다:[^17]
핵심 루프
생각 → 행동 (도구 호출) → 관찰 → 생각 → ...
각 관찰은 에이전트의 컨텍스트에 피드백되어 후속 추론에 정보를 제공합니다.[^18]
도구 모음
MiroThinker는 포괄적인 툴킷을 포함합니다:[^19]
| 카테고리 | 예시 |
|---|---|
| 웹 검색 | 쿼리 작성, 결과 파싱 |
| 웹 브라우징 | 페이지 탐색, 콘텐츠 추출 |
| 코드 실행 | Python 런타임, 결과 분석 |
| 파일 작업 | 읽기, 쓰기, 문서 분석 |
600회 도구 호출
256K 컨텍스트 윈도우는 작업당 최대 600회의 도구 호출을 지원합니다.[^20] 참고로, 대부분의 에이전트 벤치마크는 20회 미만의 도구 호출을 포함합니다. MiroThinker는 일반적인 상호작용 깊이의 30배로 작동합니다.
훈련 방법론
MiroThinker 훈련은 세 단계로 진행됩니다:[^21]
1단계: 지도 미세 조정
성공적인 에이전트 궤적에 대한 초기 훈련은 기본 도구 사용 패턴을 가르칩니다:[^22]
- 언제 검색할지 vs 브라우징할지
- 효과적인 쿼리 작성 방법
- 도구 출력 해석
- 다중 소스 정보 합성
2단계: 선호도 학습
모델은 실패한 궤적보다 성공한 궤적을 선호하도록 학습합니다:[^23]
- 궤적 결과에 대한 이진 피드백
- 오류 복구의 암묵적 학습
- 효율적인 도구 시퀀스 선호
3단계: 강화 학습
그룹 상대 정책 최적화(GRPO)는 확장된 상호작용을 위해 훈련합니다:[^24]
- 올바른 최종 답변에 대한 보상
- 긴 궤적에 걸친 암묵적 크레딧 할당
- 언제 지속할지 vs 전략을 전환할지 학습
기본 모델
MiroThinker는 오픈 웨이트 기반 위에 구축됩니다:[^25]
| 크기 | 기본 모델 |
|---|---|
| 8B | Qwen2.5-8B |
| 30B | Qwen3-30B |
| 72B | Qwen2.5-72B |
벤치마크 성능
GAIA (범용 AI 어시스턴트)
GAIA는 웹 검색, 추론, 다단계 문제 해결이 필요한 현실적인 어시스턴트 작업을 테스트합니다:[^26]
| 모델 | 정확도 |
|---|---|
| MiroThinker-72B | 81.9% |
| GPT-5-high | ~85% (추정) |
| 이전 오픈소스 SOTA | ~65% |
MiroThinker는 완전히 오픈된 상태에서 상용 성능에 근접합니다.
HLE (인류의 마지막 시험)
다양한 도메인에 걸친 극도로 도전적인 질문:[^27]
| 모델 | 정확도 |
|---|---|
| MiroThinker-72B | 37.7% |
| 인간 전문가 | 가변적 |
BrowseComp
복잡한 웹 브라우징 및 정보 합성:[^28]
| 모델 | 정확도 |
|---|---|
| MiroThinker-72B (영어) | 47.1% |
| MiroThinker-72B (중국어) | 55.6% |
중국어 성능은 강력한 다국어 전이를 시사합니다.
스케일링 동작
중요한 발견: 성능은 상호작용 깊이와 함께 예측 가능하게 향상됩니다.[^29]
MiroThinker가 더 많은 도구 호출에 참여하면: - 정확도가 증가 (하드웨어/컨텍스트 한계까지) - 오류 복구가 더 효과적이 됨 - 복잡한 작업이 처리 가능해짐
이는 상호작용 깊이가 단순한 수확 체감이 아닌 진정한 스케일링 동작을 보여줌을 입증합니다.
다른 접근 방식과의 비교
vs. Chain-of-Thought
| 차원 | Chain-of-Thought | MiroThinker |
|---|---|---|
| 피드백 | 없음 (고립된 추론) | 지속적 (도구 결과) |
| 오류 처리 | 최선을 바람 | 감지 및 수정 |
| 그라운딩 | 텍스트 패턴만 | 외부 검증 |
vs. ReAct 에이전트
| 차원 | 표준 ReAct | MiroThinker |
|---|---|---|
| 상호작용 깊이 | 일반적으로 10-20회 호출 | 최대 600회 호출 |
| 훈련 | 프롬프트 엔지니어링 | 깊은 상호작용을 위한 RL |
| 지속성 | 짧은 작업 | 확장된 워크플로우 |
왜 상호작용 스케일링이 작동하는가
논문은 상호작용 스케일링의 효과 뒤에 있는 여러 메커니즘을 식별합니다:[^30]
오류 감지
더 많은 도구 호출은 실수를 발견할 더 많은 기회를 만듭니다:[^31]
- 모순된 검색 결과가 잘못된 가정을 드러냄
- 실패한 작업이 무효한 상태를 노출
- 예상치 못한 출력이 재고를 촉발
정보 획득
확장된 상호작용은 더 관련 있는 정보를 수집합니다:[^32]
- 후속 검색이 이해를 정제
- 다중 소스가 교차 검증을 가능하게 함
- 깊은 브라우징이 숨겨진 세부 사항을 발견
전략 정제
긴 궤적은 전략 진화를 허용합니다:[^33]
- 초기 접근 방식을 포기할 수 있음
- 새로운 각도를 탐색할 수 있음
- 합성이 늦게 도착한 정보를 통합할 수 있음
오픈소스 출시
MiroMind 팀은 포괄적인 리소스를 출시했습니다:[^34]
모델
| 변형 | HuggingFace |
|---|---|
| MiroThinker-v1.0-8B | 사용 가능 |
| MiroThinker-v1.0-30B | 사용 가능 |
| MiroThinker-v1.0-72B | 사용 가능 |
| MiroThinker-v1.5-30B | 사용 가능 (업데이트) |
코드
- 전체 훈련 파이프라인
- 추론 구현
- 도구 통합 예제
- 평가 스크립트
에이전트 개발에 대한 시사점
훈련 패러다임 전환
효과적인 에이전트는 더 나은 기본 모델만이 아니라 깊은 상호작용을 위한 특정 훈련이 필요할 수 있습니다.[^35]
| 이전 접근 방식 | 새로운 접근 방식 |
|---|---|
| LLM 훈련, 도구 추가 | 깊이 있는 도구 사용을 위한 훈련 |
| 프롬프트 엔지니어링 | 강화 학습 |
| 한 자릿수 호출 | 수백 회의 호출 |
핵심 요점
MiroThinker는 상호작용 스케일링을 AI 능력을 위한 세 번째 실행 가능한 차원으로 확립합니다:
- 새로운 차원: 상호작용 깊이는 모델 크기와 컨텍스트 길이처럼 스케일됨
- 600회 도구 호출: 일반적인 에이전트 상호작용 깊이의 30배로 훈련
- 81.9% GAIA: 완전히 오픈된 상태에서 상용 성능에 근접
- 3단계 훈련: SFT → 선호도 학습 → RL 파이프라인
- 오류 수정: 환경 피드백이 추론 드리프트를 방지
- 오픈 출시: 모델, 코드, 훈련 레시피 모두 사용 가능
차세대 AI 에이전트는 더 큰 모델만으로가 아니라 환경과의 더 깊은 참여를 통해 능력을 입증할 수 있습니다.