MiroThinker: AI 에이전트를 위한 세 번째 스케일링 차원

MiroThinker가 상호작용 스케일링을 도입—작업당 600회 도구 호출을 처리하도록 에이전트를 훈련. GAIA 벤치마크에서 81.9%. 모델 크기와 컨텍스트를 넘어선 새로운 차원.

Blake Crosley

Jan 07, 2026 5 min read Disclaimer

MiroThinker: AI 에이전트를 위한 세 번째 스케일링 차원

AI 스케일링은 두 가지 차원에 집중해왔습니다: 모델 크기와 컨텍스트 길이.[^1] MiroThinker는 세 번째 차원을 도입합니다: 상호작용 깊이. 8B, 30B, 72B 파라미터 변형으로 출시된 이 연구 에이전트는 강화 학습을 통해 작업당 최대 600회의 도구 호출을 처리하도록 모델을 훈련합니다.[^2] GAIA 벤치마크에서 72B 변형은 81.9%의 정확도를 달성하며, 완전 오픈소스이면서 GPT-5-high와 같은 상용 시스템에 근접합니다.[^3]

TL;DR

MiroThinker는 모델 수준에서 "상호작용 스케일링"을 탐구하며, 더 깊고 빈번한 에이전트-환경 상호작용을 처리하도록 모델을 체계적으로 훈련합니다.[^4] 고립된 테스트 시간 스케일링과 달리, 상호작용 스케일링은 환경 피드백을 사용하여 오류를 수정하고 궤적을 개선합니다.[^5] 256K 컨텍스트 윈도우로 에이전트는 작업당 최대 600회의 도구 호출을 수행하여 복잡한 연구 워크플로우를 위한 지속적인 다중 턴 추론을 가능하게 합니다.[^6] 훈련은 세 단계를 사용합니다: 지도 미세 조정, 선호도 학습, 그룹 상대 정책 최적화를 통한 강화 학습.[^7]

에이전트 스케일링 문제

현재 AI 에이전트는 근본적인 한계에 직면합니다. 추론 체인이 확장되면서 오류가 복합됩니다.[^9] 궤적 초기의 단일 실수가 전체 작업을 탈선시킬 수 있습니다. 전통적인 접근 방식은 다음을 통해 이를 해결합니다:

더 큰 모델: 더 나은 단일 단계 정확도를 위한 더 많은 파라미터[^10] 더 긴 컨텍스트: 추론 기록을 유지할 더 많은 공간[^11] 더 나은 프롬프팅: 오류를 줄이기 위한 개선된 지시[^12]

그러나 이러한 개입은 핵심 문제를 해결하지 못합니다: 확장된 추론 동안 환경과 격리되어 작동하는 에이전트.

추론 드리프트

환경 피드백 없는 긴 추론 체인은 "추론 드리프트"를 나타냅니다—올바른 궤적으로부터의 점진적 이탈.[^13] 에이전트는 점점 더 오래되거나 잘못된 가정을 기반으로 추론을 계속합니다.

체인 길이	오류율	원인
짧음 (1-5 단계)	낮음	제한된 복합 오류
중간 (5-20 단계)	보통	축적되는 실수
긺 (20+ 단계)	높음	추론 드리프트 지배

피드백 솔루션

MiroThinker의 통찰: 환경이 에이전트를 지속적으로 수정하도록 합니다.[^14] 격리되어 추론하는 대신, 에이전트는 외부 도구와 상호작용하여 작업을 확인하고 오류가 복합되기 전에 포착합니다.

상호작용 스케일링 정의

상호작용 스케일링은 에이전트-환경 상호작용의 깊이를 모델 크기나 컨텍스트 길이와 유사한 확장 가능한 차원으로 취급합니다.[^15]

세 가지 차원

차원	무엇이 스케일되는가	어떻게 도움이 되는가
모델 크기	파라미터	더 나은 단일 단계 품질
컨텍스트 길이	토큰 윈도우	더 많은 정보 사용 가능
상호작용 깊이	도구 호출	오류 수정, 그라운딩

왜 상호작용이 다른가

모델 크기(훈련 시 고정)나 컨텍스트(수동 저장)와 달리, 상호작용 깊이는 능동적 검증과 코스 수정을 가능하게 합니다.[^16]

수동 스케일링: 더 큰 모델과 컨텍스트는 더 많은 용량을 제공 능동 스케일링: 더 많은 상호작용은 확인, 수정, 개선할 더 많은 기회를 제공

MiroThinker 아키텍처

에이전트는 깊은 상호작용을 위한 특정 향상과 함께 ReAct 프레임워크를 따릅니다:[^17]

핵심 루프

생각 → 행동 (도구 호출) → 관찰 → 생각 → ...

각 관찰은 에이전트의 컨텍스트에 피드백되어 후속 추론에 정보를 제공합니다.[^18]

도구 모음

MiroThinker는 포괄적인 툴킷을 포함합니다:[^19]

카테고리	예시
웹 검색	쿼리 작성, 결과 파싱
웹 브라우징	페이지 탐색, 콘텐츠 추출
코드 실행	Python 런타임, 결과 분석
파일 작업	읽기, 쓰기, 문서 분석

600회 도구 호출

256K 컨텍스트 윈도우는 작업당 최대 600회의 도구 호출을 지원합니다.[^20] 참고로, 대부분의 에이전트 벤치마크는 20회 미만의 도구 호출을 포함합니다. MiroThinker는 일반적인 상호작용 깊이의 30배로 작동합니다.

훈련 방법론

MiroThinker 훈련은 세 단계로 진행됩니다:[^21]

1단계: 지도 미세 조정

성공적인 에이전트 궤적에 대한 초기 훈련은 기본 도구 사용 패턴을 가르칩니다:[^22]

언제 검색할지 vs 브라우징할지
효과적인 쿼리 작성 방법
도구 출력 해석
다중 소스 정보 합성

2단계: 선호도 학습

모델은 실패한 궤적보다 성공한 궤적을 선호하도록 학습합니다:[^23]

궤적 결과에 대한 이진 피드백
오류 복구의 암묵적 학습
효율적인 도구 시퀀스 선호

3단계: 강화 학습

그룹 상대 정책 최적화(GRPO)는 확장된 상호작용을 위해 훈련합니다:[^24]

올바른 최종 답변에 대한 보상
긴 궤적에 걸친 암묵적 크레딧 할당
언제 지속할지 vs 전략을 전환할지 학습

기본 모델

MiroThinker는 오픈 웨이트 기반 위에 구축됩니다:[^25]

크기	기본 모델
8B	Qwen2.5-8B
30B	Qwen3-30B
72B	Qwen2.5-72B

벤치마크 성능

GAIA (범용 AI 어시스턴트)

GAIA는 웹 검색, 추론, 다단계 문제 해결이 필요한 현실적인 어시스턴트 작업을 테스트합니다:[^26]

모델	정확도
MiroThinker-72B	81.9%
GPT-5-high	~85% (추정)
이전 오픈소스 SOTA	~65%

MiroThinker는 완전히 오픈된 상태에서 상용 성능에 근접합니다.

HLE (인류의 마지막 시험)

다양한 도메인에 걸친 극도로 도전적인 질문:[^27]

모델	정확도
MiroThinker-72B	37.7%
인간 전문가	가변적

BrowseComp

복잡한 웹 브라우징 및 정보 합성:[^28]

모델	정확도
MiroThinker-72B (영어)	47.1%
MiroThinker-72B (중국어)	55.6%

중국어 성능은 강력한 다국어 전이를 시사합니다.

스케일링 동작

중요한 발견: 성능은 상호작용 깊이와 함께 예측 가능하게 향상됩니다.[^29]

MiroThinker가 더 많은 도구 호출에 참여하면: - 정확도가 증가 (하드웨어/컨텍스트 한계까지) - 오류 복구가 더 효과적이 됨 - 복잡한 작업이 처리 가능해짐

이는 상호작용 깊이가 단순한 수확 체감이 아닌 진정한 스케일링 동작을 보여줌을 입증합니다.

다른 접근 방식과의 비교

vs. Chain-of-Thought

차원	Chain-of-Thought	MiroThinker
피드백	없음 (고립된 추론)	지속적 (도구 결과)
오류 처리	최선을 바람	감지 및 수정
그라운딩	텍스트 패턴만	외부 검증

vs. ReAct 에이전트

차원	표준 ReAct	MiroThinker
상호작용 깊이	일반적으로 10-20회 호출	최대 600회 호출
훈련	프롬프트 엔지니어링	깊은 상호작용을 위한 RL
지속성	짧은 작업	확장된 워크플로우

왜 상호작용 스케일링이 작동하는가

논문은 상호작용 스케일링의 효과 뒤에 있는 여러 메커니즘을 식별합니다:[^30]

오류 감지

더 많은 도구 호출은 실수를 발견할 더 많은 기회를 만듭니다:[^31]

모순된 검색 결과가 잘못된 가정을 드러냄
실패한 작업이 무효한 상태를 노출
예상치 못한 출력이 재고를 촉발

정보 획득

확장된 상호작용은 더 관련 있는 정보를 수집합니다:[^32]

후속 검색이 이해를 정제
다중 소스가 교차 검증을 가능하게 함
깊은 브라우징이 숨겨진 세부 사항을 발견

전략 정제

긴 궤적은 전략 진화를 허용합니다:[^33]

초기 접근 방식을 포기할 수 있음
새로운 각도를 탐색할 수 있음
합성이 늦게 도착한 정보를 통합할 수 있음

오픈소스 출시

MiroMind 팀은 포괄적인 리소스를 출시했습니다:[^34]

모델

변형	HuggingFace
MiroThinker-v1.0-8B	사용 가능
MiroThinker-v1.0-30B	사용 가능
MiroThinker-v1.0-72B	사용 가능
MiroThinker-v1.5-30B	사용 가능 (업데이트)

코드

전체 훈련 파이프라인
추론 구현
도구 통합 예제
평가 스크립트

에이전트 개발에 대한 시사점

훈련 패러다임 전환

효과적인 에이전트는 더 나은 기본 모델만이 아니라 깊은 상호작용을 위한 특정 훈련이 필요할 수 있습니다.[^35]

이전 접근 방식	새로운 접근 방식
LLM 훈련, 도구 추가	깊이 있는 도구 사용을 위한 훈련
프롬프트 엔지니어링	강화 학습
한 자릿수 호출	수백 회의 호출

핵심 요점

MiroThinker는 상호작용 스케일링을 AI 능력을 위한 세 번째 실행 가능한 차원으로 확립합니다:

새로운 차원: 상호작용 깊이는 모델 크기와 컨텍스트 길이처럼 스케일됨
600회 도구 호출: 일반적인 에이전트 상호작용 깊이의 30배로 훈련
81.9% GAIA: 완전히 오픈된 상태에서 상용 성능에 근접
3단계 훈련: SFT → 선호도 학습 → RL 파이프라인
오류 수정: 환경 피드백이 추론 드리프트를 방지
오픈 출시: 모델, 코드, 훈련 레시피 모두 사용 가능

차세대 AI 에이전트는 더 큰 모델만으로가 아니라 환경과의 더 깊은 참여를 통해 능력을 입증할 수 있습니다.

MiroThinker: AI 에이전트를 위한 세 번째 스케일링 차원

TL;DR

에이전트 스케일링 문제

추론 드리프트

피드백 솔루션

상호작용 스케일링 정의

세 가지 차원

왜 상호작용이 다른가

MiroThinker 아키텍처

핵심 루프

도구 모음

600회 도구 호출

훈련 방법론

1단계: 지도 미세 조정

2단계: 선호도 학습

3단계: 강화 학습

기본 모델

벤치마크 성능

GAIA (범용 AI 어시스턴트)

HLE (인류의 마지막 시험)

BrowseComp

스케일링 동작

다른 접근 방식과의 비교

vs. Chain-of-Thought

vs. ReAct 에이전트

왜 상호작용 스케일링이 작동하는가

오류 감지

정보 획득

전략 정제

오픈소스 출시

모델

코드

에이전트 개발에 대한 시사점

훈련 패러다임 전환

핵심 요점

You Might Also Like

일본 AI 인프라: 아시아 최대 경제 대국의 각성

KV 캐시 최적화: 프로덕션 LLM을 위한 메모리 효율성

싱가포르와 동남아시아, 글로벌 AI 인프라 허브로 부상

견적 요청_

요청이 접수되었습니다_