MiroThinker: AI एजेंट्स के लिए तीसरा स्केलिंग आयाम

MiroThinker इंटरैक्शन स्केलिंग प्रस्तुत करता है—प्रति कार्य 600 टूल कॉल संभालने के लिए एजेंट्स को प्रशिक्षित करना। GAIA बेंचमार्क पर 81.9%। मॉडल आकार और संदर्भ से परे एक नया आयाम।

Blake Crosley

Jan 07, 2026 5 min read Disclaimer

MiroThinker: AI एजेंट्स के लिए तीसरा स्केलिंग आयाम

AI स्केलिंग दो आयामों पर केंद्रित रही है: मॉडल आकार और संदर्भ लंबाई।[^1] MiroThinker एक तीसरा आयाम प्रस्तुत करता है: इंटरैक्शन गहराई। यह शोध एजेंट, 8B, 30B और 72B पैरामीटर वेरिएंट के साथ जारी किया गया, रीइन्फोर्समेंट लर्निंग के माध्यम से प्रति कार्य 600 टूल कॉल तक संभालने के लिए मॉडल को प्रशिक्षित करता है।[^2] GAIA बेंचमार्क पर, 72B वेरिएंट 81.9% सटीकता प्राप्त करता है, पूरी तरह से ओपन सोर्स रहते हुए GPT-5-high जैसी वाणिज्यिक प्रणालियों के करीब पहुंचता है।[^3]

TL;DR

MiroThinker मॉडल स्तर पर "इंटरैक्शन स्केलिंग" की खोज करता है, व्यवस्थित रूप से गहरी और अधिक बार एजेंट-वातावरण इंटरैक्शन को संभालने के लिए मॉडल को प्रशिक्षित करता है।[^4] अलग-थलग परीक्षण-समय स्केलिंग के विपरीत, इंटरैक्शन स्केलिंग त्रुटियों को सुधारने और प्रक्षेपवक्र को परिष्कृत करने के लिए वातावरण प्रतिक्रिया का उपयोग करता है।[^5] 256K संदर्भ विंडो के साथ, एजेंट प्रति कार्य 600 टूल कॉल तक निष्पादित करता है, जटिल शोध कार्यप्रवाह के लिए निरंतर मल्टी-टर्न रीज़निंग सक्षम करता है।[^6]

एजेंट स्केलिंग समस्या

वर्तमान AI एजेंट्स एक मौलिक सीमा का सामना करते हैं। जैसे-जैसे रीज़निंग श्रृंखलाएं विस्तारित होती हैं, त्रुटियां संयुक्त होती हैं।[^9] प्रक्षेपवक्र में जल्दी एक गलती पूरे कार्य को पटरी से उतार सकती है। पारंपरिक दृष्टिकोण इसे संबोधित करते हैं:

बड़े मॉडल: बेहतर एकल-चरण सटीकता के लिए अधिक पैरामीटर[^10] लंबा संदर्भ: रीज़निंग इतिहास रखने के लिए अधिक स्थान[^11] बेहतर प्रॉम्प्टिंग: त्रुटियों को कम करने के लिए बेहतर निर्देश[^12]

हालांकि, ये हस्तक्षेप मुख्य समस्या को संबोधित नहीं करते: विस्तारित रीज़निंग के दौरान अपने वातावरण से अलग काम करने वाले एजेंट।

रीज़निंग ड्रिफ्ट

वातावरण प्रतिक्रिया के बिना लंबी रीज़निंग श्रृंखलाएं "रीज़निंग ड्रिफ्ट" प्रदर्शित करती हैं—सही प्रक्षेपवक्र से क्रमिक विचलन।[^13] एजेंट तेजी से पुरानी या गलत धारणाओं पर आधारित रीज़निंग जारी रखता है।

श्रृंखला लंबाई	त्रुटि दर	कारण
छोटी (1-5 चरण)	कम	सीमित संयुक्त त्रुटि
मध्यम (5-20 चरण)	मध्यम	जमा होती गलतियां
लंबी (20+ चरण)	उच्च	रीज़निंग ड्रिफ्ट हावी

फीडबैक समाधान

MiroThinker की अंतर्दृष्टि: वातावरण को एजेंट को लगातार सुधारने दें।[^14] अलग-थलग रीज़निंग के बजाय, एजेंट बाहरी टूल्स के साथ इंटरैक्ट करके अपने काम की जांच करता है, संयुक्त होने से पहले त्रुटियों को पकड़ता है।

इंटरैक्शन स्केलिंग परिभाषित

इंटरैक्शन स्केलिंग एजेंट-वातावरण इंटरैक्शन की गहराई को मॉडल आकार या संदर्भ लंबाई के अनुरूप एक स्केलेबल आयाम के रूप में मानता है।[^15]

तीन आयाम

आयाम	क्या स्केल होता है	कैसे मदद करता है
मॉडल आकार	पैरामीटर	बेहतर एकल-चरण गुणवत्ता
संदर्भ लंबाई	टोकन विंडो	अधिक जानकारी उपलब्ध
इंटरैक्शन गहराई	टूल कॉल	त्रुटि सुधार, ग्राउंडिंग

इंटरैक्शन क्यों अलग है

मॉडल आकार (प्रशिक्षण पर निश्चित) या संदर्भ (निष्क्रिय भंडारण) के विपरीत, इंटरैक्शन गहराई सक्रिय सत्यापन और पाठ्यक्रम सुधार सक्षम करती है।[^16]

निष्क्रिय स्केलिंग: बड़े मॉडल और संदर्भ अधिक क्षमता प्रदान करते हैं सक्रिय स्केलिंग: अधिक इंटरैक्शन जांचने, सुधारने और परिष्कृत करने के अधिक अवसर प्रदान करते हैं

MiroThinker आर्किटेक्चर

एजेंट गहरी इंटरैक्शन के लिए विशिष्ट संवर्द्धन के साथ ReAct फ्रेमवर्क का पालन करता है:[^17]

कोर लूप

विचार → क्रिया (टूल कॉल) → अवलोकन → विचार → ...

प्रत्येक अवलोकन एजेंट के संदर्भ में वापस फीड होता है, बाद की रीज़निंग को सूचित करता है।[^18]

टूल सूट

MiroThinker में एक व्यापक टूलकिट शामिल है:[^19]

श्रेणी	उदाहरण
वेब खोज	क्वेरी फॉर्मूलेशन, रिजल्ट पार्सिंग
वेब ब्राउज़िंग	पेज नेविगेशन, कंटेंट एक्सट्रैक्शन
कोड निष्पादन	Python रनटाइम, रिजल्ट एनालिसिस
फाइल ऑपरेशन	पढ़ना, लिखना, दस्तावेज़ विश्लेषण

600 टूल कॉल

256K संदर्भ विंडो प्रति कार्य 600 टूल कॉल तक समर्थन करती है।[^20] संदर्भ के लिए, अधिकांश एजेंट बेंचमार्क में 20 से कम टूल कॉल शामिल हैं। MiroThinker 30x विशिष्ट इंटरैक्शन गहराई पर काम करता है।

प्रशिक्षण कार्यप्रणाली

MiroThinker प्रशिक्षण तीन चरणों में आगे बढ़ता है:[^21]

चरण 1: सुपरवाइज़्ड फाइन-ट्यूनिंग

सफल एजेंट प्रक्षेपवक्र पर प्रारंभिक प्रशिक्षण बुनियादी टूल उपयोग पैटर्न सिखाता है:[^22]

कब खोजना vs ब्राउज़ करना
प्रभावी क्वेरी कैसे तैयार करें
टूल आउटपुट की व्याख्या करना
मल्टी-सोर्स जानकारी को संश्लेषित करना

चरण 2: प्रेफरेंस लर्निंग

मॉडल विफल प्रक्षेपवक्र पर सफल को प्राथमिकता देना सीखता है:[^23]

प्रक्षेपवक्र परिणामों पर बाइनरी फीडबैक
त्रुटि पुनर्प्राप्ति का निहित शिक्षण
कुशल टूल अनुक्रमों के लिए प्राथमिकता

चरण 3: रीइन्फोर्समेंट लर्निंग

ग्रुप रिलेटिव पॉलिसी ऑप्टिमाइज़ेशन (GRPO) विस्तारित इंटरैक्शन के लिए प्रशिक्षित करता है:[^24]

सही अंतिम उत्तरों के लिए पुरस्कार
लंबे प्रक्षेपवक्र में निहित क्रेडिट असाइनमेंट
कब जारी रखना vs रणनीतियां बदलना सीखना

बेस मॉडल

MiroThinker ओपन-वेट फाउंडेशन पर बनाया गया है:[^25]

आकार	बेस मॉडल
8B	Qwen2.5-8B
30B	Qwen3-30B
72B	Qwen2.5-72B

बेंचमार्क प्रदर्शन

GAIA (जनरल AI असिस्टेंट्स)

GAIA यथार्थवादी सहायक कार्यों का परीक्षण करता है जिनके लिए वेब खोज, रीज़निंग और मल्टी-स्टेप समस्या समाधान की आवश्यकता होती है:[^26]

मॉडल	सटीकता
MiroThinker-72B	81.9%
GPT-5-high	~85% (अनुमानित)
पिछला ओपन-सोर्स SOTA	~65%

MiroThinker पूरी तरह से खुला रहते हुए वाणिज्यिक प्रदर्शन के करीब पहुंचता है।

HLE (मानवता की अंतिम परीक्षा)

विविध डोमेन में अत्यंत चुनौतीपूर्ण प्रश्न:[^27]

मॉडल	सटीकता
MiroThinker-72B	37.7%
मानव विशेषज्ञ	परिवर्तनशील

BrowseComp

जटिल वेब ब्राउज़िंग और सूचना संश्लेषण:[^28]

मॉडल	सटीकता
MiroThinker-72B (अंग्रेज़ी)	47.1%
MiroThinker-72B (चीनी)	55.6%

चीनी प्रदर्शन मजबूत बहुभाषी हस्तांतरण का सुझाव देता है।

स्केलिंग व्यवहार

महत्वपूर्ण खोज: प्रदर्शन इंटरैक्शन गहराई के साथ अनुमानित रूप से सुधरता है।[^29]

जैसे-जैसे MiroThinker अधिक टूल कॉल में संलग्न होता है: - सटीकता बढ़ती है (हार्डवेयर/संदर्भ सीमाओं तक) - त्रुटि पुनर्प्राप्ति अधिक प्रभावी हो जाती है - जटिल कार्य साध्य हो जाते हैं

यह प्रदर्शित करता है कि इंटरैक्शन गहराई केवल घटते रिटर्न नहीं, बल्कि वास्तविक स्केलिंग व्यवहार प्रदर्शित करती है।

मुख्य बिंदु

MiroThinker AI क्षमता के लिए तीसरे व्यवहार्य आयाम के रूप में इंटरैक्शन स्केलिंग स्थापित करता है:

नया आयाम: इंटरैक्शन गहराई मॉडल आकार और संदर्भ लंबाई की तरह स्केल करती है
600 टूल कॉल: विशिष्ट एजेंट इंटरैक्शन गहराई के 30x के लिए प्रशिक्षित
81.9% GAIA: पूरी तरह से खुला रहते हुए वाणिज्यिक प्रदर्शन के करीब
तीन-चरण प्रशिक्षण: SFT → प्रेफरेंस लर्निंग → RL पाइपलाइन
त्रुटि सुधार: वातावरण प्रतिक्रिया रीज़निंग ड्रिफ्ट को रोकती है
ओपन रिलीज़: मॉडल, कोड और प्रशिक्षण रेसिपी सभी उपलब्ध

AI एजेंट्स की अगली पीढ़ी न केवल बड़े मॉडल के माध्यम से, बल्कि अपने वातावरण के साथ गहरी संलग्नता के माध्यम से सक्षम साबित हो सकती है।

MiroThinker: AI एजेंट्स के लिए तीसरा स्केलिंग आयाम

TL;DR

एजेंट स्केलिंग समस्या

रीज़निंग ड्रिफ्ट

फीडबैक समाधान

इंटरैक्शन स्केलिंग परिभाषित

तीन आयाम

इंटरैक्शन क्यों अलग है

MiroThinker आर्किटेक्चर

कोर लूप

टूल सूट

600 टूल कॉल

प्रशिक्षण कार्यप्रणाली

चरण 1: सुपरवाइज़्ड फाइन-ट्यूनिंग

चरण 2: प्रेफरेंस लर्निंग

चरण 3: रीइन्फोर्समेंट लर्निंग

बेस मॉडल

बेंचमार्क प्रदर्शन

GAIA (जनरल AI असिस्टेंट्स)

HLE (मानवता की अंतिम परीक्षा)

BrowseComp

स्केलिंग व्यवहार

मुख्य बिंदु

You Might Also Like

जापान AI इंफ्रास्ट्रक्चर: एशिया की सबसे बड़ी अर्थव्यवस्था जा...

KV कैश ऑप्टिमाइज़ेशन: प्रोडक्शन LLMs के लिए मेमोरी दक्षता

सिंगापुर और दक्षिण-पूर्व एशिया वैश्विक AI इंफ्रास्ट्रक्चर हब...

कोटेशन का अनुरोध करें_

अनुरोध प्राप्त हुआ_