MiroThinker: AI एजेंट्स के लिए तीसरा स्केलिंग आयाम
AI स्केलिंग दो आयामों पर केंद्रित रही है: मॉडल आकार और संदर्भ लंबाई।[^1] MiroThinker एक तीसरा आयाम प्रस्तुत करता है: इंटरैक्शन गहराई। यह शोध एजेंट, 8B, 30B और 72B पैरामीटर वेरिएंट के साथ जारी किया गया, रीइन्फोर्समेंट लर्निंग के माध्यम से प्रति कार्य 600 टूल कॉल तक संभालने के लिए मॉडल को प्रशिक्षित करता है।[^2] GAIA बेंचमार्क पर, 72B वेरिएंट 81.9% सटीकता प्राप्त करता है, पूरी तरह से ओपन सोर्स रहते हुए GPT-5-high जैसी वाणिज्यिक प्रणालियों के करीब पहुंचता है।[^3]
TL;DR
MiroThinker मॉडल स्तर पर "इंटरैक्शन स्केलिंग" की खोज करता है, व्यवस्थित रूप से गहरी और अधिक बार एजेंट-वातावरण इंटरैक्शन को संभालने के लिए मॉडल को प्रशिक्षित करता है।[^4] अलग-थलग परीक्षण-समय स्केलिंग के विपरीत, इंटरैक्शन स्केलिंग त्रुटियों को सुधारने और प्रक्षेपवक्र को परिष्कृत करने के लिए वातावरण प्रतिक्रिया का उपयोग करता है।[^5] 256K संदर्भ विंडो के साथ, एजेंट प्रति कार्य 600 टूल कॉल तक निष्पादित करता है, जटिल शोध कार्यप्रवाह के लिए निरंतर मल्टी-टर्न रीज़निंग सक्षम करता है।[^6]
एजेंट स्केलिंग समस्या
वर्तमान AI एजेंट्स एक मौलिक सीमा का सामना करते हैं। जैसे-जैसे रीज़निंग श्रृंखलाएं विस्तारित होती हैं, त्रुटियां संयुक्त होती हैं।[^9] प्रक्षेपवक्र में जल्दी एक गलती पूरे कार्य को पटरी से उतार सकती है। पारंपरिक दृष्टिकोण इसे संबोधित करते हैं:
बड़े मॉडल: बेहतर एकल-चरण सटीकता के लिए अधिक पैरामीटर[^10] लंबा संदर्भ: रीज़निंग इतिहास रखने के लिए अधिक स्थान[^11] बेहतर प्रॉम्प्टिंग: त्रुटियों को कम करने के लिए बेहतर निर्देश[^12]
हालांकि, ये हस्तक्षेप मुख्य समस्या को संबोधित नहीं करते: विस्तारित रीज़निंग के दौरान अपने वातावरण से अलग काम करने वाले एजेंट।
रीज़निंग ड्रिफ्ट
वातावरण प्रतिक्रिया के बिना लंबी रीज़निंग श्रृंखलाएं "रीज़निंग ड्रिफ्ट" प्रदर्शित करती हैं—सही प्रक्षेपवक्र से क्रमिक विचलन।[^13] एजेंट तेजी से पुरानी या गलत धारणाओं पर आधारित रीज़निंग जारी रखता है।
| श्रृंखला लंबाई | त्रुटि दर | कारण |
|---|---|---|
| छोटी (1-5 चरण) | कम | सीमित संयुक्त त्रुटि |
| मध्यम (5-20 चरण) | मध्यम | जमा होती गलतियां |
| लंबी (20+ चरण) | उच्च | रीज़निंग ड्रिफ्ट हावी |
फीडबैक समाधान
MiroThinker की अंतर्दृष्टि: वातावरण को एजेंट को लगातार सुधारने दें।[^14] अलग-थलग रीज़निंग के बजाय, एजेंट बाहरी टूल्स के साथ इंटरैक्ट करके अपने काम की जांच करता है, संयुक्त होने से पहले त्रुटियों को पकड़ता है।
इंटरैक्शन स्केलिंग परिभाषित
इंटरैक्शन स्केलिंग एजेंट-वातावरण इंटरैक्शन की गहराई को मॉडल आकार या संदर्भ लंबाई के अनुरूप एक स्केलेबल आयाम के रूप में मानता है।[^15]
तीन आयाम
| आयाम | क्या स्केल होता है | कैसे मदद करता है |
|---|---|---|
| मॉडल आकार | पैरामीटर | बेहतर एकल-चरण गुणवत्ता |
| संदर्भ लंबाई | टोकन विंडो | अधिक जानकारी उपलब्ध |
| इंटरैक्शन गहराई | टूल कॉल | त्रुटि सुधार, ग्राउंडिंग |
इंटरैक्शन क्यों अलग है
मॉडल आकार (प्रशिक्षण पर निश्चित) या संदर्भ (निष्क्रिय भंडारण) के विपरीत, इंटरैक्शन गहराई सक्रिय सत्यापन और पाठ्यक्रम सुधार सक्षम करती है।[^16]
निष्क्रिय स्केलिंग: बड़े मॉडल और संदर्भ अधिक क्षमता प्रदान करते हैं सक्रिय स्केलिंग: अधिक इंटरैक्शन जांचने, सुधारने और परिष्कृत करने के अधिक अवसर प्रदान करते हैं
MiroThinker आर्किटेक्चर
एजेंट गहरी इंटरैक्शन के लिए विशिष्ट संवर्द्धन के साथ ReAct फ्रेमवर्क का पालन करता है:[^17]
कोर लूप
विचार → क्रिया (टूल कॉल) → अवलोकन → विचार → ...
प्रत्येक अवलोकन एजेंट के संदर्भ में वापस फीड होता है, बाद की रीज़निंग को सूचित करता है।[^18]
टूल सूट
MiroThinker में एक व्यापक टूलकिट शामिल है:[^19]
| श्रेणी | उदाहरण |
|---|---|
| वेब खोज | क्वेरी फॉर्मूलेशन, रिजल्ट पार्सिंग |
| वेब ब्राउज़िंग | पेज नेविगेशन, कंटेंट एक्सट्रैक्शन |
| कोड निष्पादन | Python रनटाइम, रिजल्ट एनालिसिस |
| फाइल ऑपरेशन | पढ़ना, लिखना, दस्तावेज़ विश्लेषण |
600 टूल कॉल
256K संदर्भ विंडो प्रति कार्य 600 टूल कॉल तक समर्थन करती है।[^20] संदर्भ के लिए, अधिकांश एजेंट बेंचमार्क में 20 से कम टूल कॉल शामिल हैं। MiroThinker 30x विशिष्ट इंटरैक्शन गहराई पर काम करता है।
प्रशिक्षण कार्यप्रणाली
MiroThinker प्रशिक्षण तीन चरणों में आगे बढ़ता है:[^21]
चरण 1: सुपरवाइज़्ड फाइन-ट्यूनिंग
सफल एजेंट प्रक्षेपवक्र पर प्रारंभिक प्रशिक्षण बुनियादी टूल उपयोग पैटर्न सिखाता है:[^22]
- कब खोजना vs ब्राउज़ करना
- प्रभावी क्वेरी कैसे तैयार करें
- टूल आउटपुट की व्याख्या करना
- मल्टी-सोर्स जानकारी को संश्लेषित करना
चरण 2: प्रेफरेंस लर्निंग
मॉडल विफल प्रक्षेपवक्र पर सफल को प्राथमिकता देना सीखता है:[^23]
- प्रक्षेपवक्र परिणामों पर बाइनरी फीडबैक
- त्रुटि पुनर्प्राप्ति का निहित शिक्षण
- कुशल टूल अनुक्रमों के लिए प्राथमिकता
चरण 3: रीइन्फोर्समेंट लर्निंग
ग्रुप रिलेटिव पॉलिसी ऑप्टिमाइज़ेशन (GRPO) विस्तारित इंटरैक्शन के लिए प्रशिक्षित करता है:[^24]
- सही अंतिम उत्तरों के लिए पुरस्कार
- लंबे प्रक्षेपवक्र में निहित क्रेडिट असाइनमेंट
- कब जारी रखना vs रणनीतियां बदलना सीखना
बेस मॉडल
MiroThinker ओपन-वेट फाउंडेशन पर बनाया गया है:[^25]
| आकार | बेस मॉडल |
|---|---|
| 8B | Qwen2.5-8B |
| 30B | Qwen3-30B |
| 72B | Qwen2.5-72B |
बेंचमार्क प्रदर्शन
GAIA (जनरल AI असिस्टेंट्स)
GAIA यथार्थवादी सहायक कार्यों का परीक्षण करता है जिनके लिए वेब खोज, रीज़निंग और मल्टी-स्टेप समस्या समाधान की आवश्यकता होती है:[^26]
| मॉडल | सटीकता |
|---|---|
| MiroThinker-72B | 81.9% |
| GPT-5-high | ~85% (अनुमानित) |
| पिछला ओपन-सोर्स SOTA | ~65% |
MiroThinker पूरी तरह से खुला रहते हुए वाणिज्यिक प्रदर्शन के करीब पहुंचता है।
HLE (मानवता की अंतिम परीक्षा)
विविध डोमेन में अत्यंत चुनौतीपूर्ण प्रश्न:[^27]
| मॉडल | सटीकता |
|---|---|
| MiroThinker-72B | 37.7% |
| मानव विशेषज्ञ | परिवर्तनशील |
BrowseComp
जटिल वेब ब्राउज़िंग और सूचना संश्लेषण:[^28]
| मॉडल | सटीकता |
|---|---|
| MiroThinker-72B (अंग्रेज़ी) | 47.1% |
| MiroThinker-72B (चीनी) | 55.6% |
चीनी प्रदर्शन मजबूत बहुभाषी हस्तांतरण का सुझाव देता है।
स्केलिंग व्यवहार
महत्वपूर्ण खोज: प्रदर्शन इंटरैक्शन गहराई के साथ अनुमानित रूप से सुधरता है।[^29]
जैसे-जैसे MiroThinker अधिक टूल कॉल में संलग्न होता है: - सटीकता बढ़ती है (हार्डवेयर/संदर्भ सीमाओं तक) - त्रुटि पुनर्प्राप्ति अधिक प्रभावी हो जाती है - जटिल कार्य साध्य हो जाते हैं
यह प्रदर्शित करता है कि इंटरैक्शन गहराई केवल घटते रिटर्न नहीं, बल्कि वास्तविक स्केलिंग व्यवहार प्रदर्शित करती है।
मुख्य बिंदु
MiroThinker AI क्षमता के लिए तीसरे व्यवहार्य आयाम के रूप में इंटरैक्शन स्केलिंग स्थापित करता है:
- नया आयाम: इंटरैक्शन गहराई मॉडल आकार और संदर्भ लंबाई की तरह स्केल करती है
- 600 टूल कॉल: विशिष्ट एजेंट इंटरैक्शन गहराई के 30x के लिए प्रशिक्षित
- 81.9% GAIA: पूरी तरह से खुला रहते हुए वाणिज्यिक प्रदर्शन के करीब
- तीन-चरण प्रशिक्षण: SFT → प्रेफरेंस लर्निंग → RL पाइपलाइन
- त्रुटि सुधार: वातावरण प्रतिक्रिया रीज़निंग ड्रिफ्ट को रोकती है
- ओपन रिलीज़: मॉडल, कोड और प्रशिक्षण रेसिपी सभी उपलब्ध
AI एजेंट्स की अगली पीढ़ी न केवल बड़े मॉडल के माध्यम से, बल्कि अपने वातावरण के साथ गहरी संलग्नता के माध्यम से सक्षम साबित हो सकती है।