MiroThinker: البُعد الثالث للتوسع في وكلاء الذكاء الاصطناعي
ركز توسيع الذكاء الاصطناعي على بُعدين: حجم النموذج وطول السياق.[^1] يقدم MiroThinker بُعداً ثالثاً: عمق التفاعل. وكيل البحث، الذي أُطلق بمتغيرات 8B و30B و72B معامل، يدرب النماذج للتعامل مع ما يصل إلى 600 استدعاء أداة لكل مهمة من خلال التعلم المعزز.[^2] على معيار GAIA، يحقق متغير 72B دقة 81.9%، مقترباً من الأنظمة التجارية مثل GPT-5-high مع البقاء مفتوح المصدر بالكامل.[^3]
ملخص
يستكشف MiroThinker "توسيع التفاعل" على مستوى النموذج، مدرباً النماذج بشكل منهجي للتعامل مع تفاعلات أعمق وأكثر تكراراً بين الوكيل والبيئة.[^4] على عكس توسيع وقت الاختبار المعزول، يستخدم توسيع التفاعل ردود فعل البيئة لتصحيح الأخطاء وتحسين المسارات.[^5] مع نافذة سياق 256K، ينفذ الوكيل ما يصل إلى 600 استدعاء أداة لكل مهمة، مما يتيح الاستدلال المتعدد الأدوار المستدام لسير عمل البحث المعقد.[^6] يستخدم التدريب ثلاث مراحل: الضبط الدقيق الخاضع للإشراف، وتعلم التفضيلات، والتعلم المعزز مع تحسين السياسة النسبية للمجموعة.[^7]
مشكلة توسيع الوكيل
تواجه وكلاء الذكاء الاصطناعي الحالية قيداً أساسياً. مع امتداد سلاسل الاستدلال، تتراكم الأخطاء.[^9] يمكن لخطأ واحد في وقت مبكر من المسار أن يُخرج المهمة بأكملها عن مسارها. تعالج الأساليب التقليدية هذا من خلال:
نماذج أكبر: المزيد من المعاملات لدقة أفضل في الخطوة الواحدة[^10] سياق أطول: مساحة أكبر للاحتفاظ بتاريخ الاستدلال[^11] توجيه أفضل: تعليمات محسنة لتقليل الأخطاء[^12]
ومع ذلك، لا تعالج هذه التدخلات المشكلة الأساسية: الوكلاء الذين يعملون في عزلة عن بيئتهم أثناء الاستدلال الممتد.
انجراف الاستدلال
تُظهر سلاسل الاستدلال الطويلة بدون ردود فعل بيئية "انجراف الاستدلال"—انحراف تدريجي عن المسارات الصحيحة.[^13] يستمر الوكيل في الاستدلال بناءً على افتراضات قديمة أو غير صحيحة بشكل متزايد.
| طول السلسلة | معدل الخطأ | السبب |
|---|---|---|
| قصيرة (1-5 خطوات) | منخفض | خطأ مركب محدود |
| متوسطة (5-20 خطوة) | معتدل | أخطاء متراكمة |
| طويلة (20+ خطوة) | عالي | انجراف الاستدلال يسيطر |
حل ردود الفعل
رؤية MiroThinker: دع البيئة تصحح الوكيل باستمرار.[^14] بدلاً من الاستدلال في عزلة، يتحقق الوكيل من عمله من خلال التفاعل مع أدوات خارجية، ويلتقط الأخطاء قبل أن تتراكم.
تعريف توسيع التفاعل
يعامل توسيع التفاعل عمق تفاعل الوكيل-البيئة كبُعد قابل للتوسع مماثل لحجم النموذج أو طول السياق.[^15]
الأبعاد الثلاثة
| البُعد | ما يتوسع | كيف يساعد |
|---|---|---|
| حجم النموذج | المعاملات | جودة أفضل لكل خطوة |
| طول السياق | نافذة الرموز | المزيد من المعلومات المتاحة |
| عمق التفاعل | استدعاءات الأدوات | تصحيح الأخطاء، التأريض |
لماذا التفاعل مختلف
على عكس حجم النموذج (الثابت عند التدريب) أو السياق (التخزين السلبي)، يتيح عمق التفاعل التحقق النشط وتصحيح المسار.[^16]
التوسع السلبي: توفر النماذج والسياقات الأكبر سعة أكبر التوسع النشط: توفر المزيد من التفاعلات المزيد من الفرص للتحقق والتصحيح والتحسين
بنية MiroThinker
يتبع الوكيل إطار عمل ReAct مع تحسينات محددة للتفاعل العميق:[^17]
الحلقة الأساسية
فكرة → إجراء (استدعاء أداة) → ملاحظة → فكرة → ...
كل ملاحظة تغذي سياق الوكيل، وتُعلم الاستدلال اللاحق.[^18]
مجموعة الأدوات
يتضمن MiroThinker مجموعة أدوات شاملة:[^19]
| الفئة | أمثلة |
|---|---|
| بحث الويب | صياغة الاستعلام، تحليل النتائج |
| تصفح الويب | التنقل في الصفحات، استخراج المحتوى |
| تنفيذ الكود | وقت تشغيل Python، تحليل النتائج |
| عمليات الملفات | القراءة، الكتابة، تحليل المستندات |
600 استدعاء أداة
تدعم نافذة السياق 256K ما يصل إلى 600 استدعاء أداة لكل مهمة.[^20] للسياق، تتضمن معظم معايير الوكلاء أقل من 20 استدعاء أداة. يعمل MiroThinker بـ 30 ضعف عمق التفاعل النموذجي.
منهجية التدريب
يسير تدريب MiroThinker في ثلاث مراحل:[^21]
المرحلة 1: الضبط الدقيق الخاضع للإشراف
يعلم التدريب الأولي على مسارات الوكلاء الناجحة أنماط استخدام الأدوات الأساسية:[^22]
- متى تبحث مقابل متى تتصفح
- كيفية صياغة استعلامات فعالة
- تفسير مخرجات الأدوات
- تجميع المعلومات من مصادر متعددة
المرحلة 2: تعلم التفضيلات
يتعلم النموذج تفضيل المسارات الناجحة على الفاشلة:[^23]
- ردود فعل ثنائية على نتائج المسار
- تعلم ضمني لاستعادة الأخطاء
- تفضيل تسلسلات الأدوات الفعالة
المرحلة 3: التعلم المعزز
يدرب تحسين السياسة النسبية للمجموعة (GRPO) للتفاعل الممتد:[^24]
- مكافآت للإجابات النهائية الصحيحة
- تخصيص ائتمان ضمني عبر المسارات الطويلة
- تعلم متى تستمر مقابل متى تغير الاستراتيجيات
النماذج الأساسية
يُبنى MiroThinker على أسس الأوزان المفتوحة:[^25]
| الحجم | النموذج الأساسي |
|---|---|
| 8B | Qwen2.5-8B |
| 30B | Qwen3-30B |
| 72B | Qwen2.5-72B |
أداء المعايير
GAIA (مساعدو الذكاء الاصطناعي العامون)
يختبر GAIA مهام المساعد الواقعية التي تتطلب البحث على الويب والاستدلال وحل المشكلات متعددة الخطوات:[^26]
| النموذج | الدقة |
|---|---|
| MiroThinker-72B | 81.9% |
| GPT-5-high | ~85% (تقديري) |
| SOTA السابق مفتوح المصدر | ~65% |
يقترب MiroThinker من الأداء التجاري مع البقاء مفتوحاً بالكامل.
HLE (امتحان البشرية الأخير)
أسئلة صعبة للغاية عبر مجالات متنوعة:[^27]
| النموذج | الدقة |
|---|---|
| MiroThinker-72B | 37.7% |
| خبير بشري | متغير |
BrowseComp
تصفح ويب معقد وتجميع معلومات:[^28]
| النموذج | الدقة |
|---|---|
| MiroThinker-72B (إنجليزي) | 47.1% |
| MiroThinker-72B (صيني) | 55.6% |
يشير الأداء الصيني إلى نقل قوي متعدد اللغات.
سلوك التوسع
اكتشاف حاسم: يتحسن الأداء بشكل متوقع مع عمق التفاعل.[^29]
عندما ينخرط MiroThinker في المزيد من استدعاءات الأدوات: - تزداد الدقة (حتى حدود الأجهزة/السياق) - يصبح استرداد الأخطاء أكثر فعالية - تصبح المهام المعقدة قابلة للمعالجة
يوضح هذا أن عمق التفاعل يُظهر سلوك توسع حقيقي، وليس مجرد عوائد متناقصة.
مقارنة مع الأساليب الأخرى
مقابل Chain-of-Thought
| البُعد | Chain-of-Thought | MiroThinker |
|---|---|---|
| ردود الفعل | لا شيء (استدلال معزول) | مستمر (نتائج الأدوات) |
| معالجة الأخطاء | نأمل الأفضل | كشف وتصحيح |
| التأريض | أنماط نصية فقط | تحقق خارجي |
مقابل وكلاء ReAct
| البُعد | ReAct القياسي | MiroThinker |
|---|---|---|
| عمق التفاعل | 10-20 استدعاء نموذجي | حتى 600 استدعاء |
| التدريب | هندسة الموجهات | RL للتفاعل العميق |
| الاستمرارية | مهام قصيرة | سير عمل ممتد |
لماذا يعمل توسيع التفاعل
تحدد الورقة عدة آليات وراء فعالية توسيع التفاعل:[^30]
كشف الأخطاء
تخلق المزيد من استدعاءات الأدوات المزيد من الفرص لاكتشاف الأخطاء:[^31]
- نتائج البحث المتناقضة تكشف الافتراضات الخاطئة
- العمليات الفاشلة تكشف الحالات غير الصالحة
- المخرجات غير المتوقعة تثير إعادة النظر
اكتساب المعلومات
يجمع التفاعل الممتد المزيد من المعلومات ذات الصلة:[^32]
- عمليات البحث المتابعة تحسن الفهم
- المصادر المتعددة تمكن التحقق المتقاطع
- التصفح العميق يكشف التفاصيل المخفية
تحسين الاستراتيجية
تسمح المسارات الطويلة بتطور الاستراتيجية:[^33]
- يمكن التخلي عن الأساليب الأولية
- يمكن استكشاف زوايا جديدة
- يمكن للتجميع دمج المعلومات المتأخرة
الإصدار مفتوح المصدر
أصدر فريق MiroMind موارد شاملة:[^34]
النماذج
| المتغير | HuggingFace |
|---|---|
| MiroThinker-v1.0-8B | متاح |
| MiroThinker-v1.0-30B | متاح |
| MiroThinker-v1.0-72B | متاح |
| MiroThinker-v1.5-30B | متاح (محدث) |
الكود
- خط أنابيب التدريب الكامل
- تنفيذ الاستدلال
- أمثلة تكامل الأدوات
- نصوص التقييم
الآثار على تطوير الوكلاء
تحول نموذج التدريب
قد تتطلب الوكلاء الفعالون تدريباً محدداً للتفاعل العميق، وليس فقط نماذج أساسية أفضل.[^35]
| النهج القديم | النهج الجديد |
|---|---|
| تدريب LLM، إضافة أدوات | التدريب على استخدام الأدوات بعمق |
| هندسة الموجهات | التعلم المعزز |
| استدعاءات بخانة واحدة | مئات الاستدعاءات |
النقاط الرئيسية
يؤسس MiroThinker توسيع التفاعل كبُعد ثالث قابل للتطبيق لقدرة الذكاء الاصطناعي:
- بُعد جديد: عمق التفاعل يتوسع مثل حجم النموذج وطول السياق
- 600 استدعاء أداة: مدرب على 30 ضعف عمق تفاعل الوكيل النموذجي
- 81.9% GAIA: يقترب من الأداء التجاري مع كونه مفتوحاً بالكامل
- تدريب ثلاثي المراحل: خط أنابيب SFT → تعلم التفضيلات → RL
- تصحيح الأخطاء: ردود فعل البيئة تمنع انجراف الاستدلال
- إصدار مفتوح: النماذج والكود ووصفات التدريب متاحة جميعها
قد يثبت الجيل القادم من وكلاء الذكاء الاصطناعي قدرته ليس من خلال نماذج أكبر فحسب، بل من خلال مشاركة أعمق مع بيئاتهم.