MiroThinker: البُعد الثالث للتوسع في وكلاء الذكاء الاصطناعي

MiroThinker يقدم توسيع التفاعل—تدريب الوكلاء للتعامل مع 600 استدعاء أداة لكل مهمة. 81.9% على معيار GAIA. بُعد جديد يتجاوز حجم النموذج والسياق.

MiroThinker: البُعد الثالث للتوسع في وكلاء الذكاء الاصطناعي

MiroThinker: البُعد الثالث للتوسع في وكلاء الذكاء الاصطناعي

ركز توسيع الذكاء الاصطناعي على بُعدين: حجم النموذج وطول السياق.[^1] يقدم MiroThinker بُعداً ثالثاً: عمق التفاعل. وكيل البحث، الذي أُطلق بمتغيرات 8B و30B و72B معامل، يدرب النماذج للتعامل مع ما يصل إلى 600 استدعاء أداة لكل مهمة من خلال التعلم المعزز.[^2] على معيار GAIA، يحقق متغير 72B دقة 81.9%، مقترباً من الأنظمة التجارية مثل GPT-5-high مع البقاء مفتوح المصدر بالكامل.[^3]

ملخص

يستكشف MiroThinker "توسيع التفاعل" على مستوى النموذج، مدرباً النماذج بشكل منهجي للتعامل مع تفاعلات أعمق وأكثر تكراراً بين الوكيل والبيئة.[^4] على عكس توسيع وقت الاختبار المعزول، يستخدم توسيع التفاعل ردود فعل البيئة لتصحيح الأخطاء وتحسين المسارات.[^5] مع نافذة سياق 256K، ينفذ الوكيل ما يصل إلى 600 استدعاء أداة لكل مهمة، مما يتيح الاستدلال المتعدد الأدوار المستدام لسير عمل البحث المعقد.[^6] يستخدم التدريب ثلاث مراحل: الضبط الدقيق الخاضع للإشراف، وتعلم التفضيلات، والتعلم المعزز مع تحسين السياسة النسبية للمجموعة.[^7]

مشكلة توسيع الوكيل

تواجه وكلاء الذكاء الاصطناعي الحالية قيداً أساسياً. مع امتداد سلاسل الاستدلال، تتراكم الأخطاء.[^9] يمكن لخطأ واحد في وقت مبكر من المسار أن يُخرج المهمة بأكملها عن مسارها. تعالج الأساليب التقليدية هذا من خلال:

نماذج أكبر: المزيد من المعاملات لدقة أفضل في الخطوة الواحدة[^10] سياق أطول: مساحة أكبر للاحتفاظ بتاريخ الاستدلال[^11] توجيه أفضل: تعليمات محسنة لتقليل الأخطاء[^12]

ومع ذلك، لا تعالج هذه التدخلات المشكلة الأساسية: الوكلاء الذين يعملون في عزلة عن بيئتهم أثناء الاستدلال الممتد.

انجراف الاستدلال

تُظهر سلاسل الاستدلال الطويلة بدون ردود فعل بيئية "انجراف الاستدلال"—انحراف تدريجي عن المسارات الصحيحة.[^13] يستمر الوكيل في الاستدلال بناءً على افتراضات قديمة أو غير صحيحة بشكل متزايد.

طول السلسلة معدل الخطأ السبب
قصيرة (1-5 خطوات) منخفض خطأ مركب محدود
متوسطة (5-20 خطوة) معتدل أخطاء متراكمة
طويلة (20+ خطوة) عالي انجراف الاستدلال يسيطر

حل ردود الفعل

رؤية MiroThinker: دع البيئة تصحح الوكيل باستمرار.[^14] بدلاً من الاستدلال في عزلة، يتحقق الوكيل من عمله من خلال التفاعل مع أدوات خارجية، ويلتقط الأخطاء قبل أن تتراكم.

تعريف توسيع التفاعل

يعامل توسيع التفاعل عمق تفاعل الوكيل-البيئة كبُعد قابل للتوسع مماثل لحجم النموذج أو طول السياق.[^15]

الأبعاد الثلاثة

البُعد ما يتوسع كيف يساعد
حجم النموذج المعاملات جودة أفضل لكل خطوة
طول السياق نافذة الرموز المزيد من المعلومات المتاحة
عمق التفاعل استدعاءات الأدوات تصحيح الأخطاء، التأريض

لماذا التفاعل مختلف

على عكس حجم النموذج (الثابت عند التدريب) أو السياق (التخزين السلبي)، يتيح عمق التفاعل التحقق النشط وتصحيح المسار.[^16]

التوسع السلبي: توفر النماذج والسياقات الأكبر سعة أكبر التوسع النشط: توفر المزيد من التفاعلات المزيد من الفرص للتحقق والتصحيح والتحسين

بنية MiroThinker

يتبع الوكيل إطار عمل ReAct مع تحسينات محددة للتفاعل العميق:[^17]

الحلقة الأساسية

فكرة → إجراء (استدعاء أداة) → ملاحظة → فكرة → ...

كل ملاحظة تغذي سياق الوكيل، وتُعلم الاستدلال اللاحق.[^18]

مجموعة الأدوات

يتضمن MiroThinker مجموعة أدوات شاملة:[^19]

الفئة أمثلة
بحث الويب صياغة الاستعلام، تحليل النتائج
تصفح الويب التنقل في الصفحات، استخراج المحتوى
تنفيذ الكود وقت تشغيل Python، تحليل النتائج
عمليات الملفات القراءة، الكتابة، تحليل المستندات

600 استدعاء أداة

تدعم نافذة السياق 256K ما يصل إلى 600 استدعاء أداة لكل مهمة.[^20] للسياق، تتضمن معظم معايير الوكلاء أقل من 20 استدعاء أداة. يعمل MiroThinker بـ 30 ضعف عمق التفاعل النموذجي.

منهجية التدريب

يسير تدريب MiroThinker في ثلاث مراحل:[^21]

المرحلة 1: الضبط الدقيق الخاضع للإشراف

يعلم التدريب الأولي على مسارات الوكلاء الناجحة أنماط استخدام الأدوات الأساسية:[^22]

  • متى تبحث مقابل متى تتصفح
  • كيفية صياغة استعلامات فعالة
  • تفسير مخرجات الأدوات
  • تجميع المعلومات من مصادر متعددة

المرحلة 2: تعلم التفضيلات

يتعلم النموذج تفضيل المسارات الناجحة على الفاشلة:[^23]

  • ردود فعل ثنائية على نتائج المسار
  • تعلم ضمني لاستعادة الأخطاء
  • تفضيل تسلسلات الأدوات الفعالة

المرحلة 3: التعلم المعزز

يدرب تحسين السياسة النسبية للمجموعة (GRPO) للتفاعل الممتد:[^24]

  • مكافآت للإجابات النهائية الصحيحة
  • تخصيص ائتمان ضمني عبر المسارات الطويلة
  • تعلم متى تستمر مقابل متى تغير الاستراتيجيات

النماذج الأساسية

يُبنى MiroThinker على أسس الأوزان المفتوحة:[^25]

الحجم النموذج الأساسي
8B Qwen2.5-8B
30B Qwen3-30B
72B Qwen2.5-72B

أداء المعايير

GAIA (مساعدو الذكاء الاصطناعي العامون)

يختبر GAIA مهام المساعد الواقعية التي تتطلب البحث على الويب والاستدلال وحل المشكلات متعددة الخطوات:[^26]

النموذج الدقة
MiroThinker-72B 81.9%
GPT-5-high ~85% (تقديري)
SOTA السابق مفتوح المصدر ~65%

يقترب MiroThinker من الأداء التجاري مع البقاء مفتوحاً بالكامل.

HLE (امتحان البشرية الأخير)

أسئلة صعبة للغاية عبر مجالات متنوعة:[^27]

النموذج الدقة
MiroThinker-72B 37.7%
خبير بشري متغير

BrowseComp

تصفح ويب معقد وتجميع معلومات:[^28]

النموذج الدقة
MiroThinker-72B (إنجليزي) 47.1%
MiroThinker-72B (صيني) 55.6%

يشير الأداء الصيني إلى نقل قوي متعدد اللغات.

سلوك التوسع

اكتشاف حاسم: يتحسن الأداء بشكل متوقع مع عمق التفاعل.[^29]

عندما ينخرط MiroThinker في المزيد من استدعاءات الأدوات: - تزداد الدقة (حتى حدود الأجهزة/السياق) - يصبح استرداد الأخطاء أكثر فعالية - تصبح المهام المعقدة قابلة للمعالجة

يوضح هذا أن عمق التفاعل يُظهر سلوك توسع حقيقي، وليس مجرد عوائد متناقصة.

مقارنة مع الأساليب الأخرى

مقابل Chain-of-Thought

البُعد Chain-of-Thought MiroThinker
ردود الفعل لا شيء (استدلال معزول) مستمر (نتائج الأدوات)
معالجة الأخطاء نأمل الأفضل كشف وتصحيح
التأريض أنماط نصية فقط تحقق خارجي

مقابل وكلاء ReAct

البُعد ReAct القياسي MiroThinker
عمق التفاعل 10-20 استدعاء نموذجي حتى 600 استدعاء
التدريب هندسة الموجهات RL للتفاعل العميق
الاستمرارية مهام قصيرة سير عمل ممتد

لماذا يعمل توسيع التفاعل

تحدد الورقة عدة آليات وراء فعالية توسيع التفاعل:[^30]

كشف الأخطاء

تخلق المزيد من استدعاءات الأدوات المزيد من الفرص لاكتشاف الأخطاء:[^31]

  • نتائج البحث المتناقضة تكشف الافتراضات الخاطئة
  • العمليات الفاشلة تكشف الحالات غير الصالحة
  • المخرجات غير المتوقعة تثير إعادة النظر

اكتساب المعلومات

يجمع التفاعل الممتد المزيد من المعلومات ذات الصلة:[^32]

  • عمليات البحث المتابعة تحسن الفهم
  • المصادر المتعددة تمكن التحقق المتقاطع
  • التصفح العميق يكشف التفاصيل المخفية

تحسين الاستراتيجية

تسمح المسارات الطويلة بتطور الاستراتيجية:[^33]

  • يمكن التخلي عن الأساليب الأولية
  • يمكن استكشاف زوايا جديدة
  • يمكن للتجميع دمج المعلومات المتأخرة

الإصدار مفتوح المصدر

أصدر فريق MiroMind موارد شاملة:[^34]

النماذج

المتغير HuggingFace
MiroThinker-v1.0-8B متاح
MiroThinker-v1.0-30B متاح
MiroThinker-v1.0-72B متاح
MiroThinker-v1.5-30B متاح (محدث)

الكود

  • خط أنابيب التدريب الكامل
  • تنفيذ الاستدلال
  • أمثلة تكامل الأدوات
  • نصوص التقييم

الآثار على تطوير الوكلاء

تحول نموذج التدريب

قد تتطلب الوكلاء الفعالون تدريباً محدداً للتفاعل العميق، وليس فقط نماذج أساسية أفضل.[^35]

النهج القديم النهج الجديد
تدريب LLM، إضافة أدوات التدريب على استخدام الأدوات بعمق
هندسة الموجهات التعلم المعزز
استدعاءات بخانة واحدة مئات الاستدعاءات

النقاط الرئيسية

يؤسس MiroThinker توسيع التفاعل كبُعد ثالث قابل للتطبيق لقدرة الذكاء الاصطناعي:

  1. بُعد جديد: عمق التفاعل يتوسع مثل حجم النموذج وطول السياق
  2. 600 استدعاء أداة: مدرب على 30 ضعف عمق تفاعل الوكيل النموذجي
  3. 81.9% GAIA: يقترب من الأداء التجاري مع كونه مفتوحاً بالكامل
  4. تدريب ثلاثي المراحل: خط أنابيب SFT → تعلم التفضيلات → RL
  5. تصحيح الأخطاء: ردود فعل البيئة تمنع انجراف الاستدلال
  6. إصدار مفتوح: النماذج والكود ووصفات التدريب متاحة جميعها

قد يثبت الجيل القادم من وكلاء الذكاء الاصطناعي قدرته ليس من خلال نماذج أكبر فحسب، بل من خلال مشاركة أعمق مع بيئاتهم.

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING