نماذج اللغة التكرارية: تعليم الذكاء الاصطناعي إدارة سياقه الخاص
توسعت نوافذ السياق بشكل كبير: 100 ألف، 200 ألف، وحتى مليون رمز.[^1] ومع ذلك، تبقى القيود الأساسية. تكاليف الذاكرة الخطية، وتدهور الانتباه في الأطوال القصوى، وعدم القدرة على إعادة زيارة أو إعادة تنظيم المعلومات بمجرد استهلاكها، كل ذلك يقيد ما يمكن أن تحققه نماذج السياق الطويل.[^2] تتخذ نماذج اللغة التكرارية (RLMs) نهجًا مختلفًا تمامًا. بدلاً من حشو كل شيء في السياق، تعلم RLMs النماذج إدارة سياقها بشكل نشط باستخدام سكريبتات Python واستدعاءات LLM الفرعية.[^3]
ملخص
تقدم ورقة RLM من MIT بنية يفوض فيها نموذج اللغة الرئيسي العمل إلى REPL Python مستمر ومثيلات LLM فرعية قابلة للإنشاء.[^4] بدلاً من تحميل المدخلات الضخمة مباشرة، يفحص النموذج البيانات ويحولها برمجيًا.[^5] تُظهر الاختبارات أن RLMs تتعامل مع مدخلات تصل إلى 100 ضعف نوافذ سياق النموذج مع تفوقها الكبير على النماذج الأساسية والسقالات الشائعة للسياق الطويل.[^6] في CodeQA، يحقق GPT-5 دقة أساسية 24% بينما يصل RLM إلى 62%.[^7] قام Prime Intellect بتنفيذ بنية تدريب RLM ويتوقع أن هذا النهج سيحدد الاختراق الكبير التالي في وكلاء الذكاء الاصطناعي.[^8]
مشكلة السياق الطويل
يتناسب انتباه المحول تربيعيًا مع طول التسلسل.[^9] بينما تقلل متغيرات الانتباه الفعالة هذه التكلفة، تستمر التحديات الأساسية:
تدهور السياق
تثبت الدراسات أن أداء النموذج يتدهور مع نمو السياق، حتى عندما يدعم النموذج الطول تقنيًا.[^10] تكشف اختبارات "الإبرة في كومة القش" الشهيرة أن المعلومات في منتصف السياقات الطويلة غالبًا ما يتم تجاهلها أو نسيانها.[^11]
السياق الثابت
تعمل نوافذ السياق التقليدية كمخازن مؤقتة للكتابة مرة واحدة. بمجرد دخول الرموز إلى السياق، لا يمكن للنموذج إعادة تنظيمها أو تلخيصها أو استردادها بشكل انتقائي.[^12] تستمر المعلومات غير ذات الصلة جنبًا إلى جنب مع التفاصيل الحاسمة.
تكاليف الذاكرة
يتطلب كل رمز إضافي في السياق ذاكرة متناسبة لذاكرات التخزين المؤقت للمفتاح والقيمة أثناء الاستدلال.[^13] تتطلب سياقات المليون رمز ذاكرة GPU كبيرة حتى للاستعلامات الفردية.
حل RLM
تقلب RLMs النموذج من "النموذج يستقبل السياق" إلى "النموذج يدير السياق".[^14]
البنية الأساسية
يوفر RLM ثلاث قدرات رئيسية للنموذج الرئيسي:[^15]
| القدرة | التنفيذ | الغرض |
|---|---|---|
| Python REPL | بيئة مستمرة | تخزين البيانات وتحويلها واستردادها |
| LLMs فرعية | مثيلات قابلة للإنشاء عبر llm_batch() |
تفويض مهام التحليل |
| متغير الإجابة | answer["content"] + answer["ready"] |
تحسين الاستجابة التكراري |
لا يعالج النموذج الرئيسي المدخلات الضخمة مباشرة أبدًا. بدلاً من ذلك، يكتب كود Python لإدارة تدفق المعلومات.
تصميم مستوى التحكم
يعمل Python REPL كما يسميه Prime Intellect "مستوى تحكم للسياق الطويل".[^16] توفر البيئة:
حالة مستمرة: تنجو المتغيرات عبر أدوار النموذج، مما يتيح سير عمل معقد متعدد الخطوات.[^17]
المعالجة المتوازية: تولد وظيفة llm_batch() استدعاءات LLM فرعية متعددة في وقت واحد، مما يسرع بشكل كبير المهام القابلة للتوازي.[^18]
عزل الأدوات: فقط LLMs الفرعية تحصل على وصول للأدوات (البحث على الويب، قراءة الملفات، إلخ)، مما يمنع تضخم الرموز في سياق النموذج الرئيسي.[^19]
حزم مثبتة مسبقًا: تحصل المهام الرياضية الثقيلة على numpy وscipy وsympy متاحة تلقائيًا.[^20]
نمط متغير الإجابة
تظهر الردود النهائية بشكل تكراري بدلاً من توليد واحد:[^21]
# النموذج يكتب في متغير الإجابة
answer["content"] = "حل جزئي..."
answer["ready"] = False # استمر في المعالجة
# التكرارات اللاحقة تحسن
answer["content"] = "حل كامل..."
answer["ready"] = True # أشر إلى الاكتمال
يتيح هذا النمط للنموذج مراجعة وتحسين الإجابات من خلال تفاعلات REPL متعددة.[^22]
كيف يعمل طي السياق
يصف الباحثون نهج RLM بأنه "طي السياق المتعلم" بدلاً من التلخيص:[^23]
ليس تلخيصًا
تضغط النهج التقليدية السياق من خلال التلخيص، مما يؤدي حتمًا إلى فقدان المعلومات.[^24] يحافظ نهج RLM على جميع المعلومات من خلال:
- تخزين البيانات الخام في متغيرات Python
- الاستعلام بشكل انتقائي من خلال استدعاءات LLM الفرعية
- التحويل برمجيًا عند الحاجة
- عدم تلخيص المحتوى الأصلي أبدًا
التفويض إلى LLMs الفرعية
عندما يحتاج النموذج الرئيسي إلى تحليل قسم كبير من المستند، ينشئ LLM فرعيًا بهذا القسم فقط:[^25]
# كود النموذج الرئيسي
results = llm_batch([
{"prompt": f"تحليل القسم 1: {section_1}"},
{"prompt": f"تحليل القسم 2: {section_2}"},
{"prompt": f"تحليل القسم 3: {section_3}"}
])
# معالجة النتائج دون تحميل المستند الكامل أبدًا
يبقى سياق النموذج الرئيسي خفيفًا بينما تتعامل LLMs الفرعية مع العمليات الثقيلة بالرموز.[^26]
أداء المعايير
تكشف الاختبارات عبر أربع بيئات متنوعة عن قدرات كبيرة:[^27]
DeepDive (بحث الويب)
تتعامل LLMs الفرعية مع تجريف الويب واستخراج المحتوى. النموذج الرئيسي ينسق استراتيجية البحث ويجمع النتائج.[^28]
| النهج | المكافأة |
|---|---|
| LLM قياسي | ~45% |
| RLM (بدون نصائح) | ~55% |
| RLM (مع نصائح استراتيجية) | ~70% |
Oolong (تجميع السياق الطويل)
اختبرت المستندات المعقدة في العالم الحقيقي (نصوص جلسات D&D) معالجة السياق عند ~1.5 مليون حرف:[^29]
| النهج | الدقة |
|---|---|
| LLM قياسي | ~35% |
| RLM | ~75% |
من الجدير بالذكر أن RLM كان أداؤه أقل على البيانات الاصطناعية، مما يشير إلى أن النهج يتفوق في التعقيد الواقعي بدلاً من المعايير الاصطناعية.
CodeQA (أسئلة وأجوبة المستندات)
ربما النتيجة الأكثر لفتًا:[^30]
| النموذج | النهج | الدقة |
|---|---|---|
| GPT-5 | خط الأساس | 24.0% |
| GPT-5 | وكيل التلخيص | 41.3% |
| GPT-5 | RLM | 62.0% |
أكثر من ضاعف RLM أداء خط الأساس مع تفوقه الكبير على التلخيص.
كفاءة الرموز
بالإضافة إلى الدقة، يحسن RLM كفاءة الرموز بشكل كبير:[^33]
رموز النموذج الرئيسي: تخفيض 2-3 أضعاف في الرموز المعالجة بواسطة النموذج الأساسي لنتائج مكافئة أو أفضل.[^34]
إجمالي الرموز: قد يزيد بسبب استدعاءات LLM الفرعية، لكن سياق النموذج الرئيسي يبقى محدودًا بغض النظر عن حجم المدخلات.[^35]
توقعات Prime Intellect لـ 2026
بنى Prime Intellect بنية تدريب RLM ويقدم توقعات جريئة:[^37]
نموذج 2026
يضعون RLMs كالاختراق الكبير التالي بناءً على ثلاث مقدمات:[^38]
1. ميزة التدريب: على عكس السقالات الثابتة، يمكن تدريب RLMs من البداية إلى النهاية مع التعلم المعزز لتحسين إدارة السياق.[^39]
2. مكمل للانتباه: "كل من الانتباه الفعال وطي السياق مطلوبان للوكلاء الطويلين الحقيقيين. الانتباه الأفضل يؤخر تدهور السياق. طي السياق يتيح الإدارة النشطة."[^40]
3. وكلاء الأفق الطويل: تتيح RLMs وكلاء يعملون لأسابيع أو أشهر، يديرون السياق عبر جداول زمنية ممتدة للمهام.[^41]
النقاط الرئيسية
تقدم نماذج اللغة التكرارية تحولًا في نموذج التعامل مع السياق:
- إدارة السياق النشطة: النماذج تتحكم في سياقها الخاص بدلاً من استقباله بشكل سلبي
- توسيع 100 ضعف: التعامل مع مدخلات تتجاوز نوافذ السياق الأصلية بكثير
- معلومات محفوظة: لا فقدان للمعلومات قائم على التلخيص
- كفاءة الرموز: تخفيض 2-3 أضعاف في استهلاك رموز النموذج الرئيسي
- إمكانية التدريب: مكاسب كبيرة متوقعة من التدريب الأصلي لـ RLM
- وكلاء الأفق الطويل: بنية مناسبة للجداول الزمنية الممتدة للمهام