التحجيم في وقت الاستدلال: الحدود الجديدة لتدريب الذكاء الاصطناعي على الاستدلال

تبرز الحوسبة في وقت الاختبار كحدود التحجيم الجديدة للذكاء الاصطناعي. ThreadWeaver يحقق تسريعاً بمقدار 1.5 ضعف. P1 يفوز بالميدالية الذهبية في أولمبياد الفيزياء. DeepSeek-R1 يضاهي o1 بتكلفة أقل بنسبة 70%. التداعيات على البنية التحتية.

التحجيم في وقت الاستدلال: الحدود الجديدة لتدريب الذكاء الاصطناعي على الاستدلال

التحجيم في وقت الاستدلال: الحدود الجديدة لتدريب الذكاء الاصطناعي على الاستدلال

12 ديسمبر 2025

تحديث ديسمبر 2025: برز التحجيم في وقت الاستدلال كحدود البحث المهيمنة في استدلال الذكاء الاصطناعي. يحقق ThreadWeaver تقليلاً في زمن الاستجابة بمقدار 1.5 ضعف مع الحفاظ على الدقة. P1 يصبح أول نموذج مفتوح المصدر يفوز بالميدالية الذهبية في أولمبياد الفيزياء من خلال التعلم المعزز ووكلاء وقت الاختبار. DeepSeek-R1 يضاهي OpenAI o1 بتكلفة أقل بنسبة 70%. يتوقع المحللون أن يستحوذ الاستدلال على 75% من إجمالي حوسبة الذكاء الاصطناعي بحلول عام 2030.


ملخص تنفيذي

تحول نموذج تحجيم الذكاء الاصطناعي. بدلاً من تدريب نماذج أكبر، يحقق الباحثون الآن استدلالاً متطوراً عبر إنفاق المزيد من الحوسبة في وقت الاستدلال. الرؤية الأساسية: السماح للنماذج "بالتفكير لفترة أطول" من خلال سلسلة الأفكار الممتدة ينتج قدرات استدلالية لا يمكن للتدريب وحده تحقيقها. أثبت DeepSeek-R1 هذا على نطاق واسع، مضاهياً o1 بتوليد 10-100 ضعف من الرموز لكل استعلام. ThreadWeaver يوازي هذا الاستدلال لتقليل زمن الاستجابة. P1 يجمع بين تدريب التعلم المعزز ووكلاء وقت الاختبار لتحقيق الميدالية الذهبية في أولمبياد الفيزياء. بالنسبة للبنية التحتية، سيتجاوز الطلب على الاستدلال الطلب على التدريب بمقدار 118 ضعفاً بحلول عام 2026، مما يعيد تشكيل شراء وحدات معالجة الرسومات نحو أجهزة محسّنة للاستدلال.


ما الذي حدث

ثلاثة اختراقات بحثية تُظهر نضج التحجيم في وقت الاستدلال:

DeepSeek-R1 (يناير 2025): أصدر DeepSeek نموذج R1، مثبتاً أن التعلم المعزز الصرف يمكن أن ينتج قدرات استدلالية تضاهي OpenAI o1. حسّن النموذج دقة معيار AIME من 15.6% إلى 71% من خلال استدلال سلسلة الأفكار الممتدة، ليصل إلى 86.7% مع التصويت بالأغلبية.1

نموذج P1 للفيزياء (نوفمبر 2025): أصدر الباحثون P1، أول عائلة نماذج مفتوحة المصدر تحقق أداءً بمستوى الميدالية الذهبية في الأولمبياد الدولي للفيزياء (IPhO 2025). سجّل P1-235B-A22B نتيجة 21.2/30 نقطة، محتلاً المركز الثالث بعد Gemini-2.5-Pro و GPT-5 فقط.2

ThreadWeaver (2025): قدّم ThreadWeaver الاستدلال المتوازي، محققاً تسريعاً متوسطاً بمقدار 1.53 ضعف في زمن استجابة الرموز مع مطابقة دقة الاستدلال التسلسلي. يتيح النهج استكشافاً متزامناً لمسارات الاستدلال بدلاً من سلسلة الأفكار التسلسلية.3


أهمية ذلك للبنية التحتية

النموذج الذهني: استثمر التحجيم التقليدي الحوسبة في وقت التدريب (نماذج أكبر، بيانات أكثر). يستثمر التحجيم في وقت الاستدلال الحوسبة في وقت الاستعلام (سلاسل استدلال أطول، محاولات متعددة، التحقق الذاتي). يمكن لنموذج بـ 7 مليار معامل مع 100 ضعف من حوسبة الاستدلال أن يضاهي نموذجاً بـ 70 مليار معامل مع استدلال قياسي. التداعيات على البنية التحتية عميقة: مجموعات الاستدلال أهم من مجموعات التدريب.

الاستدلال يصبح عنق الزجاجة: يتوقع المحللون أن يتجاوز الطلب على حوسبة الاستدلال الطلب على التدريب بمقدار 118 ضعفاً بحلول عام 2026. بحلول عام 2030، قد يستحوذ الاستدلال على 75% من إجمالي حوسبة الذكاء الاصطناعي، مما يدفع استثمارات بنية تحتية بقيمة 7 تريليون دولار.4

نماذج الاستدلال تستهلك المزيد من الرموز: يولّد DeepSeek-R1 و o1 و o3-mini "أضعافاً مضاعفة من الرموز" مقارنة بالنماذج غير الاستدلالية. وصل إنفاق OpenAI على الاستدلال في 2024 إلى 2.3 مليار دولار: 15 ضعف تكلفة تدريب GPT-4.5

الطلب على البنية التحتية لوحدات معالجة الرسومات يرتفع: صرّح Jensen Huang أن نماذج الاستدلال من الجيل التالي تتطلب "ما يصل إلى 100 ضعف من الموارد الحاسوبية."6 ينمو سوق استدلال الذكاء الاصطناعي من 106 مليار دولار (2025) إلى 255 مليار دولار (2030) بمعدل نمو سنوي مركب 19.2%.

زمن الاستجابة يهم مجدداً: يعالج الاستدلال المتوازي لـ ThreadWeaver قيداً حرجاً. ينمو زمن الاستجابة للاستدلال التسلسلي بشكل متناسب مع طول السلسلة. للتطبيقات في الوقت الحقيقي، تصبح سرعة الاستدلال ميزة تنافسية.


التفاصيل التقنية

نهج DeepSeek-R1

درّب DeepSeek-R1-Zero الاستدلال من خلال التعلم المعزز الصرف باستخدام Group Relative Policy Optimization (GRPO):7

المكون التفاصيل
طريقة التدريب تعلم معزز صرف، بدون ضبط دقيق مُشرف عليه
الخوارزمية GRPO (تكييف لـ PPO بدون دالة القيمة)
الرؤية الأساسية سلسلة الأفكار الممتدة في الاستدلال تُنتج استدلالاً
أداء AIME 15.6% → 71% (86.7% مع التصويت بالأغلبية)
ميزة التكلفة تكلفة استدلال أقل بنسبة 70% من النماذج المماثلة

بشكل ملحوظ، صنّف DeepSeek صراحةً طرقاً مثل Process Reward Models و Monte Carlo Tree Search على أنها "محاولات غير ناجحة." يشير الاكتشاف إلى أن التعلم المعزز الصرف مع استجابات أطول يعمل كتحجيم ضمني في وقت الاستدلال.8

الاستدلال المتوازي لـ ThreadWeaver

يتيح ThreadWeaver مسارات استدلال متزامنة بدلاً من سلسلة الأفكار التسلسلية:9

الابتكار الوصف
مولّد المسارات المتوازي ينتج بيانات سلسلة أفكار مع تعليقات متوازية
التصميم المشترك القائم على Trie يتيح استدلالاً متوازياً دون تعديل تضمينات الموضع
خوارزمية P-GRPO تُحسّن الدقة وتقليل زمن الاستجابة بشكل مشترك

الأداء على قاعدة Qwen3-8B:

المعيار ThreadWeaver التسلسلي التسريع
AIME24 79.9% 78.3% 1.14x
AMC23 1.16x
MATH500 1.23x
OlympiadBench 1.21x
Minerva Math 1.53x

نموذج P1 للفيزياء

يجمع P1 بين التحجيم في وقت التدريب والتحجيم في وقت الاختبار:10

وقت التدريب (المعالجة اللاحقة بالتعلم المعزز): - إطار تعلم معزز متعدد المراحل على نماذج اللغة الأساسية - تعزيز تدريجي للاستدلال - يعالج شُح المكافآت وانهيار الإنتروبيا

وقت الاختبار (وكيل PhysicsMinions): - استوديو بصري: التحليل البصري - استوديو منطقي: الاستدلال المنطقي - استوديو المراجعة: التحقق من الحل - التأمل متعدد الأدوار والتصحيح الذاتي

النتائج في IPhO 2025:

النموذج النتيجة الترتيب
Gemini-2.5-Pro 37.7
GPT-5 37.4
P1-235B + PhysicsMinions 38.4 الأول
P1-235B-A22B (مستقل) 21.2/30 ذهبية

توقعات حوسبة الاستدلال

المقياس القيمة المصدر
سوق الاستدلال 2025 106 مليار دولار MarketsandMarkets
سوق الاستدلال 2030 255 مليار دولار MarketsandMarkets
سوق رقائق الاستدلال 2027 102 مليار دولار Reuters
حصة الاستدلال من حوسبة الذكاء الاصطناعي (2030) 75% تحليل الصناعة
الطلب على التدريب مقابل الاستدلال (2026) 1:118 تقديرات المحللين
نمو الحوسبة العالمية للذكاء الاصطناعي (2025-2027) 10 أضعاف توقعات AI 2027

التداعيات السياسية والتنظيمية

تستخدم اللوائح الحالية عتبات حوسبة التدريب (مثل 10^25 FLOPs في قانون الذكاء الاصطناعي للاتحاد الأوروبي). ومع ذلك، يغيّر التحجيم في وقت الاستدلال الحسابات:11

  • يمكن للنماذج تحقيق قدرات عالية من خلال حوسبة الاستدلال، وليس التدريب فقط
  • قد يتجاوز نموذج مدرّب أصغر مع استدلال مكثف في وقت الاختبار قدرات النماذج التي تتجاوز العتبة
  • يخاطر صانعو السياسات بـ "التقليل من شأن التأثير الواقعي للنموذج" بالتركيز فقط على حوسبة التدريب

ما القادم

2026: من المتوقع أن يتجاوز الطلب على الاستدلال التدريب بمقدار 118 ضعفاً. يتحول تخطيط مراكز البيانات نحو بنية محسّنة للاستدلال.

2027: من المتوقع أن تصل الحوسبة العالمية ذات الصلة بالذكاء الاصطناعي إلى 100 مليون مكافئ H100 (نمو 10 أضعاف من مارس 2025).12

مستمر: يستمر البحث في الاستدلال المتوازي (ThreadWeaver)، والأنظمة متعددة الوكلاء (PhysicsMinions)، والاستدلال القائم على التعلم المعزز (DeepSeek، P1).

التحول في البنية التحتية: تصبح البنية التحتية المُصممة خصيصاً للاستدلال (NVIDIA Blackwell، TPU v5e، Groq LPUs) الفئة الحاسوبية المهيمنة.


النقاط الرئيسية

لمخططي البنية التحتية: - من المتوقع أن يستحوذ الاستدلال على 75% من حوسبة الذكاء الاصطناعي بحلول 2030 - نماذج الاستدلال تستهلك 10-100 ضعف من الرموز مقارنة بالنماذج القياسية - تحسين زمن الاستجابة (التوازي بأسلوب ThreadWeaver) يخلق متطلبات أجهزة - خطط لأعباء عمل كثيفة الاستدلال في نمذجة السعة

لفرق العمليات: - NVIDIA Blackwell محسّن للاستدلال على نطاق واسع (1.4 إكسا فلوبس لكل حامل) - راقب تكاليف الاستدلال، التي قد تتجاوز تكاليف التدريب بـ 15 ضعفاً (حسب OpenAI 2024) - ضبط حوسبة وقت الاختبار يؤثر على مقايضات زمن الاستجابة والتكلفة - أُطر الوكلاء (PhysicsMinions) تضيف عبء استدلال متعدد الأدوار

للتخطيط الاستراتيجي: - نسبة حوسبة التدريب مقابل الاستدلال تتغير بشكل كبير - نماذج أصغر + استدلال مكثف يمكن أن تضاهي نماذج مدربة أكبر - DeepSeek-R1 يُظهر ميزة تكلفة بنسبة 70% من خلال الكفاءة - أُطر السياسات قد تتوسع إلى ما بعد عتبات حوسبة التدريب


المراجع


للبنية التحتية لوحدات معالجة الرسومات الداعمة لأعباء عمل الذكاء الاصطناعي كثيفة الاستدلال، تواصل مع Introl.


  1. HuggingFace Blog. "What is test-time compute and how to scale it?" 2025. 

  2. arXiv. "P1: Mastering Physics Olympiads with Reinforcement Learning." November 2025. 

  3. ThreadWeaver. "Adaptive Threading for Efficient Parallel Reasoning." 2025. 

  4. WhiteFiber. "How Inference Will Reshape AI Infrastructure and Compute Demand." 2025. 

  5. Sebastian Raschka. "Inference-Time Compute Scaling Methods to Improve Reasoning Models." 2025. 

  6. NVIDIA. "AI Inference Solutions." 2025. 

  7. Medium. "Understanding Reasoning Models & Test-Time Compute: Insights from DeepSeek-R1." 2025. 

  8. DeepSeek. "DeepSeek-R1 Technical Report." January 2025. 

  9. ThreadWeaver Paper. "ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning." 2025. 

  10. GitHub. "PRIME-RL/P1: Mastering Physics Olympiads with Reinforcement Learning." 2025. 

  11. Austin Ellis-Mohr. "Inference-Time Compute Scaling Policy Considerations." 2025. 

  12. AI 2027. "Compute Forecast." 2025. 

  13. MarketsandMarkets. "AI Inference Market Size, Share & Growth, 2025 To 2030." 2025. 

  14. NVIDIA Developer Blog. "Automating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling." 2025. 

  15. arXiv. "Evaluating Test-Time Scaling LLMs for Legal Reasoning." 2025. 

  16. Neurohive. "P1: First Open-Source Model to Win Gold at the International Physics Olympiad." 2025. 

طلب عرض سعر_

أخبرنا عن مشروعك وسنرد خلال 72 ساعة.

> TRANSMISSION_COMPLETE

تم استلام الطلب_

شكراً لاستفسارك. سيقوم فريقنا بمراجعة طلبك والرد خلال 72 ساعة.

QUEUED FOR PROCESSING