سباق النماذج العالمية 2026: كيف يعيد لوكان وDeepMind وWorld Labs تعريف مسار الذكاء الاصطناعي العام
ثلاثة مليارات دولار تقييماً قبل الإطلاق لشركة ناشئة لم تُصدر منتجاً واحداً بعد.[^1] تمثل AMI Labs التابعة ليان لوكان أكبر رهان حتى الآن على أطروحة قسّمت باحثي الذكاء الاصطناعي لسنوات: لن تحقق النماذج اللغوية الكبيرة الذكاء العام أبداً، والطريق إلى الأمام يمر عبر النماذج العالمية بدلاً من ذلك.
ملخص سريع
انفجر نموذج النماذج العالمية في تطوير الذكاء الاصطناعي السائد في أواخر 2025 وأوائل 2026. غادر يان لوكان Meta بعد 12 عاماً ليطلق AMI Labs، جامعاً 500 مليون يورو بتقييم 3 مليارات يورو لبناء أنظمة ذكاء اصطناعي تفهم الفيزياء بدلاً من مجرد التنبؤ بالنص.[^2] أصدرت Google DeepMind نظام Genie 3، أول نموذج عالمي تفاعلي في الوقت الفعلي قادر على توليد بيئات ثلاثية الأبعاد مستمرة بمعدل 24 إطاراً في الثانية.[^3] أطلقت World Labs التابعة لفي-في لي منتج Marble، مما جعل توليد النماذج العالمية متاحاً تجارياً بأسعار تتراوح من المجاني إلى 95 دولاراً شهرياً.[^4] شهدت منصة Cosmos من NVIDIA مليوني عملية تحميل مع تبني مطوري الروبوتات والمركبات ذاتية القيادة لبيانات التدريب الاصطناعية المدركة للفيزياء.[^5] بالنسبة للمؤسسات التي تبني بنية تحتية للذكاء الاصطناعي، تشير النماذج العالمية إلى تحول حسابي من معالجة النصوص نحو توليد الفيديو ومحاكاة الفيزياء والتفكير المجسد.
سقف النماذج اللغوية الكبيرة
حققت النماذج اللغوية الكبيرة قدرات ملحوظة من خلال التوسع. يُظهر GPT-4 وClaude وGemini تفكيراً متطوراً وتوليد أكواد وحل مشكلات متعددة الخطوات.[^6] ومع ذلك، يستمر قيد أساسي: هذه النماذج تتعلم أنماطاً إحصائية من النص، وليس فهماً للواقع المادي.[^7]
أثبت بحث نُشر في 2024 رياضياً أن النماذج اللغوية الكبيرة لا تستطيع تعلم جميع الدوال القابلة للحساب، وبالتالي ستهلوس حتماً عند استخدامها كحلّالات مشكلات عامة.[^8] يكمن السبب الجذري في كيفية عمل النماذج اللغوية الكبيرة: التنبؤ بأي الرموز تتبع الرموز السابقة بناءً على أنماط مُتعلَّمة من بيانات التدريب، دون أي ارتباط بالواقع المادي.[^9]
مشكلة الهلوسة
تولّد النماذج اللغوية الكبيرة نصاً يبدو معقولاً قد يصف سيناريوهات مستحيلة فيزيائياً، أو أحداثاً غير دقيقة تاريخياً، أو تفكيراً غير متسق منطقياً.[^10] على عكس البشر الذين يتعلمون عن الجاذبية من خلال التجربة المجسدة، تتعلم النماذج اللغوية الكبيرة فقط أن كلمة "الجاذبية" تميل للظهور بالقرب من كلمات معينة أخرى.[^11]
| القيد | السبب | النتيجة |
|---|---|---|
| الهلوسة الواقعية | لا توجد قاعدة معرفة موثقة[^12] | اختلاق واثق للحقائق |
| فشل التفكير الفيزيائي | لا توجد تجربة مجسدة[^13] | وصف فيزياء مستحيلة |
| خلط السببية | مطابقة الأنماط، وليس الفهم[^14] | معاملة الارتباط كسببية |
| عدم الاتساق الزمني | التنبؤ المتسلسل بالرموز[^15] | أحداث بترتيب مستحيل |
جادل يان لوكان علناً لسنوات بأن توسيع النماذج اللغوية الكبيرة لن ينتج ذكاءً عاماً.[^16] صرح لوكان في عرضه في NVIDIA GTC: "النماذج اللغوية الكبيرة محدودة جداً. توسيعها لن يسمح لنا بالوصول إلى الذكاء الاصطناعي العام."[^17]
البديل الذي يقترحه: نماذج عالمية تتعلم تمثيلات الواقع المادي، مما يتيح التنبؤ والتخطيط والتفكير حول السبب والنتيجة.[^18]
AMI Labs التابعة ليان لوكان
غادر لوكان Meta في ديسمبر 2025 بعد 12 عاماً، خمسة منها كمدير مؤسس لـ Facebook AI Research (FAIR) وسبعة كعالم ذكاء اصطناعي رئيسي.[^19] يمثل مشروعه الجديد، Advanced Machine Intelligence (AMI) Labs، أكثر المحاولات طموحاً حتى الآن لتسويق أبحاث النماذج العالمية تجارياً.[^20]
التمويل والهيكل
دخلت AMI Labs مناقشات التمويل سعياً للحصول على 500 مليون يورو بتقييم 3 مليارات يورو قبل إطلاق أي منتج.[^21] سيمثل الهدف أحد أكبر عمليات الجمع قبل الإطلاق في تاريخ الذكاء الاصطناعي، مما يعكس ثقة المستثمرين في رؤية لوكان وسجله الحافل.[^22]
| المنصب | الشخص | الخلفية |
|---|---|---|
| الرئيس التنفيذي للمجلس | يان لوكان | حائز جائزة تورينغ، مؤسس Meta FAIR[^23] |
| الرئيس التنفيذي | أليكس لوبران | الرئيس التنفيذي السابق لـ Nabla (الذكاء الاصطناعي الطبي)[^24] |
تخطط الشركة لإنشاء مقرها الرئيسي في باريس بحلول يناير 2026.[^25] بينما لن تستثمر Meta مباشرة في AMI Labs، تخطط الشركتان لإقامة شراكة تسمح للوكان بمواصلة الروابط البحثية.[^26]
الرؤية التقنية
تهدف AMI Labs إلى إنشاء أنظمة ذكاء اصطناعي تفهم الفيزياء وتحافظ على ذاكرة مستمرة وتخطط لإجراءات معقدة بدلاً من مجرد التنبؤ بتسلسلات نصية.[^27] يصف لوكان النموذج العالمي بأنه "نموذجك الذهني لكيفية تصرف العالم."[^28]
شرح لوكان: "يمكنك تخيل سلسلة من الإجراءات التي قد تتخذها، وسيسمح لك نموذجك العالمي بالتنبؤ بما سيكون عليه تأثير سلسلة الإجراءات على العالم."[^29]
يختلف النهج جذرياً عن النماذج اللغوية الكبيرة. حيث تتنبأ نماذج نمط GPT بالكلمة التالية، تتنبأ النماذج العالمية بالحالة التالية لبيئة مادية بالنظر إلى الإجراءات المتخذة فيها.[^30] هذا يتيح:
- التخطيط: محاكاة النتائج قبل اتخاذ الإجراء
- التفكير حول الفيزياء: فهم أن الأجسام لها كتلة وزخم وعلاقات مكانية
- فهم السبب والنتيجة: تعلم أن الإجراءات تنتج عواقب متوقعة
- الذاكرة المستمرة: الحفاظ على حالة عالم متسقة عبر الزمن
أساس I-JEPA
تبني AMI Labs على أبحاث I-JEPA (Image Joint Embedding Predictive Architecture) التي أجراها لوكان في Meta.[^31] يتعلم I-JEPA من خلال التنبؤ بتمثيلات مناطق الصورة من مناطق أخرى، مطوراً فهماً مجرداً للمشاهد البصرية دون الحاجة إلى تسميات صريحة.[^32]
يوازي النهج كيفية تطوير البشر للفيزياء البديهية من خلال الملاحظة. الطفل الذي يشاهد الأجسام تسقط يطور نموذجاً داخلياً للجاذبية دون أن يشرح له أحد قوانين نيوتن.[^33] يهدف I-JEPA والبنى اللاحقة إلى تكرار عملية التعلم هذه في الأنظمة الاصطناعية.[^34]
Genie 3 من DeepMind
أصدرت Google DeepMind نظام Genie 3 في أغسطس 2025، ممثلاً أول نموذج عالمي تفاعلي متعدد الأغراض في الوقت الفعلي.[^35] على عكس الأنظمة السابقة التي ولّدت بيئات ثابتة أو تطلبت وقت معالجة كبير، ينتج Genie 3 عوالم ثلاثية الأبعاد قابلة للتنقل بمعدل 24 إطاراً في الثانية.[^36]
القدرات التقنية
يولّد Genie 3 بيئات ديناميكية من المطالبات النصية، محافظاً على الاتساق البصري لعدة دقائق من التفاعل في الوقت الفعلي.[^37] لا يعتمد النظام على محركات فيزياء مشفرة مسبقاً؛ بدلاً من ذلك، يعلّم النموذج نفسه كيف يعمل العالم من خلال التدريب.[^38]
| القدرة | المواصفات |
|---|---|
| معدل الإطارات | 24 إطاراً في الثانية في الوقت الفعلي[^39] |
| الدقة | 720p[^40] |
| مدة الاتساق | عدة دقائق[^41] |
| أفق الذاكرة | حتى دقيقة واحدة للخلف[^42] |
| الفيزياء | مُتعلَّمة ذاتياً، غير مشفرة مسبقاً[^43] |
صرح شلومي فروختر، مدير الأبحاث في DeepMind: "Genie 3 هو أول نموذج عالمي تفاعلي متعدد الأغراض في الوقت الفعلي. إنه يتجاوز النماذج العالمية الضيقة التي كانت موجودة سابقاً. إنه غير محدد بأي بيئة معينة."[^44]
البنية الانحدارية الذاتية
يولّد النموذج إطاراً واحداً في كل مرة، ناظراً إلى المحتوى المولّد سابقاً لتحديد ما يحدث بعد ذلك.[^45] يتطلب تحقيق الأداء في الوقت الفعلي حساب هذه العملية الانحدارية الذاتية عدة مرات في الثانية مع الحفاظ على الاتساق مع ذاكرة بصرية قد تمتد لدقيقة.[^46]
ينشأ الاتساق الفيزيائي من التدريب بدلاً من البرمجة الصريحة.[^47] تحافظ بيئات Genie 3 على فيزياء مستقرة لأن النموذج تعلم الانتظامات الفيزيائية من بيانات التدريب، وليس لأن الباحثين شفّروا الجاذبية أو كشف التصادم يدوياً.[^48]
الآثار المترتبة على الذكاء الاصطناعي العام
تضع DeepMind نظام Genie 3 كنقطة انطلاق نحو الذكاء الاصطناعي العام.[^49] يتوقع المختبر أن تلعب تقنية النماذج العالمية دوراً حاسماً مع تفاعل وكلاء الذكاء الاصطناعي أكثر مع البيئات المادية.[^50]
وفقاً لإعلان DeepMind: "يمثل Genie 3 قفزة كبيرة نحو الذكاء الاصطناعي العام من خلال تمكين وكلاء الذكاء الاصطناعي من 'تجربة' والتفاعل مع والتعلم من عوالم محاكاة غنية دون إنشاء محتوى يدوي."[^51]
القيود الحالية
يظل Genie 3 في معاينة بحثية محدودة بدلاً من الإصدار العام.[^52] تشمل القيود المعروفة:
- مساحة إجراءات محدودة لتفاعلات الوكيل
- انهيار الاتساق بعد عدة دقائق
- دقة جغرافية غير كاملة للعالم الحقيقي
- تحديات في نمذجة التفاعلات المعقدة متعددة الوكلاء
تواصل DeepMind توسيع الوصول للاختبار لأكاديميين ومبدعين مختارين.[^53]
World Labs وMarble من في-في لي
أطلقت World Labs، التي أسستها رائدة الذكاء الاصطناعي في-في لي، منتج Marble في نوفمبر 2025 كأول منتج نموذج عالمي متاح تجارياً.[^54] خرجت الشركة الناشئة من وضع التخفي بتمويل قدره 230 مليون دولار قبل أكثر من عام بقليل من إطلاق Marble.[^55]
بنية المنتج
يولّد Marble بيئات ثلاثية الأبعاد مستمرة وقابلة للتحميل من المطالبات النصية أو الصور أو مقاطع الفيديو أو التخطيطات ثلاثية الأبعاد أو الصور البانورامية.[^56] على عكس المنافسين الذين يولّدون العوالم أثناء الاستكشاف، ينتج Marble بيئات منفصلة يمكن للمستخدمين تحريرها وتصديرها.[^57]
| نوع الإدخال | المخرج |
|---|---|
| مطالبة نصية | بيئة ثلاثية الأبعاد |
| صورة | بيئة ثلاثية الأبعاد |
| فيديو | بيئة ثلاثية الأبعاد |
| تخطيط ثلاثي الأبعاد | بيئة ثلاثية الأبعاد محسّنة بالذكاء الاصطناعي |
| بانوراما | بيئة ثلاثية الأبعاد |
تقدم المنصة أدوات تحرير أصلية للذكاء الاصطناعي ومحرر ثلاثي الأبعاد هجين يتيح حجب البنية المكانية قبل أن يملأ الذكاء الاصطناعي التفاصيل البصرية.[^58] تُصدَّر الملفات بتنسيقات متوافقة مع الأدوات القياسية في الصناعة مثل Unreal Engine وUnity.[^59]
نموذج التسعير
اعتمدت World Labs هيكلاً مجانياً جزئياً يستهدف المحترفين المبدعين:[^60]
| المستوى | السعر | التوليدات | المميزات |
|---|---|---|---|
| مجاني | $0 | 4/شهرياً | توليد أساسي |
| قياسي | $20/شهرياً | 12/شهرياً | مميزات قياسية |
| احترافي | $35/شهرياً | 25/شهرياً | حقوق تجارية |
| أقصى | $95/شهرياً | 75/شهرياً | مميزات متميزة |
التطبيقات المستهدفة
تركز حالات الاستخدام الأولية على الألعاب والمؤثرات البصرية للأفلام والواقع الافتراضي.[^61] يدعم Marble سماعات Vision Pro وQuest 3 للواقع الافتراضي، حيث يمكن مشاهدة كل عالم مولّد في الواقع الافتراضي.[^62]
تضع في-في لي Marble كـ"الخطوة الأولى نحو إنشاء نموذج عالمي ذكي مكانياً حقيقياً."[^63] بعيداً عن التطبيقات الإبداعية، تتيح التقنية تدريب الروبوتات من خلال بيئات محاكاة ستكون مكلفة أو خطيرة لإنشائها في الواقع المادي.[^64]
NVIDIA Cosmos: النماذج العالمية على النطاق الصناعي
أطلقت NVIDIA منصة Cosmos في CES 2025 كمنصة لتطوير الذكاء الاصطناعي المادي، مستهدفة تحديداً المركبات ذاتية القيادة والروبوتات.[^65] بحلول يناير 2026، تم تحميل نماذج Cosmos الأساسية العالمية أكثر من مليوني مرة.[^66]
بنية المنصة
تتكون Cosmos من نماذج أساسية عالمية توليدية ومحولات رموز متقدمة وحواجز حماية وخط أنابيب معالجة فيديو معجّل.[^67] تتنبأ النماذج وتولّد مقاطع فيديو مدركة للفيزياء لحالات البيئة المستقبلية، مما يتيح توليد بيانات تدريب اصطناعية على نطاق واسع.[^68]
| مستوى النموذج | التحسين | حالة الاستخدام |
|---|---|---|
| Nano | الوقت الفعلي، نشر الحافة[^69] | الاستدلال على الجهاز |
| Super | خط الأساس عالي الأداء[^70] | التطوير العام |
| Ultra | أقصى جودة ودقة[^71] | تقطير النماذج المخصصة |
تم تدريب المنصة على 9,000 تريليون رمز من 20 مليون ساعة من بيانات العالم الحقيقي تشمل التفاعلات البشرية والبيئات والإعدادات الصناعية والروبوتات وسيناريوهات القيادة.[^72]
التبني الصناعي
تبنت شركات الروبوتات والسيارات الرائدة Cosmos لتوليد البيانات الاصطناعية:[^73]
| الشركة | المجال |
|---|---|
| 1X | الروبوتات البشرية |
| Agility | الروبوتات ذات القدمين |
| Figure AI | الروبوتات البشرية |
| Waabi | الشاحنات ذاتية القيادة |
| XPENG | المركبات الكهربائية |
| Uber | مشاركة الركوب ذاتية القيادة |
أنواع نماذج Cosmos
تعالج ثلاثة أنواع من النماذج احتياجات تطوير الذكاء الاصطناعي المادي المختلفة:[^74]
Cosmos-Predict: يحاكي ويتنبأ بحالات العالم المستقبلية في شكل فيديو **Co
[المحتوى مقتطع للترجمة]