البنية التحتية للذكاء الاصطناعي المُجسَّد: متطلبات وحدات معالجة الرسومات للروبوتات والذكاء الاصطناعي الفيزيائي
آخر تحديث: 11 ديسمبر 2025
تحديث ديسمبر 2025: يعمل NVIDIA Isaac Sim الآن على مثيلات AWS EC2 G6e (وحدات L40S GPUs) مع تحسين مضاعف في توسيع نطاق المحاكاة. يُطلَق مصنع الذكاء الاصطناعي الصناعي الألماني بـ 10,000 وحدة DGX B200 GPUs لتطبيقات التصنيع. يشمل الذكاء الاصطناعي الفيزيائي المركبات ذاتية القيادة، والمُناوِلات الصناعية، والروبوتات البشرية، والمصانع المُدارة بالروبوتات—مما يتطلب تدريباً على المستشعرات المتعددة الوسائط، ومحاكاة فيزيائية معقدة، ونشراً فورياً على الأجهزة الطرفية.
يعمل NVIDIA Isaac Sim الآن على مثيلات سحابية من وحدات L40S GPUs في مثيلات Amazon EC2 G6e، مما يوفر تحسيناً مضاعفاً لتوسيع نطاق محاكاة الروبوتات وتسريع تدريب نماذج الذكاء الاصطناعي.[^1] يُجسِّد خيار النشر هذا كيفية توسيع البنية التحتية السحابية للوصول إلى متطلبات الحوسبة الضخمة لتطوير الذكاء الاصطناعي المُجسَّد. سيضم مصنع الذكاء الاصطناعي الصناعي المُخطط له في ألمانيا خوادم NVIDIA DGX B200 وRTX PRO بدءاً من 10,000 وحدة GPU، مما يُمكِّن القادة الصناعيين الأوروبيين من تسريع تطبيقات التصنيع من المحاكاة الهندسية إلى التوائم الرقمية للمصانع والروبوتات.[^2]
يصف الذكاء الاصطناعي الفيزيائي نماذج الذكاء الاصطناعي التي تفهم وتتفاعل مع العالم الفيزيائي، مُجسِّدةً الموجة القادمة من الآلات المستقلة بما في ذلك السيارات ذاتية القيادة، والمُناوِلات الصناعية، والروبوتات المتنقلة، والروبوتات البشرية، والبنية التحتية المُدارة بالروبوتات كالمصانع والمستودعات.[^3] تختلف متطلبات البنية التحتية جوهرياً عن النماذج اللغوية أو مُولِّدات الصور: يجب أن تتدرب أنظمة الذكاء الاصطناعي المُجسَّد على وسائط استشعار متنوعة، وتُحاكي فيزياء معقدة، وتُنشر على أجهزة طرفية تعمل في الوقت الفعلي ضمن قيود فيزيائية.
هندسة الحواسيب الثلاثة
يفصل نهج NVIDIA للبنية التحتية للروبوتات أعباء العمل عبر ثلاث منصات حوسبة مُحسَّنة لمتطلبات مختلفة.
DGX لتدريب النماذج
تجمع أنظمة NVIDIA DGX بين البرمجيات والبنية التحتية المثالية لتدريب النماذج التأسيسية متعددة الوسائط للروبوتات.[^4] تستوعب نماذج الروبوتات أنواع بيانات متنوعة تشمل صور الكاميرات، وسحب نقاط الليدار، وقراءات مُشفِّرات المفاصل، وقياسات القوة-العزم. يجب أن تتعامل البنية التحتية للتدريب مع البيانات غير المتجانسة على نطاق واسع مع الحفاظ على معدل الإنتاجية اللازم للتكرار على بُنى النماذج.
تتطلب النماذج التأسيسية للروبوتات التدريب على كل من البيانات الواقعية والبيانات الاصطناعية من المحاكاة. تتجاوز أحجام البيانات تدريب النماذج اللغوية النموذجية بسبب المدخلات الحسية عالية الأبعاد والارتباطات الزمنية عبر المسارات الطويلة. توفر أنظمة DGX عرض النطاق الترددي للربط البيني وسعة الذاكرة التي يتطلبها التدريب الضخم متعدد الوسائط.
يُسرِّع التعلم بالنقل من النماذج التأسيسية للرؤية واللغة تطوير نماذج الروبوتات. توفر النماذج المُدرَّبة على بيانات الصور والنصوص على نطاق الإنترنت تمثيلات تُنقل إلى الإدراك والاستدلال الروبوتي. تدعم البنية التحتية للتدريب الضبط الدقيق لهذه النماذج الأساسية الضخمة على البيانات الخاصة بالروبوتات.
OVX للمحاكاة
توفر أنظمة OVX أداءً رائداً في الصناعة للرسومات والحوسبة لأعباء عمل المحاكاة.[^4] يُولِّد العرض الواقعي بيانات تدريب اصطناعية لا يمكن تمييزها عن صور الكاميرات الحقيقية. تُنتج المحاكاة الفيزيائية قراءات المستشعرات وسلوكيات الروبوت المُطابقة للواقع الفيزيائي.
يجمع Isaac Lab بين الفيزياء المتوازية عالية الدقة على GPU، والعرض الواقعي، والهندسة المعيارية لتصميم البيئات وتدريب سياسات الروبوت.[^5] يدمج الإطار نماذج المُشغِّلات، ومحاكاة المستشعرات متعددة الترددات، وخطوط أنابيب جمع البيانات، وأدوات التوزيع العشوائي للمجال. تُحدد دقة المحاكاة مدى جودة نقل السياسات المُدرَّبة إلى الروبوتات الفيزيائية.
تُسرِّع التوازي الضخم إنتاجية المحاكاة. تُمكِّن الفيزياء المُسرَّعة بـ GPU آلاف مثيلات الروبوت من التدريب المتزامن عبر سيناريوهات متنوعة. يُحوِّل التوازي أسابيع من جمع البيانات الواقعية إلى ساعات من الخبرة المُحاكاة.
AGX للنشر
تقدم أنظمة AGX بما فيها NVIDIA Jetson أداءً استثنائياً وكفاءة طاقة لنشر الروبوتات.[^4] يتطلب النشر الطرفي الاستدلال بمعدلات المستشعرات ضمن ميزانيات الطاقة التي توفرها الروبوتات العاملة بالبطاريات. يجب أن تناسب منصة الحوسبة القيود الفيزيائية مع تشغيل نماذج متطورة.
يُقدم Jetson Orin ما يصل إلى 275 TOPS من أداء الذكاء الاصطناعي بأشكال مناسبة للروبوتات المتنقلة والمُناوِلات. تُشغِّل المنصة نفس كود CUDA المُطوَّر على أنظمة DGX وOVX، مما يُمكِّن من استخدام أدوات متسقة عبر دورة حياة التطوير.
يجب أن تتعامل البنية التحتية للنشر مع متطلبات الوقت الفعلي التي تتجاهلها البنية التحتية للتدريب. تترك حلقات التحكم العاملة بمعدل 100Hz أو أسرع مللي ثوانٍ للاستدلال. يجب أن تضمن المنصة الطرفية حدود زمن الاستجابة التي تحققها أنظمة التطوير فقط كمتوسط.
متطلبات البنية التحتية للمحاكاة
تُحدد البنية التحتية للمحاكاة سرعة تطوير الذكاء الاصطناعي المُجسَّد من خلال التحكم في مدى سرعة تكرار الفرق على بُنى النماذج وأساليب التدريب.
توسيع نطاق المحاكاة الفيزيائية
يتكامل Isaac Lab أصلياً مع NVIDIA Isaac Sim باستخدام فيزياء NVIDIA PhysX المُسرَّعة بـ GPU وعرض RTX للتحقق عالي الدقة.[^5] تُحدد دقة المحاكاة الفيزيائية نجاح النقل من المحاكاة إلى الواقع. قد تُنتج الفيزياء المُبسَّطة التي تتدرب بشكل أسرع سياسات تفشل على الأجهزة الفيزيائية.
تتطلب محاكاة ديناميكيات التلامس اهتماماً خاصاً لمهام المُناولة. تواجه الروبوتات التي تمسك الأشياء قوى تلامس معقدة تُقرِّبها الفيزياء المُبسَّطة بشكل سيئ. تزيد محاكاة التلامس عالية الدقة من متطلبات الحوسبة لكنها تُحسِّن النقل إلى الإمساك الفيزيائي.
تُسرِّع المحاكاة المتوازية عبر مجموعات GPU التدريب عن طريق تشغيل آلاف مثيلات البيئة في وقت واحد. يوفر كل بيئة خبرة مستقلة لتعلم السياسة. يتطلب التوازي بنية تحتية تدعم التدريب الموزع عبر البيئات المُحاكاة.
متطلبات العرض
يُولِّد العرض الواقعي بيانات كاميرا ومستشعر عمق تُطابق خصائص المستشعرات الحقيقية. يُغيِّر التوزيع العشوائي للمجال الإضاءة والنسيج وتكوين المشهد لتحسين تعميم السياسة. يجب أن يحافظ خط أنابيب العرض على الإنتاجية مع توليد ملاحظات بصرية متنوعة.
يُمكِّن تتبع أشعة RTX محاكاة إضاءة دقيقة تشمل الانعكاسات والظلال والإضاءة العالمية. تواجه الروبوتات العاملة في البيئات الصناعية إضاءة معقدة من النوافذ والتركيبات العلوية والأسطح العاكسة. يُحسِّن التدريب على إضاءة دقيقة أداء النشر في المرافق الحقيقية.
تُضيف محاكاة ضوضاء المستشعر تدهوراً واقعياً للصور المعروضة وسحب النقاط. تُظهر المستشعرات الحقيقية ضوضاء وضبابية وعيوباً تحذفها المحاكاة المثالية. قد تفشل السياسات المُدرَّبة على بيانات محاكاة نظيفة عند مواجهة بيانات مستشعر حقيقية صاخبة.
هندسة خط أنابيب البيانات
تُولِّد المحاكاة أحجام بيانات ضخمة تتطلب تخزيناً واسترجاعاً فعالاً للتدريب. قد تُنتج حملة محاكاة واحدة بيتابايت من المسارات والملاحظات والمكافآت. تُحدد هندسة خط أنابيب البيانات ما إذا كانت البنية التحتية للحوسبة تحقق الاستخدام الكامل أو تتوقف في انتظار البيانات.
توفر أنظمة الملفات المتوازية مثل Lustre وGPFS عرض النطاق الترددي الذي تتطلبه مجموعات المحاكاة والتدريب. يُغذي التخزين المتصل بالشبكة ذو عرض النطاق الترددي الإجمالي الكافي البيانات إلى مجموعات GPU بمعدلات تُطابق استهلاك التدريب. يُنشئ نقص توفير التخزين اختناقات لا يمكن لحوسبة GPU المُكلفة التغلب عليها.
يتتبع تعيين إصدارات البيانات تكوينات المحاكاة ومعلمات البيئة ومجموعات البيانات المُولَّدة. تتطلب القابلية للتكرار إعادة بناء أي محاكاة بالضبط أنتجت أي بيانات تدريب. يُكمِّل التحكم في إصدار تكوينات المحاكاة تعيين إصدارات النموذج في تتبع التجارب.
البنية التحتية للبيانات الواقعية
لا يمكن للمحاكاة وحدها تدريب روبوتات قابلة للنشر. تلتقط البيانات الواقعية ظواهر فيزيائية تُقرِّبها المحاكاة بشكل غير مثالي.
إدارة أسطول الروبوتات
تُولِّد أساطيل الروبوتات الفيزيائية بيانات تدريب من خلال التشغيل عن بُعد والتشغيل المستقل والعرض البشري. تُنسِّق البنية التحتية لإدارة الأسطول جمع البيانات عبر روبوتات متعددة تعمل في بيئات متنوعة. يضمن التنسيق تغطية شاملة للسيناريوهات التي سيواجهها الروبوت.
يتطلب جمع البيانات من الروبوتات الفيزيائية تسجيلاً قوياً يلتقط جميع وسائط المستشعرات بدقة زمنية كاملة. تُنشئ البيانات المفقودة فجوات في مجموعات التدريب يجب على المحاكاة ملؤها. تثبت البنية التحتية للتسجيل الموثوقة قيمتها أكثر من إجراءات الجمع المتطورة المُطبَّقة على بيانات غير مكتملة.
تحمي مراقبة السلامة الروبوتات والبيئات والبشر القريبين أثناء جمع البيانات. يمكن لأنظمة الذكاء الاصطناعي المُجسَّد العاملة في الفضاءات الفيزيائية أن تُسبب أضراراً لا تستطيع أنظمة الذكاء الاصطناعي الرقمية البحتة إحداثها. تُضيف البنية التحتية للسلامة تعقيداً لكنها تُمكِّن من الاستكشاف الجريء الذي يتطلبه التدريب.
البنية التحتية للتوسيم
يتطلب التعلم المُشرَف عليه تسميات يوفرها المُوسِّمون البشريون أو الأنظمة الآلية. تُوسِّع البنية التحتية للتوسيم إنتاج التسميات لمُطابقة معدلات جمع البيانات. تُقيِّد الاختناقات في التوسيم بيانات التدريب المفيدة بغض النظر عن حجم البيانات الخام.
تدعم تسميات التجزئة الدلالية واكتشاف الأشياء وتقدير الوضعية تدريب نموذج الإدراك. يتطلب التوسيم اليدوي على نطاق واسع إدارة القوى العاملة الموزعة ومراقبة الجودة. يُحسِّن التوسيم شبه الآلي الذي يجمع بين تنبؤات النموذج والتحقق البشري الإنتاجية.
يُحدد توسيم المسار للتعلم بالتقليد العروض الناجحة التي تستحق التقليد. يُميِّز تقييم الجودة العروض الخبيرة عن الإخفاقات التي يجب أن تتجنبها السياسات. يجب أن تلتقط البنية التحتية للتوسيم الفروق الدقيقة بما يتجاوز تصنيف النجاح/الفشل الثنائي.
تجميع البيانات متعدد المواقع
تُجمِّع المؤسسات التي لديها روبوتات تعمل عبر مرافق متعددة البيانات مركزياً للتدريب. يجب أن تدعم البنية التحتية للشبكة عمليات نقل البيانات الكبيرة من المواقع الطرفية إلى المجموعات المركزية. يتجنب جدولة النقل التنافس على الشبكة خلال ساعات التشغيل.
قد تُقيِّد متطلبات حوكمة البيانات أين يمكن أن تتدفق بيانات الروبوتات. تواجه بيانات المستشعرات التي تلتقط تخطيطات المرافق والعمال البشريين أو العمليات الخاصة ضوابط تتجنبها البيانات النصية. تضمن البنية التحتية للامتثال أن معالجة البيانات تلبي المتطلبات التنظيمية والمؤسسية.
تُدرِّب أساليب التعلم الموحد النماذج دون مركزة البيانات الخام. تُساهم المواقع الطرفية بتحديثات التدرج بدلاً من الملاحظات. تُعالج الهندسة مخاوف حوكمة البيانات مع تمكين التعلم عبر أساطيل الروبوتات الموزعة.
البنية التحتية للنشر
تربط البنية التحتية للنشر النماذج المُدرَّبة بالروبوتات الفيزيائية العاملة في بيئات الإنتاج.
توفير الحوسبة الطرفية
يجب أن تُطابق منصات الحوسبة الطرفية أشكال الروبوت وميزانيات الطاقة مع تقديم أداء الاستدلال المطلوب. لا يمكن للروبوتات المتنقلة الحاملة للبطاريات نشر بطاقات GPU لمراكز البيانات. يُقيِّد اختيار المنصة تعقيد النموذج القابل للتحقيق عند النشر.
سيعمل Industrial Copilot for Operations من Siemens في الموقع باستخدام وحدات NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs، مما يُظهر النشر الصناعي لقدرات الذكاء الاصطناعي المتطورة.[^2] غالباً ما تسمح الإعدادات الصناعية ببنية تحتية حوسبة أكثر جوهرية من الروبوتات المتنقلة، مما يُمكِّن نماذج أكثر قدرة.
تنشر البنية التحتية للتحديث عبر الأثير نماذج جديدة إلى أساطيل الروبوتات دون الوصول الفيزيائي. تضمن إجراءات التحديث الآمنة بقاء الروبوتات عاملة خلال عمليات النشر. تُرجع قدرات التراجع التحديثات الإشكالية قبل أن تؤثر على العمليات.
تكامل نظام الوقت الفعلي
تفرض أنظمة التحكم في الروبوتات قيود الوقت الفعلي التي يجب أن يُرضيها استدلال الذكاء الاصطناعي. تتوقع حلقات التحكم أن تكتمل معالجة المستشعرات والاستدلال ضمن حدود زمنية ثابتة. يُسبب تفويت المواعيد النهائية عدم استقرار التحكم بدلاً من مجرد تدهور الأداء.
تكامل RTOS (نظام التشغيل في الوقت الفعلي)
[تم اقتطاع المحتوى للترجمة]