NVIDIA NIM وخدمات الاستدلال المصغرة: نشر الذكاء الاصطناعي على نطاق المؤسسات

تحقق NIM معدل إنتاجية أعلى بمقدار 2.6 ضعف مقارنة بنشر H100 الجاهز (1,201 مقابل 613 رمز/ثانية على Llama 3.1 8B). أفادت Cloudera بتحسن الأداء بمقدار 36 ضعفاً. حققت NIM 1.4 (ديسمبر 2024) سرعة أعلى بمقدار 2.4 ضعف...

NVIDIA NIM وخدمات الاستدلال المصغرة: نشر الذكاء الاصطناعي على نطاق المؤسسات

NVIDIA NIM وخدمات الاستدلال المصغرة: نشر الذكاء الاصطناعي على نطاق المؤسسات

آخر تحديث: 11 ديسمبر 2025

تحديث ديسمبر 2025: تحقق NIM معدل إنتاجية أعلى بمقدار 2.6 ضعف مقارنة بنشر H100 الجاهز (1,201 مقابل 613 رمز/ثانية على Llama 3.1 8B). أفادت Cloudera بتحسن الأداء بمقدار 36 ضعفاً. حققت NIM 1.4 (ديسمبر 2024) سرعة أعلى بمقدار 2.4 ضعف مقارنة بالإصدارات السابقة. تمت إضافة DeepSeek-R1 كخدمة مصغرة تجريبية (يناير 2025). أصبح استدلال الذكاء الاصطناعي الجاهز للإنتاج قابلاً للنشر في أقل من 5 دقائق عبر حاوية واحدة.

كان نشر نموذج لغوي كبير يتطلب في السابق أسابيع من العمل على البنية التحتية، ونصوص تحسين مخصصة، وفريق من مهندسي تعلم الآلة الذين يفهمون الفنون الخفية لضبط الاستدلال. غيّرت NVIDIA هذه المعادلة في يونيو 2024 عندما أتاحت الشركة NIM (خدمات استدلال NVIDIA المصغرة) لـ 28 مليون مطور حول العالم.[^1] النتيجة؟ تنشر المؤسسات الآن استدلال ذكاء اصطناعي جاهز للإنتاج في أقل من خمس دقائق باستخدام حاوية واحدة.[^2] بالنسبة للمؤسسات التي تتسابق لتشغيل الذكاء الاصطناعي، تمثل NIM تحولاً جوهرياً من "كيف نجعل الاستدلال يعمل" إلى "ما مدى سرعة توسيع نطاق الاستدلال عبر أعمالنا."

تروي الأرقام القصة. تحقق NIM معدل إنتاجية أعلى بمقدار 2.6 ضعف مقارنة بالنشر الجاهز على أنظمة H100 عند تشغيل Llama 3.1 8B، محققة 1,201 رمز في الثانية مقارنة بـ 613 رمز في الثانية بدون تحسين NIM.[^3] أفادت Cloudera بتحسن الأداء بمقدار 36 ضعفاً عند دمج NIM في خدمة استدلال الذكاء الاصطناعي الخاصة بها.[^4] هذه المكاسب مهمة لأن تكاليف الاستدلال تهيمن على ميزانيات الذكاء الاصطناعي بمجرد انتقال النماذج إلى الإنتاج، وقد وصل سوق استدلال الذكاء الاصطناعي الأوسع بالفعل إلى 97 مليار دولار في 2024 مع توقعات تتجاوز 250 مليار دولار بحلول 2030.[^5]

ما تقدمه NIM فعلياً

تجمع NVIDIA NIM محركات الاستدلال المحسّنة، وتكوينات النماذج المضبوطة مسبقاً، وأدوات النشر السحابية الأصلية في حاويات تعمل في أي مكان تعمل فيه وحدات معالجة الرسومات من NVIDIA. تلخص المنصة التعقيد الذي ابتلي به نشر الاستدلال تقليدياً: اختيار محرك الاستدلال المناسب، وتحسين أحجام الدفعات، وتكوين تخصيص الذاكرة، والضبط لتكوينات الأجهزة المحددة.[^6]

تجمع كل حاوية NIM أقوى برامج الاستدلال من NVIDIA بما في ذلك Triton Inference Server و TensorRT-LLM، مكوّنة مسبقاً لبنيات نماذج محددة.[^7] يتفاعل المطورون مع NIM من خلال واجهات برمجة تطبيقات قياسية في الصناعة تندمج مباشرة في أطر العمل الحالية للتطبيقات مثل LangChain و LlamaIndex و Haystack.[^8] تكشف الحاويات نقاط نهاية متوافقة مع OpenAI، مما يعني أن الفرق يمكنها استبدال NIM دون إعادة كتابة كود التطبيق.

دفع إصدار NIM 1.4 في ديسمبر 2024 الأداء إلى أبعد من ذلك مع تحسينات استدلال جاهزة للاستخدام تصل إلى سرعة أعلى بمقدار 2.4 ضعف مقارنة بالإصدارات السابقة.[^9] تُظهر معايير NVIDIA أن NIM تتفوق باستمرار على محركات الاستدلال مفتوحة المصدر بمقدار 1.5 إلى 3.7 ضعف عبر سيناريوهات مختلفة، مع اتساع الفجوة عند مستويات التزامن الأعلى الشائعة في عمليات نشر المؤسسات.[^10]

النماذج والبنية التحتية المدعومة

تدعم NIM النماذج التي تنشرها المؤسسات فعلياً. يتضمن الكتالوج عائلة Llama من Meta، ومتغيرات Mistral، ونماذج Nemotron الخاصة بـ NVIDIA، مع إضافة DeepSeek-R1 في يناير 2025 كخدمة مصغرة تجريبية.[^11] تنشر المؤسسات التي تشغل نماذج مضبوطة بدقة من خلال حاوية NIM متعددة النماذج اللغوية الكبيرة، والتي تدعم محولات LoRA المدربة باستخدام HuggingFace أو NVIDIA NeMo.[^12]

تعالج مرونة البنية التحتية نقطة ألم حقيقية للمؤسسات. تعمل NIM على أنظمة DGX، و DGX Cloud، والأنظمة المعتمدة من NVIDIA، ومحطات عمل RTX.[^13] يمكن للفرق إنشاء نماذج أولية على محطات العمل، والتحقق على مثيلات السحابة، والنشر في مراكز البيانات المحلية دون تغيير كود الاستدلال الخاص بهم.

معايير الأداء المهمة

تركز فرق البنية التحتية للمؤسسات على مقياسين فوق كل شيء آخر: التكلفة الإجمالية للملكية مقاسة بالتكلفة لكل رمز، وتجربة المستخدم مقاسة بوقت الحصول على أول رمز (TTFT) وزمن الانتظار بين الرموز (ITL).[^14]

تحسينات الإنتاجية وزمن الاستجابة

عند تشغيل Llama 3.1 8B Instruct على وحدة معالجة رسومات H100 SXM واحدة مع 200 طلب متزامن، تحقق NIM بدقة FP8:

المقياس مع تفعيل NIM بدون NIM التحسن
الإنتاجية 1,201 رمز/ثانية 613 رمز/ثانية 2.6 ضعف
زمن الانتظار بين الرموز 32 مللي ثانية 37 مللي ثانية أسرع بنسبة 13%
وقت الحصول على أول رمز محسّن خط الأساس أسرع 4 أضعاف

يترجم تحسن الإنتاجية بمقدار 2.5 ضعف ووقت الحصول على أول رمز الأسرع بـ 4 أضعاف مباشرة إلى توفير في تكاليف البنية التحتية.[^15] تشغيل نفس عبء العمل يتطلب عدداً أقل من وحدات معالجة الرسومات، أو تتعامل أساطيل وحدات معالجة الرسومات الحالية مع طلبات أكثر بكثير.

نتائج المؤسسات الفعلية

أظهر إعلان Cloudera في أكتوبر 2024 عن خدمة استدلال الذكاء الاصطناعي الخاصة بها المدعومة بـ NIM تحسينات في أداء النماذج اللغوية الكبيرة بمقدار 36 ضعفاً باستخدام الحوسبة المسرّعة من NVIDIA.[^16] تأتي المكاسب من تحسين وقت التشغيل في NIM، والتمثيل الذكي للنماذج، وملفات تعريف التحسين الخاصة بعبء العمل التي كانت المؤسسات ستقضي أشهراً في تطويرها داخلياً.[^17]

نشر NIM في بيئات الإنتاج

توفر NVIDIA ثلاثة مسارات للنشر اعتماداً على متطلبات المؤسسة:

كتالوج واجهة برمجة التطبيقات: تبدأ الفرق بنماذج مُحسّنة مسبقاً مباشرة من كتالوج واجهة برمجة التطبيقات من NVIDIA على build.nvidia.com. يختبر المطورون قدرات الاستدلال دون توفير البنية التحتية.[^18]

سجل NGC: تقوم المؤسسات بتنزيل حاويات NIM من سجل NGC التابع لـ NVIDIA للنشر على بنيتها التحتية الخاصة. تتضمن الحاويات كل ما هو مطلوب لتشغيل استدلال محسّن.[^19]

النماذج المخصصة: تدعم حاوية NIM المتوافقة مع النماذج اللغوية الكبيرة المتعددة نماذج HuggingFace والنماذج المدربة محلياً، مما يمكّن المؤسسات من نشر نماذج ملكية أو مضبوطة بدقة مع فوائد تحسين NIM.[^20]

بنية الأمان والامتثال

تواجه المؤسسات التي تنشر الذكاء الاصطناعي متطلبات أمان صارمة، وتعالجها NIM مباشرة. يتيح ترخيص NVIDIA AI Enterprise النشر في بيئات معزولة عن الإنترنت، أو السحابات الخاصة، أو التثبيتات المحلية بالكامل مع الحفاظ على الأمان والثقة والتحكم في النماذج مفتوحة المصدر.[^21]

تعكس أفضل ممارسات الأمان لنشر NIM بنية خدمات الويب القياسية: تكوين إنهاء TLS، وإعداد توجيه الدخول المناسب، وتنفيذ موازنة الحمل.[^22] تنشر NVIDIA توقيعات النماذج للنماذج المستضافة على NGC وتوفر سجلات VEX لربط الثغرات الأمنية بأنظمة أمان المؤسسات.[^23] تلبي التحكم في الوصول القائم على الأدوار والتشفير وقدرات التدقيق متطلبات الامتثال عبر الصناعات المنظمة.

عمليات Kubernetes الأصلية

يوفر مستودع nim-deploy على GitHub تطبيقات مرجعية لعمليات نشر Kubernetes الإنتاجية.[^24] يدير مشغّل NIM من NVIDIA دورة حياة NIMs للنماذج اللغوية الكبيرة، و NIMs لتضمين النص، و NIMs لإعادة الترتيب داخل مجموعات Kubernetes.[^25]

يوضح خط أنابيب RAG من Cisco FlashStack بنية مؤسسية موثقة تشغّل NIM على Red Hat OpenShift Container Platform مع تخزين Portworx Enterprise.[^26] يعالج التصميم المرجعي المكدس الكامل من التخزين الدائم إلى جدولة وحدات معالجة الرسومات.

موجة تبني المؤسسات

دمج موردو التكنولوجيا الرئيسيون NIM في منصاتهم طوال عام 2024 وأوائل 2025، مما خلق خيارات نشر متعددة لعملاء المؤسسات.

تكامل مزودي السحابة

تقدم AWS و Google Cloud و Microsoft Azure جميعها NIM من خلال منصات الذكاء الاصطناعي الخاصة بها. يدعم كل من SageMaker و Google Kubernetes Engine و Azure AI نشر NIM، مما يمنح المؤسسات مرونة في مكان تشغيل أعباء عمل الاستدلال.[^27]

أتاح إعلان Oracle في مارس 2025 NVIDIA AI Enterprise أصلياً من خلال وحدة تحكم OCI، مما يوفر الوصول إلى أكثر من 160 أداة ذكاء اصطناعي بما في ذلك خدمات NIM المصغرة.[^28] يوضح التكامل كيف ينظر مزودو السحابة الفائقة إلى NIM كبنية تحتية أساسية للذكاء الاصطناعي للمؤسسات.

شراكات المنصات

نشرت Red Hat إرشادات مفصلة لتشغيل NIM على OpenShift AI في مايو 2025.[^29] دمجت Nutanix NIM في GPT-in-a-Box 2.0، مما يمكّن المؤسسات من بناء تطبيقات GenAI قابلة للتوسع عبر المؤسسة وعلى الحافة.[^30] يدعم VMware و Canonical وموفرو البنية التحتية الآخرون بالمثل نشر NIM.

عمليات نشر المؤسسات في الإنتاج

تقرأ قائمة العملاء مثل من هو من في صناعة التكنولوجيا. تستخدم Lowe's خدمات الاستدلال المصغرة المدعومة بـ NIM لرفع مستوى التجارب لكل من الموظفين والعملاء.[^31] دمجت Siemens NIM مع التكنولوجيا التشغيلية لأعباء عمل الذكاء الاصطناعي في أرضية المصنع.[^32] تظهر Box و Cohesity و Datastax و Dropbox و NetApp جميعها بين المتبنين الأوائل لـ NIM.[^33]

تنشر Hippocratic AI و Glean و Kinetica و Redis NIM لتشغيل أعباء عمل استدلال الذكاء الاصطناعي التوليدي الخاصة بهم.[^34] اختارت هذه الشركات NIM لأن بناء قدرات تحسين مكافئة داخلياً سيتطلب استثماراً هندسياً كبيراً وصيانة مستمرة.

حيث تلتقي البنية التحتية المادية بتحسين البرمجيات

تحل NIM تحدي برمجيات تحسين الاستدلال، لكن نشر NIM على نطاق واسع يتطلب بنية تحتية مادية تطابق قدرات البرمجيات. تحتاج مجموعات وحدات معالجة الرسومات إلى توزيع طاقة مناسب، وأنظمة تبريد، وبنية شبكة للحفاظ على الإنتاجية التي تمكّنها NIM.

تواجه المؤسسات التي تدير أكثر من 10,000 وحدة معالجة رسومات تعقيداً في البنية التحتية يتضاعف مع الحجم. تتخصص شبكة Introl المكونة من 550 مهندساً ميدانياً تحديداً في عمليات نشر الحوسبة عالية الأداء التي يتطلبها الاستدلال المدعوم بـ NIM.[^35] احتلت الشركة المرتبة 14 على قائمة Inc. 5000 لعام 2025 بنمو 9,594% على مدى ثلاث سنوات، مما يعكس الطلب على خدمات البنية التحتية المهنية لوحدات معالجة الرسومات.[^36]

يتطلب نشر NIM عبر بصمة عالمية تغطية تمتد عبر مناطق متعددة. تعمل Introl في 257 موقعاً عبر أمريكا الشمالية وأوروبا والشرق الأوسط وأفريقيا وآسيا والمحيط الهادئ وأمريكا اللاتينية، مما يضع المهندسين حيث تحتاج المؤسسات إلى دعم البنية التحتية لوحدات معالجة الرسومات.[^37] سواء كانت المؤسسات تشغل الاستدلال في سنغافورة أو فرانكفورت أو شمال فيرجينيا، فإن خبرة البنية التحتية المادية تحدد ما إذا كان أداء NIM النظري يترجم إلى إنتاجية إنتاج فعلية.

يهم تقاطع تحسين البرمجيات والنشر المادي أكثر لأعباء عمل الاستدلال. تتحمل عمليات التدريب بعض التناقض في البنية التحتية، لكن الاستدلال الذي يخدم التطبيقات الموجهة للمستخدم يتطلب أداءً متسقاً بزمن استجابة منخفض. تتطلب مجموعات وحدات معالجة الرسومات المحسّنة لـ NIM تكوينات رفوف مناسبة، واتصالات ألياف ضوئية مصنفة للاتصال عالي النطاق الترددي بين وحدات معالجة الرسومات، وأنظمة تبريد تحافظ على الاستقرار الحراري تحت أحمال الاستدلال المستدامة.

تدير Introl عمليات نشر تصل إلى 100,000 وحدة معالجة رسومات مع أكثر من 40,000 ميل من البنية التحتية لشبكات الألياف الضوئية.[^38] بالنسبة للمؤسسات التي تنشر NIM عبر مئات أو آلاف وحدات معالجة الرسومات، يضمن نشر البنية التحتية المهني أن الأجهزة تعمل بالمستويات التي يمكّنها تحسين برمجيات NIM.

بناء البنية التحتية للاستدلال لعام 2025 وما بعده

تواصل NVIDIA توسيع قدرات NIM. جلب يناير 2025 خدمات استدلال مصغرة جديدة لحواجز حماية الذكاء الاصطناعي من خلال NVIDIA NeMo Guardrails، مما يساعد المؤسسات على تحسين الدقة والأمان والتحكم في تطبيقات الذكاء الاصطناعي الوكيلي.[^39] تعالج NIMs لحواجز الحماية متطلبات المؤسسات الحرجة مع انتقال وكلاء الذكاء الاصطناعي من التجريب إلى الإنتاج.

وسّعت شراكة IBM في مارس 2025 تكامل watsonx مع NIM وقدمت خدمات ذكاء اصطناعي من IBM Consulting تستخدم NVIDIA Blueprints.[^40] أعلنت Synopsys و NVIDIA عن شراكة موسّعة متعددة السنوات في ديسمبر 2024، مع استثمار NVIDIA 2 مليار دولار لتطوير سير العمل للذكاء الاصطناعي الوكيلي الذي يجمع بين Synopsys AgentEngineer وخدمات NIM المصغرة.[^41]

الاقتصاد يفضل الاستدلال المحسّن

ينمو سوق استدلال الذكاء الاصطناعي لأن المؤسسات تنقل النماذج من التطوير إلى الإنتاج. تتوقع MarketsandMarkets أن يصل السوق إلى 254.98 مليار دولار بحلول عام 2030، بمعدل نمو سنوي مركب 19.2%.[^42] تنمو خوادم استدلال الذكاء الاصطناعي تحديداً من 24.6 مليار دولار في 2024 إلى 133.2 مليار دولار متوقعة بحلول 2034.[^43]

تلتقط NIM القيمة في

طلب عرض سعر_

أخبرنا عن مشروعك وسنرد خلال 72 ساعة.

> TRANSMISSION_COMPLETE

تم استلام الطلب_

شكراً لاستفسارك. سيقوم فريقنا بمراجعة طلبك والرد خلال 72 ساعة.

QUEUED FOR PROCESSING