أمان وحدات معالجة الرسومات متعددة المستأجرين: استراتيجيات العزل للبنية التحتية المشتركة

90% من المؤسسات تنشر الذكاء الاصطناعي، بينما 5% فقط تشعر بالثقة في جاهزيتها الأمنية. 97% من المؤسسات المخترقة تفتقر إلى ضوابط الوصول المناسبة للذكاء الاصطناعي. NVIDIA تكشف عن سبع ثغرات أمنية...

أمان وحدات معالجة الرسومات متعددة المستأجرين: استراتيجيات العزل للبنية التحتية المشتركة

أمان وحدات معالجة الرسومات متعددة المستأجرين: استراتيجيات العزل للبنية التحتية المشتركة

تم التحديث في 11 ديسمبر 2025

تحديث ديسمبر 2025: 90% من المؤسسات تنشر الذكاء الاصطناعي، بينما 5% فقط تشعر بالثقة في جاهزيتها الأمنية. 97% من المؤسسات المخترقة تفتقر إلى ضوابط الوصول المناسبة للذكاء الاصطناعي. NVIDIA تكشف عن سبع ثغرات أمنية (27 يناير 2025) بما في ذلك CVE-2025-23266 التي تسمح بالوصول إلى الجذر عبر تجاوز Container Toolkit. سوق أمان البنية التحتية للذكاء الاصطناعي في الولايات المتحدة يصل إلى 2.99 مليار دولار (معدل نمو سنوي مركب 22.8%).

تسعون بالمائة من المؤسسات تنشر أنظمة الذكاء الاصطناعي، لكن 5% فقط تشعر بالثقة في جاهزيتها الأمنية.¹ المؤسسات التي تمتلك أتمتة أمنية خاصة بالذكاء الاصطناعي تحقق توفيراً قدره 1.9 مليون دولار لكل اختراق وتقلل دورات الحوادث بمقدار 80 يوماً.² في الوقت نفسه، 97% من المؤسسات المخترقة تفتقر إلى ضوابط الوصول المناسبة للذكاء الاصطناعي.³ مع تحول البنية التحتية لوحدات معالجة الرسومات إلى أساس الذكاء الاصطناعي المؤسسي، فإن نموذج الأمان لموارد GPU المشتركة يحدد ما إذا كانت المؤسسات قادرة على توحيد أعباء العمل بأمان أو يجب عليها الحفاظ على أجهزة مخصصة باهظة الثمن لكل مستأجر.

يمتد التحدي إلى ما هو أبعد من أمان المحاكاة الافتراضية التقليدية. تتعامل وحدات GPU مع بيانات حساسة تشمل أوزان النماذج وبيانات التدريب ومدخلات الاستدلال التي تمثل الملكية الفكرية للمؤسسة. قد يؤدي الاختراق على مستوى GPU إلى تعريض "عقل" نظام الذكاء الاصطناعي للخطر.⁴ تقدم بيئات GPU متعددة المستأجرين أسطح هجوم تختلف جوهرياً عن المحاكاة الافتراضية القائمة على وحدة المعالجة المركزية، مما يتطلب استراتيجيات أمنية مصممة خصيصاً لبنى GPU.

مشهد أمان GPU متعدد المستأجرين

في 27 يناير 2025، كشفت NVIDIA عن سبع ثغرات أمنية جديدة تؤثر على برامج تشغيل شاشة GPU وبرامج GPU الافتراضية.⁵ تؤثر هذه العيوب الحرجة على ملايين الأنظمة من البنية التحتية للذكاء الاصطناعي المؤسسي إلى منصات الحوسبة السحابية. سمحت ثغرة NVIDIA Container Toolkit CVE-2025-23266 للجهات الخبيثة بتجاوز آليات العزل والحصول على وصول الجذر إلى الأنظمة المضيفة.⁶ سلط الكشف الضوء على نقاط ضعف منهجية في مجموعات برامج GPU لا يمكن للمؤسسات تجاهلها.

وصل سوق أمان البنية التحتية للذكاء الاصطناعي في الولايات المتحدة إلى 2.99 مليار دولار ويتوسع بمعدل نمو سنوي مركب 22.8%.⁷ شكلت الهجمات المدعومة بالذكاء الاصطناعي 16% من جميع الاختراقات في عام 2025.⁸ يعكس الاستثمار الاعتراف المتزايد بأن البنية التحتية لـ GPU تتطلب اهتماماً أمنياً مخصصاً يتجاوز حماية مراكز البيانات العامة.

يختلف أمان GPU عن أمان وحدة المعالجة المركزية بطرق جوهرية. تتعامل وحدات GPU مؤقتاً مع بيانات حساسة للغاية أثناء المعالجة. على عكس وحدات المعالجة المركزية، لا تمتلك وحدات GPU دائماً عزلاً قوياً للذاكرة، خاصة في البيئات متعددة المستأجرين.⁹ إذا لم يتم مسح الذاكرة بشكل صحيح عند انتهاء العملية، يمكن للمهاجم استرداد البيانات المتبقية من عبء عمل مستخدم آخر.¹⁰ تمكّن البنية المشتركة لوحدات GPU الحديثة من قنوات جانبية قائمة على التنافس يمكن للمهاجمين من خلالها استنتاج معلومات حساسة أو تعطيل أعباء العمل المتجاورة أو إنشاء قنوات اتصال سرية.¹¹

العزل على مستوى العتاد مع Multi-Instance GPU

توفر تقنية Multi-Instance GPU من NVIDIA عزلاً على مستوى العتاد يمكّن من تعدد المستأجرين الآمن على أجهزة GPU عالية القيمة.¹² بدءاً من بنية Ampere، يسمح MIG بتقسيم GPU واحد إلى ما يصل إلى سبع نسخ منفصلة لتطبيقات CUDA.¹³ تمتد وحدات GPU من Blackwell وHopper في قدرات MIG مع تكوينات متعددة المستأجرين ومتعددة المستخدمين في البيئات الافتراضية، مما يؤمن كل نسخة بالحوسبة السرية على مستوى العتاد والمشرف الافتراضي.¹⁴

توفر البنية فصلاً حقيقياً على مستوى العتاد. تمتلك معالجات كل قسم MIG مسارات منفصلة ومعزولة عبر نظام الذاكرة بأكمله.¹⁵ تتلقى منافذ الناقل المتقاطع على الشريحة وبنوك ذاكرة التخزين المؤقت L2 ووحدات التحكم في الذاكرة وناقلات عناوين DRAM تعييناً فريداً للنسخ الفردية.¹⁶ لا يستطيع مستأجر واحد قراءة أو الكتابة فوق ذاكرة GPU لمستأجر آخر. يمنع عزل الأخطاء الكود المعطل لمستخدم واحد من التأثير على GPU بالكامل أو التأثير على الآخرين.¹⁷

يدعم MIG أنظمة تشغيل Linux وأعباء العمل المحتواة باستخدام Docker Engine والتنسيق مع Kubernetes والبيئات الافتراضية من خلال المشرفين الافتراضيين بما في ذلك Red Hat Virtualization وVMware vSphere.¹⁸ يمكّن الدعم الواسع للمنصات المؤسسات من تنفيذ عزل GPU ضمن البنية التحتية الحالية دون تغييرات جذرية في البنية.

يكمن قيد MIG في الدقة. يمثل التقسيم إلى 7 أجزاء الحد الأقصى للتقسيم على العتاد الحالي. يجب على المؤسسات التي تتطلب مشاركة أدق أو تدعم أجيالاً أقدم من GPU النظر في مناهج بديلة.

بدائل vGPU وتقسيم الوقت

يمكّن برنامج GPU الافتراضي من NVIDIA العديد من الآلات الافتراضية ذات حماية وحدة إدارة ذاكرة الإدخال/الإخراج الكاملة من الوصول إلى GPU فعلي واحد في وقت واحد.¹⁹ بالإضافة إلى الأمان، يمكّن vGPU من إدارة الآلات الافتراضية مع الترحيل المباشر والقدرة على تشغيل أعباء عمل VDI والحوسبة المختلطة.²⁰ يقوم المشرف الافتراضي بمحاكاة GPU ويعين شرائح لآلات افتراضية متعددة، حيث تدرك كل آلة افتراضية جزءاً افتراضياً من GPU لأعباء عملها.

يوفر تقسيم الوقت نموذج مشاركة مختلف. يحدد مسؤول النظام مجموعة من النسخ المتماثلة لـ GPU، يمكن تسليم كل منها بشكل مستقل إلى pod يشغل أعباء العمل في Kubernetes.²¹ على عكس MIG، لا يوفر تقسيم الوقت عزل الذاكرة أو الأخطاء بين النسخ المتماثلة.²² إذا تعطلت مهمة واحدة أو أساءت التصرف، يمكن أن تؤثر على الآخرين الذين يشاركون GPU.²³ تفضل المقايضة الوصول على العزل: يمكّن تقسيم الوقت من المشاركة بأعداد أكبر من المستخدمين ويوفر الوصول لأجيال GPU الأقدم التي لا تدعم MIG.²⁴

تتطلب الآثار الأمنية فهماً واضحاً. يعمل تقسيم الوقت لبيئات التطوير والاختبار وأعباء العمل حيث يثق المستأجرون ببعضهم البعض أو حيث لا تستدعي حساسية البيانات العزل على مستوى العتاد. يجب أن تفضل عمليات نشر الإنتاج ذات متطلبات الأمان متعددة المستأجرين MIG أو وحدات GPU المخصصة على تقسيم الوقت.

تجمع المناهج الهجينة بين كلتا التقنيتين. يمكن للمؤسسات تقسيم GPU إلى نسخ MIG تضمن عزل المجموعة، ثم تشغيل جداول تقسيم الوقت داخل كل نسخة.²⁵ في مجموعات Kubernetes، يوازن تخصيص شريحة MIG لكل مساحة اسم ومشاركة الوظائف بالوقت داخل كل شريحة بين الأمان وكفاءة التكلفة.²⁶

الحوسبة السرية على وحدات GPU

قدم NVIDIA H100 Tensor Core GPU الحوسبة السرية إلى وحدات GPU، باستخدام بيئة تنفيذ موثوقة قائمة على العتاد مرتكزة على جذر ثقة عتادي على الشريحة.²⁷ قبل H100، كانت ميزات الحوسبة السرية موجودة فقط في وحدات المعالجة المركزية من AMD وIntel.²⁸ يوفر H100 حماية البيانات لأعباء عمل تدريب واستدلال الذكاء الاصطناعي التي تتضمن معلومات حساسة.²⁹

تبني البنية التقنية على قدرات الآلة الافتراضية السرية لوحدة المعالجة المركزية. يعتمد حل GPU على بيئة تنفيذ موثوقة للآلة الافتراضية السرية الممكّنة بواسطة AMD SEV-SNP أو Intel TDX على وحدة المعالجة المركزية.³⁰ يحجب جدار حماية PCIe وصول وحدة المعالجة المركزية إلى معظم السجلات وجميع ذاكرة GPU المحمية. يحجب جدار حماية NVLink وصول GPU النظير إلى الذاكرة المحمية.³¹ يستخدم الاتصال بين CVM وGPU تشفير AES-GCM مع مفاتيح الجلسة للحماية ضد النظام المضيف.³²

يدعم محرك DMA في H100 تشفير AES GCM 256 لنقل البيانات بين وحدة المعالجة المركزية وGPU.³³ يحجب GPU في وضع الحوسبة السرية الوصول المباشر إلى الذاكرة الداخلية ويعطل عدادات الأداء التي قد تمكّن هجمات القنوات الجانبية.³⁴ تطورت البنية من ميزات أمان سابقة: مصادقة AES على البرامج الثابتة منذ Volta، والبرامج الثابتة المشفرة والإلغاء منذ Turing وAmpere، والآن التمهيد الكامل المقاس والموثق مع جذر ثقة عتادي في Hopper.³⁵

تقدم Microsoft Azure آلات افتراضية سرية مع وحدات NVIDIA H100 GPU في المعاينة، مما يمكّن من تدريب وضبط وتقديم نماذج مثل Stable Diffusion ونماذج اللغة الكبيرة مع حماية الحوسبة السرية.³⁶ تتقدم بنية Blackwell بالذكاء الاصطناعي السري أكثر مع أداء متطابق تقريباً سواء تم تشغيل النماذج المشفرة أو غير المشفرة، حتى لنماذج اللغة الكبيرة.³⁷

اعتبارات أمان Kubernetes GPU

لا يوفر عزل مساحة الاسم في Kubernetes أماناً كافياً لجدولة GPU متعددة المستأجرين.³⁸ يجب على المؤسسات التي تشغل أعباء عمل الذكاء الاصطناعي على Kubernetes المعدني مع وحدات GPU تنفيذ ضوابط إضافية. يمكّن NVIDIA GPU Operator من تكوين تقسيم الوقت وMIG، لكن الأمان يعتمد على التكوين والتقوية المناسبين.

دفع نشرة أمان NVIDIA Container Toolkit في سبتمبر 2024 إلى ترقيات عاجلة. يجب على المؤسسات تشغيل Container Toolkit v1.16.2 أو أعلى، أو GPU Operator v24.6.2 أو أعلى.³⁹ أظهرت الثغرات أن هجمات الهروب من الحاويات يمكن أن تعرض عزل GPU للخطر حتى عند تكوينه بشكل صحيح على المستويات الأعلى.

تعالج حلول الطرف الثالث الفجوات في إدارة Kubernetes GPU الأصلية. يوفر Volcano جدولة دفعات سحابية أصلية مع تحكم دقيق في الأولويات والعدالة لأعباء العمل عالية الأداء.⁴⁰ تدير Run:ai، التي أصبحت الآن جزءاً من NVIDIA، موارد GPU وتحسّنها لأعباء عمل الذكاء الاصطناعي مع ميزات مصممة للبيئات متعددة المستأجرين.⁴¹ أعلنت vCluster Labs عن منصة استضافة البنية التحتية للذكاء الاصطناعي في KubeCon North America 2025، مقدمة أسساً أصلية لـ Kubernetes للبنية التحتية لـ NVIDIA GPU.⁴²

تُبلغ المؤسسات التي تستخدم vCluster عن تحسن بنسبة 40% في استخدام GPU وانخفاض بنسبة 60% في تكاليف البنية التحتية من خلال التنسيق الديناميكي متعدد المستأجرين.⁴³ تُظهر مكاسب الكفاءة أن بنى تعدد المستأجرين المناسبة يمكن أن تحسن كلاً من الأمان والاقتصاديات مقارنة بتخصيصات GPU المخصصة.

هجمات القنوات الجانبية والتهديدات الناشئة

تستغل هجمات ذاكرة GPU البنية المشتركة في البيئات متعددة المستأجرين لاختراق سرية البيانات وتدهور الأداء.⁴⁴ يمكن للمهاجمين الذين يستخدمون قنوات جانبية قائمة على التنافس استنتاج معلومات حساسة من أعباء العمل المتجاورة.⁴⁵ تستهدف هجمات ذاكرة GPU الذاكرة المشتركة لتسهيل تسريب المعلومات والقنوات السرية بين المستأجرين.⁴⁶

هجوم Rowhammer العتادي، المعروف سابقاً بتأثيره على ذاكرة وحدة المعالجة المركزية، يعرض وحدات GPU ذات ذاكرة GDDR للخطر ويسبب فقداناً شديداً في دقة نموذج الذكاء الاصطناعي.⁴⁷ يستغل الهجوم توازي GPU لإحداث انقلابات البتات، مما يشكل مخاطر خاصة في البيئات السحابية حيث قد يتواجد المهاجمون مع أعباء العمل المستهدفة.⁴⁸

يظل الخطر الأساسي في بيئات GPU الافتراضية هو الهجمات عبر الآلات الافتراضية.⁴⁹ يخلق تشغيل مستأجرين متعددين لأعباء العمل على نفس GPU الفعلي فرصاً لعيوب آلية العزل لتمكين التجسس. يكسر هذا بشكل أساسي نموذج أمان السحابة ويشكل مخاطر جسيمة على سرية البيانات.⁵⁰

تشمل استراتيجيات التخفيف عزل أعباء العمل القوي الذي يتجنب تشغيل أعباء العمل الحساسة وغير الحساسة على نفس GPU، وتقسيم ذاكرة التخزين المؤقت لتقليل التعرض لذاكرة التخزين المؤقت المشتركة، والجدولة العشوائية لتعقيد الهجمات القائمة على التوقيت.⁵¹ توفر تقنيات المحاكاة الافتراضية المحسّنة أمنياً مثل Single Root I/O Virtualization حماية إضافية.⁵² تمثل وحدات GPU السرية الحدود التالية، حيث تمد حماية شبيهة بـ TEE إلى ذاكرة GPU وتدفقات التنفيذ.⁵³

أفضل ممارسات الأمان المؤسسي

يجب على المؤسسات التي تنشر البنية التحتية المشتركة لـ GPU تنفيذ ضوابط أمنية مناسبة لتحملها للمخاطر ومتطلباتها التنظيمية.

بالنسبة لأعباء العمل الحساسة، تقلل خيارات المستأجر الواحد حيث لا تتم مشاركة وحدات GPU من خطر هجمات القنوات الجانبية وتتوافق مع متطلبات الامتثال.⁵⁴ تتطلب بعض الشهادات أجهزة مخصصة لأنواع بيانات معينة.⁵⁵ قد يكون القسط الإضافي لوحدات GPU المخصصة مبرراً بمتطلبات الأمان.

يتطلب أمان برامج التشغيل والبرامج الثابتة تحديثات متسقة بأحدث تصحيحات الأمان.⁵⁶ توصي NVIDIA بتحديثات البرامج الثابتة ربع السنوية والتحقق من صحة برامج التشغيل أثناء نوافذ الصيانة المجدولة.⁵⁷ يُظهر الكشف عن الثغرات في يناير 2025 أهمية التصحيح في الوقت المناسب.

تمنع نظافة الذاكرة بين الجلسات تسريب البيانات. يقضي تصفير ذاكرة GPU بين الجلسات على فئة رئيسية من الهجمات مع تأثير ضئيل على الأداء

طلب عرض سعر_

أخبرنا عن مشروعك وسنرد خلال 72 ساعة.

> TRANSMISSION_COMPLETE

تم استلام الطلب_

شكراً لاستفسارك. سيقوم فريقنا بمراجعة طلبك والرد خلال 72 ساعة.

QUEUED FOR PROCESSING