التخزين المُحسَّن للذكاء الاصطناعي: المنظومة التقنية التي تغذي مجموعات GPU
آخر تحديث: 11 ديسمبر 2025
تحديث ديسمبر 2025: سوق تخزين الذكاء الاصطناعي ينمو من 36 مليار دولار (2025) إلى 322 مليار دولار بحلول 2035. نظام DDN EXAScaler يقدم 4 تيرابايت/ثانية لحاسوب NVIDIA Eos الفائق. تقنية GPUDirect Storage تتيح نقل بيانات مباشر بسرعة تتجاوز 40 جيجابايت/ثانية؛ وتقنية SCADA من NVIDIA الصادرة في نوفمبر 2025 تُلغي آخر تدخل للمعالج المركزي. NVMe-oF ينمو بمعدل نمو سنوي مركب 27.8% مع توسع المؤسسات في تمديد زمن استجابة بمستوى PCIe عبر الشبكات.
اختناقات التخزين تُعطّل وحدات GPU. تطبيق واحد لنظام DDN EXAScaler يقدم أربعة تيرابايت في الثانية لحاسوب NVIDIA Eos الفائق، مما يغذي 18.4 إكسافلوبس من أداء الذكاء الاصطناعي من 576 نظام DGX H100.¹ عندما تكلف وحدات GPU عشرات الآلاف من الدولارات للوحدة الواحدة وتصل مجموعات التدريب إلى آلاف المسرّعات، فإن البنية التحتية للتخزين التي لا تستطيع الحفاظ على معدل نقل البيانات تُهدر ملايين الدولارات في موارد الحوسبة. يعكس سوق التخزين المدعوم بالذكاء الاصطناعي هذه الأهمية الملحة، إذ من المتوقع أن ينمو من 36.28 مليار دولار في 2025 إلى 321.93 مليار دولار بحلول 2035 بمعدل نمو سنوي مركب 24.4%.²
تتطلب أحمال عمل الذكاء الاصطناعي الحديثة خصائص أداء تخزين مختلفة جذرياً عن تطبيقات المؤسسات التقليدية. مجموعات بيانات التدريب المقاسة بالبيتابايت تتطلب معدل نقل تسلسلي مستدام. عمليات إنشاء نقاط الحفظ يجب أن تكتمل في ثوانٍ لتقليل انقطاع التدريب. أحمال عمل الاستدلال تولّد أنماط إدخال/إخراج غير متوقعة تمزج بين القراءات العشوائية الصغيرة والكتابات المتدفقة. المؤسسات التي تنشر بنية تحتية للذكاء الاصطناعي على نطاق واسع تُقيّم الآن أنظمة التخزين بناءً على مقاييس استخدام GPU بدلاً من معايير IOPS التقليدية.
NVMe-oF يمد أداء الفلاش عبر الشبكة
تقنية NVMe over Fabrics (NVMe-oF) تُمكّن أحمال العمل عالية الأداء على نطاق واسع من خلال توفير مشاركة منخفضة زمن الاستجابة لأقراص NVMe SSD عبر شبكات Ethernet أو InfiniBand عالية الأداء.³ يقدم البروتوكول أداءً مشابهاً لأقراص NVMe SSD المتصلة محلياً مع السماح للمؤسسات بتوسيع موارد التخزين بشكل مستقل عن تخصيص الحوسبة وGPU والذاكرة.⁴
بروتوكولات التخزين التقليدية تضيف ميلي ثانية من زمن الاستجابة من خلال طبقات برمجية مُحسَّنة للأقراص الدوارة. NVMe-oF يُلغي هذه الطبقات، محققاً أزمنة استجابة بعشرات الميكروثانية حتى عند التوسع إلى آلاف العقد باستخدام ناقلات RDMA.⁵ ناقلات TCP تُمكّن النشر عبر شبكات Ethernet العادية مع الاستمرار في تقديم تحسينات أداء كبيرة مقارنة ببروتوكولات NFS أو iSCSI القديمة.⁶
بالنسبة للبنية التحتية للذكاء الاصطناعي، أهمية NVMe-oF تكمن حيث تُحسب كل ميكروثانية: خطوط أنابيب التدريب حيث تتعطل وحدات GPU في انتظار البيانات، عمليات إنشاء نقاط الحفظ التي يجب أن تكتمل ضمن نوافذ زمنية صارمة، وأحمال عمل الاستدلال التي تتطلب أوقات استجابة أقل من الميلي ثانية.⁷ المعايير المنشورة تُظهر 351 جيجابايت في الثانية للقراءات التسلسلية مع تكامل GPUDirect Storage، مع توقع أن تخفيضات زمن الاستجابة سترفع الاستخدام الفعال لـ GPU بمقدار 2 إلى 3 مرات في التكوينات المقيدة بالإدخال/الإخراج.⁸
تبني الصناعة يتسارع خلال 2025. Western Digital وIngrasys أسستا شراكة في مايو 2025 تجمع بين خبرة خوادم GPU وقدرات NVMe-oF والتخزين المتصل بالشبكة.⁹ Hitachi Vantara أطلقت Virtual Storage Platform One Block High End في نوفمبر 2025، وهو حل تخزين كتلي NVMe من الجيل التالي بالكامل فلاش مصمم لأحمال العمل الحرجة والذكاء الاصطناعي.¹⁰ أنظمة NVMe-oF من المتوقع أن تحقق معدل نمو سنوي مركب 27.80% مع توسع المؤسسات في تمديد زمن استجابة بمستوى PCIe عبر الشبكات لتعزيز استخدام GPU في مجموعات الذكاء الاصطناعي الموزعة.¹¹
GPUDirect Storage يُلغي عنق زجاجة المعالج المركزي
تقنية GPUDirect Storage من NVIDIA تُمكّن نقل البيانات المباشر من التخزين إلى ذاكرة GPU دون المرور عبر المعالج المركزي وذاكرة النظام.¹² تُزيل هذه التقنية حاجزاً أساسياً للأداء في خطوط أنابيب تدريب الذكاء الاصطناعي حيث يجب أن تتدفق مجموعات البيانات الكبيرة باستمرار إلى ذاكرة GPU للمعالجة.
تدريب التعلم العميق يتضمن عمليات إنشاء نقاط حفظ متكررة حيث تُحفظ أوزان الشبكة المدربة على القرص في مراحل تدريب مختلفة. بحكم التعريف، تقع عمليات إنشاء نقاط الحفظ في المسار الحرج للإدخال/الإخراج.¹³ نموذج بـ 100 مليار معامل يولّد ما يقارب 800 جيجابايت إلى 1.6 تيرابايت لكل نقطة حفظ، والتدريب على نطاق واسع مع 16,000 مسرّع يتطلب 155 نقطة حفظ يومياً.¹⁴ للحفاظ على الحمل الإضافي أقل من 5%، يجب أن تكتمل عمليات نقاط الحفظ في أقل من 28 ثانية على هذا النطاق، وتنخفض إلى 4.4 ثانية لمجموعات 100,000 مسرّع.¹⁵
GPUDirect Storage تعالج هذه المتطلبات بتمكين معدلات نقل مباشر تتجاوز 40 جيجابايت/ثانية من التخزين إلى ذاكرة GPU.¹⁶ البنية المرجعية من Lenovo/NVIDIA تقدم 20 جيجابايت/ثانية لكل عقدة مع قدرات توسع خطي، دعماً لتدريب نماذج اللغة الكبيرة والاستدلال وعمليات نقاط الحفظ.¹⁷ تقنية SCADA من NVIDIA الصادرة في نوفمبر 2025 تأخذ GPUDirect أبعد من ذلك بنقل حتى مسار التحكم في التخزين إلى GPU، مما يُلغي آخر تدخل للمعالج المركزي في عمليات التخزين.¹⁸
التطبيقات العتادية تنتشر عبر المنظومة. محول HighPoint Rocker 7638D يُمكّن سير عمل GPUDirect Storage بعرض نطاق ترددي يصل إلى 64 جيجابايت/ثانية وزمن استجابة متوقع، وهو مفيد بشكل خاص لمجموعات بيانات التدريب واسعة النطاق.¹⁹ موردو التخزين بما في ذلك DDN وPure Storage وWEKA وVAST Data يُصادقون على منصاتهم لتكامل GPUDirect مع أنظمة NVIDIA DGX وHGX.
أنظمة الملفات المتوازية تُشغّل الذكاء الاصطناعي على مستوى الإكسا
أنظمة الملفات المتوازية توزع البيانات والبيانات الوصفية عبر خوادم متعددة، مما يُمكّن معدل نقل إجمالي يتوسع مع عدد عقد التخزين. ثلاث منصات تهيمن على نشر الذكاء الاصطناعي والحوسبة عالية الأداء: Lustre وIBM Storage Scale (المعروف سابقاً بـ GPFS) وWekaFS.
Lustre يستحوذ على 41% من حصة السوق في أنظمة الملفات المتوازية، يليه IBM Storage Scale بـ 17% وWEKA بـ 6%.²⁰ كل بنية تُحسّن لخصائص أحمال عمل مختلفة.
Lustre يتفوق في البيئات التي تهيمن عليها العمليات التسلسلية الكبيرة بما في ذلك المحاكاة العلمية وخطوط أنابيب عرض الفيديو.²¹ تُعطي البنية الأولوية لعرض النطاق الترددي المستدام على معالجة الملفات الصغيرة، محققة توسعاً في الأداء شبه خطي مع إضافة خوادم Object Storage Servers (OSS) لأحمال العمل كثيفة النطاق الترددي.²² Lustre يؤدي بشكل أفضل مع شبكات InfiniBand ويُشغّل معظم الحواسيب الفائقة في العالم. منتج EXAScaler من DDN يُحزّم Lustre مع تحسينات الأداء وقدرات الإدارة المؤسسية.
IBM Storage Scale يوفر أداءً متفوقاً في العمليات كثيفة البيانات الوصفية.²³ نهج البيانات الوصفية الموزعة يُنشئ ملفات صغيرة ويُعدّل السمات ويُهيكل الدلائل المعقدة بكفاءة أكبر من بنية خادم البيانات الوصفية المركزي في Lustre.²⁴ Storage Scale يقدم أداءً متسقاً عبر أنماط إدخال/إخراج متنوعة ويتكامل في البنى المرجعية NVIDIA DGX SuperPOD مع دعم GPUDirect.²⁵
WekaFS يستهدف أحمال عمل الذكاء الاصطناعي/التعلم الآلي بشكل خاص، مصمم منذ البداية لأقراص NVMe SSD بدلاً من التعديل من بنى الأقراص الدوارة.²⁶ البيانات الوصفية الموزعة في WEKA تُلغي عنق زجاجة خادم البيانات الوصفية الذي يُقيّد أنظمة الملفات المتوازية القديمة.²⁷ المعايير تُظهر أن WekaFS يتفوق على FSx for Lustre بنسبة 300% أو أكثر عند سعات مماثلة، مع زمن استجابة للإدخال/الإخراج أحياناً أقل من 30% من الحلول المنافسة.²⁸ WekaFS يدعم بروتوكولات pNFS وSMB وS3، مما يُمكّن أنماط الوصول متعددة البروتوكولات الشائعة في خطوط أنابيب الذكاء الاصطناعي.
DDN وPure Storage وVAST Data تقود مشهد الموردين
ثلاثة موردي تخزين يهيمنون على نشر بنية الذكاء الاصطناعي التحتية بمنتجات مصممة خصيصاً لأحمال عمل مجموعات GPU.
DDN تُشغّل أبرز الحواسيب الفائقة للذكاء الاصطناعي. نظام Eos من NVIDIA يتضمن 576 نظام DGX H100 مع 48 جهاز DDN A³I يقدم 12 بيتابايت من التخزين بمعدل أربعة تيرابايت في الثانية في أقل من ثلاثة رفوف باستخدام 100 كيلووات فقط من الطاقة.²⁹ أعلنت DDN عن شهادة Blackwell في مارس 2025، مُحسّنة EXAScaler وInfinia 2.0 لـ DGX SuperPOD مع أنظمة DGX GB200 وDGX B200.³⁰ جهاز DDN AI400X2-Turbo واحد يحقق 10 أضعاف الحد الأدنى المطلوب البالغ 1 جيجابايت/ثانية/GPU لعمليات القراءة والكتابة مع DGX B200، محققاً استخدام شبكة يصل إلى 96%.³¹ شراكة DDN مع Yotta لمبادرة الذكاء الاصطناعي السيادي في الهند نشرت أنظمة EXAScaler AI400X3 تُشغّل 8,000 وحدة NVIDIA B200 GPU.³²
Pure Storage قدمت FlashBlade//EXA في مارس 2025، متوقعة أداء قراءة يتجاوز 10 تيرابايت في الثانية في مساحة أسماء واحدة.³³ تستهدف المنصة العملاء الذين يُشغّلون بين وحدة واحدة وعشرات الآلاف من وحدات GPU ويتطلبون معدل نقل تخزين من 1 تيرابايت/ثانية إلى 50 تيرابايت/ثانية.³⁴ بنية FlashBlade//EXA المفككة تُوسّع البيانات والبيانات الوصفية بشكل مستقل باستخدام عقد بيانات من جهات خارجية، مما يُمكّن أداءً متوازياً هائلاً.³⁵ حققت Pure Storage شهادة FlashBlade//S500 مع NVIDIA DGX SuperPOD، مُدمجة التصميم المرجعي NVIDIA AI Data Platform مع دعم GPUDirect Storage.³⁶
VAST Data وصلت إلى 2 مليار دولار في حجوزات البرمجيات التراكمية بحلول مايو 2025.³⁷ بنية DASE (الموزعة والمشتركة بالكامل) تقدم توازياً اختراقياً لمجموعات تتجاوز 100 ألف GPU بمعدل تيرابايت في الثانية، مُزيلة اختناقات بيانات الذكاء الاصطناعي.³⁸ تدّعي VAST تكلفة ملكية إجمالية أقل بأكثر من 50% لأحمال عمل الذكاء الاصطناعي المتطلبة من خلال كفاءة جذرية.³⁹ تدعم المنصة إكسابايت من التخزين الفلاش بالكامل مع وصول NFS وSMB وS3 وKubernetes CSI القياسي في الصناعة.⁴⁰ أعلنت Microsoft Azure عن التكامل مع نظام تشغيل الذكاء الاصطناعي من VAST في نوفمبر 2025 لتوسيع خطوط أنابيب الذكاء الاصطناعي المحلية إلى بنية سحابية مُسرّعة بـ GPU.⁴¹
بنى نقاط الحفظ توازن بين السرعة والموثوقية
إنشاء نقاط حفظ النماذج يُولّد أكثر متطلبات التخزين تطلباً في تدريب الذكاء الاصطناعي. أحجام نقاط الحفظ تتوسع مع عدد المعاملات: ما يقارب 8 إلى 12 بايت لكل معامل للتدريب بدقة مختلطة يعني أن نموذجاً بـ 100 مليار معامل يولّد 800 جيجابايت إلى 1.2 تيرابايت لكل نقطة حفظ.⁴² متطلبات التكرار تشتد مع حجم المجموعة، لتصل إلى نقطة حفظ كل 1.5 دقيقة لنشر 100,000 مسرّع.⁴³
أنظمة التدريب الحديثة تستخدم بنى نقاط حفظ متدرجة. نقاط الحفظ من الطبقة السريعة تُكتب إلى تخزين NVMe المحلي للعقدة كل بضع دقائق. نقاط الحفظ من الطبقة المتوسطة تنتشر إلى أنظمة الملفات المشتركة كل 30 دقيقة. نقاط الحفظ الدائمة تصل إلى تخزين الكائنات مثل Amazon S3 فقط كل بضع ساعات.⁴⁴ إنشاء نقاط الحفظ غير المتزامن يسمح للتدريب بالاستمرار بينما تُفرّغ العمليات الخلفية التخزين المحلي إلى الطبقات العالمية.⁴⁵
متطلبات عرض النطاق الترددي لنقاط الحفظ العالمية تبقى متواضعة بشكل مفاجئ حتى على نطاق واسع. تحليل 85,000 نقطة حفظ عبر أنظمة حقيقية وجد أن عرض النطاق الترددي عادة أقل بكثير من 1 تيرابايت/ثانية حتى لنماذج التريليون معامل.⁴⁶ عرض النطاق الترددي لنقطة الحفظ لكل GPU يتناقص مع نمو حجم النموذج لأن نسخة متماثلة متوازية البيانات واحدة فقط تكتب أثناء إنشاء نقطة الحفظ بغض النظر عن الحجم الإجمالي للمجموعة.⁴⁷
معدل النقل المُبلغ عنه يتفاوت بشكل كبير عبر التطبيقات. Gemini يُبلغ عن معدل نقل نقاط حفظ 3.13 جيجابايت/ثانية. Nebula (DeepSpeed) من Microsoft يحقق 1-4 جيجابايت/ثانية. هذه الأرقام تعكس المفاضلات البنيوية بين تكرار نقاط الحفظ وطبقة التخزين والحمل الإضافي المقبول للتدريب.⁴⁸
التخزين الحاسوبي ينقل المعالجة إلى البيانات
أجهزة التخزين الحاسوبية (CSDs) تُضمّن وظائف الحوسبة داخل عتاد التخزين، معالجة البيانات قبل النقل لتقليل متطلبات عرض النطاق الترددي للإدخال/الإخراج.⁴⁹ تثبت البنية قيمتها بشكل خاص لنشر الذكاء الاصطناعي على الحافة الذي يواجه موارد حاسوبية محدودة وميزانيات طاقة صارمة ومتطلبات زمن استجابة فوري.⁵⁰
تطبيقات CSD المتقدمة تشمل تشغيل قواعد البيانات ونماذج التعلم الآلي والتحليلات مباشرة على أجهزة التخزين. بعض التطبيقات تدعم أنظمة تشغيل Linux كاملة، مما يُمكّن استدلال الذكاء الاصطناعي/التعلم الآلي على المحرك نفسه.⁵¹ عمليات النشر على الحافة تستفيد من المعالجة الأولية في طبقة التخزين، تصفية النتائج قبل الإرسال إلى المعالجات الرئيسية.⁵²
تعالج التقنية القيود الفريدة للذكاء الاصطناعي على الحافة. تشغيل الاستدلال ينتقل بشكل متزايد إلى أجهزة الحافة لتعزيز إمكانية الوصول والتخصيص والكفاءة.⁵³ أطلقت Cisco منصة Unified Edge في نوفمبر 2025، وهي منصة حوسبة متكاملة تجمع بين الحوسبة والشبكات والتخزين والأمان للذكاء الاصطناعي في الوقت الفعلي
[تم اقتطاع المحتوى للترجمة]