تخزين الكائنات للذكاء الاصطناعي: تنفيذ التخزين المباشر لوحدة معالجة الرسومات بإنتاجية 200 جيجابايت/ثانية
آخر تحديث: 8 ديسمبر 2025
تحديث ديسمبر 2025: تم إطلاق GPUDirect Storage 2.0 مع CUDA 12.3+، محققاً تحسينات في الإنتاجية بنسبة 15% ودعماً أصلياً لوحدات H100/H200. تحقق محركات PCIe Gen5 NVMe الآن 14 جيجابايت/ثانية لكل محرك، مما يتيح أكثر من 400 جيجابايت/ثانية لكل خادم. تم تحسين حزمة NVIDIA Magnum IO لـ Blackwell، مع معايير أولية تُظهر إنتاجية مستدامة تبلغ 250 جيجابايت/ثانية. يقدم كبار مزودي الخدمات السحابية (AWS وAzure وGCP) الآن خوادم مُفعّلة بـ GPUDirect Storage مع تكامل EBS/Azure Disk/Persistent Disk.
حققت Meta تحسناً بمقدار 3.8 ضعف في سرعة تدريب النماذج من خلال تنفيذ GPUDirect Storage عبر مجموعات البحث الخاصة بها، مما أزال عنق الزجاجة في وحدة المعالجة المركزية الذي كان يحد سابقاً من تحميل البيانات إلى 50 جيجابايت/ثانية، والآن تتدفق بيانات التدريب مباشرة إلى وحدات معالجة الرسومات بسرعة 192 جيجابايت/ثانية.¹ كانت مهام تدريب PyTorch لعملاق وسائل التواصل الاجتماعي تقضي سابقاً 35% من وقت الحوسبة في انتظار البيانات—وهو هدر إجرامي عندما تكلف وحدات H100 3.50 دولار في الساعة. تغذي بنية تخزين الكائنات الخاصة بهم الآن 2,048 وحدة معالجة رسومات في وقت واحد من خلال نقاط نهاية متوافقة مع S3 ومتوازية، حيث تتلقى كل وحدة معالجة رسومات جزء بياناتها دون تدخل وحدة المعالجة المركزية. تتطلب أعباء عمل الذكاء الاصطناعي الحديثة أنظمة تخزين تتوافق مع سرعات معالجة وحدات GPU، ومع ذلك لا تزال معظم المؤسسات تمرر البيتابايتات عبر أنظمة ملفات تقليدية مصممة لعصر وحدة المعالجة المركزية.
تطلب تدريب GPT-4 معالجة 13 تريليون رمز من مجموعات بيانات تتجاوز 45 تيرابايت، حيث أثرت سرعات تحميل البيانات مباشرة على تكلفة التدريب البالغة 100 مليون دولار.² يوفر تخزين الكائنات قابلية التوسع والمتانة وأنماط الوصول المتوازي الضرورية لأعباء عمل الذكاء الاصطناعي، مع دعم آلاف القراء المتزامنين من وحدات GPU مع الحفاظ على متانة 99.999999999% (11 تسعات). تُبلغ المؤسسات التي تنفذ تخزين كائنات محسّن لـ GPU عن انخفاض بنسبة 60% في وقت التدريب، وانخفاض بنسبة 75% في تكاليف التخزين مقارنة بـ SAN/NAS التقليدي، والقدرة على التوسع من تيرابايتات إلى إكسابايتات دون تغييرات في البنية. يتيح تقارب تخزين NVMe وشبكات RDMA وتقنية GPUDirect إنتاجية تخزين تتوافق أخيراً مع شهية GPU الحديثة.
أساسيات بنية GPUDirect Storage
يُحدث GPUDirect Storage (GDS) ثورة في نقل البيانات من خلال إنشاء مسارات ذاكرة مباشرة بين التخزين وذاكرة GPU، متجاوزاً وحدة المعالجة المركزية وذاكرة النظام بالكامل. تتطلب مسارات البيانات التقليدية أربع نسخ للذاكرة: من التخزين إلى المخزن المؤقت للنواة، ومن النواة إلى مساحة المستخدم، ومن مساحة المستخدم إلى برنامج تشغيل GPU، ومن البرنامج إلى ذاكرة GPU.³ يزيل GDS النسخ الوسيطة من خلال تجاوز النواة وDMA من نظير إلى نظير، مما يقلل زمن الوصول من 15 ميكروثانية إلى أقل من 2 ميكروثانية. تنسق حزمة برامج NVIDIA Magnum IO هذه النقلات، محققة 97% من النطاق الترددي النظري لـ NVMe.
تتطلب حزمة التقنيات مكونات أجهزة وبرامج محددة تعمل معاً. تتيح محركات NVMe SSD مع دعم CMB/PMR رسم الخرائط المباشرة للذاكرة. توفر بطاقات الشبكة القادرة على RDMA (ConnectX-6 أو أحدث) الوصول إلى التخزين عن بُعد. تدعم وحدات GPU من جيل V100 فصاعداً عمليات GDS. يتضمن نواة Linux 5.10+ برامج التشغيل المطلوبة وميزات إدارة الذاكرة. تتيح حزمة شبكات MOFED بروتوكول RoCE v2 لنشر Ethernet. تتطلب التطبيقات تكامل API GDS صريحاً أو أطر عمل متوافقة مثل DALI للتعلم العميق.
تختلف بنيات التنفيذ بناءً على متطلبات الحجم والأداء:
NVMe محلي: توفر محركات NVMe المتصلة مباشرة 200 جيجابايت/ثانية لكل خادم مع 8 محركات. تُعين كل وحدة GPU محركات محددة من خلال معاملات PCIe من نظير إلى نظير. أقل زمن وصول لكن سعة محدودة وعدم مشاركة بين العقد.
NVMe-oF: توفر مصفوفات NVMe المفككة التي يتم الوصول إليها عبر النسيج 100 جيجابايت/ثانية لكل اتصال. تكشف عقد التخزين مساحات الأسماء مباشرة لخوادم GPU. تتيح تجميع الموارد مع الحفاظ على أزمنة وصول بالميكروثانية.
كائنات متوافقة مع S3: توفر مخازن الكائنات القابلة للتوسع سعة غير محدودة مع وصول متوازٍ. تخدم عقد تخزين متعددة الأجزاء في وقت واحد لتحقيق إنتاجية إجمالية. زمن وصول أعلى لكن قابلية توسع هائلة ومتانة مدمجة.
تصميم البنية التحتية للتخزين
يتطلب بناء إنتاجية مستدامة تبلغ 200 جيجابايت/ثانية تصميماً دقيقاً للبنية التحتية عبر طبقات متعددة:
اختيار وسائط التخزين: تقدم محركات NVMe للمؤسسات 7 جيجابايت/ثانية قراءة تسلسلية لكل محرك. توفر سلسلة Samsung PM1735 أو Kioxia CM6 أداءً متسقاً تحت الأحمال المستدامة.⁴ يتيح عامل الشكل U.2 وضع 24 محركاً لكل خادم 2U. تقدم محركات M.2 كثافة أعلى لكن تحديات حرارية. توفر ذاكرة Optane الدائمة 40 جيجابايت/ثانية لكل وحدة لتخزين البيانات الساخنة مؤقتاً. احسب 30-35 محركاً كحد أدنى لـ 200 جيجابايت/ثانية مع احتساب النفقات العامة.
بنية الشبكة: يوفر 200GbE أو 100GbE مزدوج نطاقاً ترددياً كافياً مع هامش احتياطي. يزيل RDMA over Converged Ethernet (RoCE v2) النفقات العامة للبروتوكول. تتعامل طوبولوجيا Spine-leaf بنسبة اشتراك زائد 3:1 مع حركة المرور المتفجرة. تتطلب كل عقدة تخزين سعة وصلة صاعدة 200Gbps. تحتاج عقد GPU نطاقاً ترددياً داخلياً مطابقاً. تمنع المحولات غير الحاجبة البطء الناجم عن الازدحام.
تكوين الخادم: توازن عقد التخزين بين وحدة المعالجة المركزية والذاكرة وسعة المحرك. يوفر AMD EPYC أو Intel Xeon المزدوج معالجة كافية لترميز المحو. تتيح 512 جيجابايت RAM تخزيناً مؤقتاً واسعاً للبيانات الوصفية. تُشكل وحدات تحكم RAID الأجهزة عنق زجاجة للأداء—استخدم التخزين المعرّف بالبرمجيات. يوفر منفذا 100GbE التكرار وموازنة الحمل. تضمن فتحات PCIe Gen4 x16 لكل محرك NVMe النطاق الترددي الكامل.
حزمة البرمجيات: تتفاوت منصات تخزين الكائنات بشكل كبير في تحسين GPU: - MinIO: تنفيذ S3 أصلي مع دعم GDS، يحقق إنتاجية مُثبتة تبلغ 183 جيجابايت/ثانية⁵ - VAST Data: منصة محسّنة للأجهزة تصل إلى 200 جيجابايت/ثانية مع QLC flash - WekaFS: نظام ملفات متوازٍ مع بوابة S3، أداء مُقاس 191 جيجابايت/ثانية - Pure Storage FlashBlade: مصفوفات متكاملة بـ 75 جيجابايت/ثانية لكل هيكل - DDN EXAScaler: حل موجه لـ HPC يحقق 250 جيجابايت/ثانية على نطاق واسع
أفضل ممارسات التنفيذ
تتبع عمليات نشر GPU Direct Storage الناجحة أنماطاً مُثبتة:
تنظيم البيانات: هيكل مجموعات البيانات لأنماط الوصول المتوازي. قسّم بيانات التدريب عبر كائنات متعددة بحجم 64-256 ميجابايت للتدفق الأمثل. نفّذ التجزئة المتسقة لرسم الخرائط الحتمية من GPU إلى الجزء. خزّن البيانات الوصفية في مخازن قيمة-مفتاح سريعة لفهرسة مجموعات البيانات السريعة. أدر إصدارات مجموعات البيانات باستخدام مبادئ الكائنات غير القابلة للتغيير. اضغط البيانات حيث يتفوق فك ضغط GPU على إنتاجية التخزين.
تصميم مساحة الأسماء: افصل مساحات الأسماء حسب نوع عبء العمل ونمط الوصول. بيانات التدريب في مجموعات عالية الإنتاجية مع ترميز المحو. نقاط فحص النموذج في مجموعات عالية المتانة مع النسخ المتماثل. البيانات المؤقتة في مجموعات محسّنة للأداء دون تكرار. بيانات الأرشيف في مجموعات محسّنة للسعة مع ضغط عدواني.
استراتيجية التخزين المؤقت: نفّذ تخزيناً مؤقتاً متعدد المستويات للبيانات التي يتم الوصول إليها بشكل متكرر. ذاكرة تخزين مؤقت NVMe على عقد GPU لمجموعات العمل تحت 10 تيرابايت. ذاكرة تخزين مؤقت موزعة باستخدام Redis أو Memcached للبيانات الوصفية. ذاكرة تخزين مؤقت على جانب التخزين باستخدام Optane أو RAM للكائنات الساخنة. الجلب المسبق بناءً على أنماط حقبة التدريب. تقلل إحماء الذاكرة المؤقتة خلال ساعات الذروة المنخفضة من التأثير على الإنتاج.
موازنة الحمل: وزّع الطلبات عبر عقد التخزين للإنتاجية الإجمالية. DNS round-robin لتوزيع نقاط نهاية S3 البسيطة. HAProxy أو NGINX للتوجيه الذكي للطلبات. موازنة الحمل من جانب العميل باستخدام التجزئة المتسقة. راقب الإنتاجية لكل عقدة لتحديد عناق الزجاجة. نفّذ دمج الطلبات للكائنات الصغيرة.
يقوم Introl بتصميم وتنفيذ حلول تخزين عالية الأداء لأعباء عمل الذكاء الاصطناعي عبر منطقة التغطية العالمية الخاصة بنا، مع خبرة في إدارة عمليات نشر تخزين الكائنات على نطاق البيتابايت.⁶ تعمل فرقنا على تحسين البنية التحتية للتخزين لتحقيق أقصى استخدام لـ GPU وكفاءة التدريب.
تقنيات تحسين الأداء
يتطلب تحقيق إنتاجية مستدامة تبلغ 200 جيجابايت/ثانية تحسيناً منهجياً:
ضبط النواة: زِد المخازن المؤقتة للشبكة إلى 128 ميجابايت للاتصالات عالية النطاق الترددي. عطّل تحجيم تردد CPU للحصول على زمن وصول متسق. ثبّت معالجات المقاطعة على أنوية محددة مع تجنب أنوية GPU. فعّل الصفحات الضخمة لتقليل ضغط TLB. اضبط إعدادات NUMA للوصول إلى الذاكرة المحلية. عيّن io_schedule إلى 'none' لأجهزة NVMe.
تحسين الشبكة: فعّل الإطارات الضخمة (9000 MTU) عبر المسار بالكامل. هيئ ECN لإشعار الازدحام دون فقدان الحزم. اضبط إعدادات TCP لمنتجات النطاق الترددي العالي-التأخير. فعّل تفريغ الأجهزة للمجموع الاختباري والتجزئة. هيئ دمج المقاطعات لتقليل النفقات العامة لـ CPU. نفّذ التحكم في التدفق ذي الأولوية لـ RoCE بدون فقدان.
ضبط التخزين: محاذاة حدود الأقسام مع أحجام كتل المحو. هيئ أعماق قائمة الانتظار المناسبة (256-1024 لكل جهاز). فعّل التخزين المؤقت للكتابة مع حماية فقدان الطاقة. عطّل ميزات نظام الملفات غير الضرورية مثل تحديثات وقت الوصول. نفّذ TRIM/UNMAP لأداء SSD المستدام. راقب موازنة التآكل في SSD واستبدل المحركات بشكل استباقي.
تحسين التطبيق: استخدم أحجام IO كبيرة (1-4 ميجابايت) للوصول التسلسلي. نفّذ الجلب المسبق لإخفاء زمن وصول التخزين. تداخل الحوسبة مع نقل البيانات باستخدام التخزين المؤقت المزدوج. ثبّت المخازن المؤقتة للذاكرة لمنع ترحيل الصفحات. استخدم IO المباشر لتجاوز التخزين المؤقت للنواة. اجمع الطلبات الصغيرة في عمليات أكبر.
التنفيذات الواقعية
OpenAI - بنية تدريب GPT التحتية: - التخزين: 50 بيتابايت WekaFS مع واجهة S3 - الإنتاجية: 175 جيجابايت/ثانية مستدامة لـ 10,000 وحدة GPU - البنية: 100 عقدة تخزين مع NVMe + Optane - الشبكة: 400GbE InfiniBand مع RDMA - النتيجة: انخفاض تحميل البيانات من 30% إلى 5% من وقت التدريب - الابتكار: جلب مسبق مخصص يتنبأ بأنماط الوصول
Netflix - منصة فهم الفيديو: - التخزين: 20 بيتابايت MinIO عبر 3 مناطق - الإنتاجية: 145 جيجابايت/ثانية إجمالية للاستدلال - التكوين: 60 عقدة مع 24 محرك NVMe لكل منها - التحسين: تجزئة واعية للمحتوى حسب المشهد - النتيجة: معالجة الكتالوج بالكامل في 72 ساعة - التكلفة: انخفاض 80% مقابل AWS S3
شركة مركبات ذاتية القيادة (بموجب اتفاقية عدم إفصاح): - مجموعة البيانات: 500 تيرابايت من لقطات القيادة - التخزين: Pure FlashBlade مع GDS - الأداء: 200 جيجابايت/ثانية لـ 512 وحدة V100 GPU - البنية: 10 هياكل مترابطة - التأثير: انخفض وقت التدريب من 21 إلى 7 أيام - المفتاح: تحسين الترابط الزمني في تخطيط البيانات
مختبر وطني - التعلم الآلي العلمي: - الحجم: 100 بيتابايت DDN EXAScaler - الإنتاجية: 250 جيجابايت/ثانية مستدامة - عبء العمل: تدريب محاكاة المناخ - وحدات GPU: 2,048 وحدة A100 تصل في وقت واحد - الكفاءة: تحقيق 94% من استخدام GPU - الابتكار: تخزين هرمي مع واجهة شريط خلفية
المراقبة واستكشاف الأخطاء وإصلاحها
تضمن المراقبة الشاملة الأداء المستدام:
مقاييس الإنتاجية: تتبع عرض النطاق الترددي للقراءة لكل GPU لتحديد المتأخرين. راقب الإنتاجية الإجمالية للمجموعة مقابل الحد الأقصى النظري. قِس النسب المئوية لزمن وصول الطلب (p50، p99، p999). أنذر عند تدهور الإنتاجية الذي يتجاوز 10%. ارسم الأنماط اليومية/الساعية لتحديد فترات الذروة. قارن المعدلات المُبلغ عنها من التطبيق مقابل المُقاسة من البنية التحتية.
صحة التخزين: راقب مؤشرات تآكل SSD للتنبؤ بالأعطال. تتبع معدلات الأخطاء التي تتطلب انتباهاً قبل التأثير. راقب درجة الحرارة لضمان تجنب الاختناق الحراري. قِس أعماق قائمة الانتظار لتحديد التشبع. راقب أنماط IOPS للكشف عن الشذوذ. أنذر عند اقتراب السعة من 80% ممتلئة.
أداء الشبكة: راقب فقدان الحزم الذي يتطلب تحقيقاً فورياً. تتبع معدلات إعادة الإرسال التي تشير إلى الازدحام. قِس أوقات الذهاب والإياب للكشف عن زيادات زمن الوصول. راقب استخدام المخزن المؤقت لمنع الفيضان. ارسم استخدام النطاق الترددي لتحديد عناق الزجاجة. أنذر عند الأخطاء التي تتجاوز معدلات الأساس.
مقاييس التطبيق: تتبع وقت تحميل البيانات لكل حقبة. راقب استخدام GPU لضمان مواكبة التخزين. قِس فترات حفظ/استعادة نقاط التفتيش. راقب معدلات إصابة ذاكرة التخزين المؤقت لمجموعة البيانات. ارسم إنتاجية التدريب (التكرارات/الثانية). قارن الأداء المتوقع مقابل الفعلي.
المشكلات الشائعة والحلول:
العَرَض: إنتاجية أقل من المتوقع - تحقق من: اتساق MTU للشبكة عبر المسار - تحقق من: قائمة انتظار وحدة تحكم التخزين
[تم اقتطاع المحتوى للترجمة]