تنفيذ NVMe-oF: فصل التخزين لنشر 100,000 وحدة معالجة رسومات
آخر تحديث: 8 ديسمبر 2025
تحديث ديسمبر 2025: يتسارع اعتماد NVMe-oF مع أقراص PCIe Gen5 التي تقدم سرعة 14 جيجابايت/ثانية وشبكات 400GbE التي أصبحت معيارًا قياسيًا. تم الانتهاء من مواصفات NVMe 2.0 مع دعم محسّن للمسارات المتعددة ومساحات الأسماء المقسمة. تتيح وحدات معالجة البيانات NVIDIA BlueField-3 تسريع NVMe-oF عتاديًا بإنتاجية تصل إلى 400 جيجابت/ثانية. يظهر التخزين الحسابي للمعالجة المسبقة للبيانات قبل نقلها إلى وحدات معالجة الرسومات، مما يقلل متطلبات عرض النطاق الترددي بنسبة 40-60% لأحمال عمل محددة.
يمتد محرك التوصيات في ByteDance عبر 100,000 وحدة معالجة رسومات موزعة على 12 مركز بيانات، ومع ذلك يحقق استخدامًا للتخزين بنسبة 94% من خلال تقنية NVMe over Fabric التي تجمع 85 بيتابايت من التخزين الفلاشي في مساحة اسم منطقية واحدة يمكن لأي وحدة معالجة رسومات الوصول إليها بإنتاجية 180 جيجابايت/ثانية وزمن استجابة 5 ميكروثانية.¹ كانت الشركة التقنية الصينية العملاقة تخصص سابقًا تخزينًا ثابتًا لكل خادم معالجة رسومات، مما أدى إلى سعة خاملة بنسبة 40% بينما تعاني عقد أخرى من نقص المساحة. تخصص بنيتها المعتمدة على NVMe-oF الآن كتل التخزين لوحدات معالجة الرسومات حسب الطلب ديناميكيًا، مما يلغي 42 مليون دولار من مشتريات أقراص SSD الزائدة مع تحسين سرعة تدريب النماذج بمقدار 2.3 ضعف من خلال وضع البيانات المحسّن. تنهار بنيات التخزين المرفقة مباشرة التقليدية على النطاق الفائق—عند إدارة 100,000 وحدة معالجة رسومات، تصبح القدرة على فصل التخزين عن الحوسبة الفارق بين التوسع الخطي والتعقيد الأسي.
يمتد بروتوكول NVMe over Fabric عبر شبكات النسيج، مما يتيح الوصول إلى التخزين البعيد بأداء قريب من الأداء المحلي. تفيد المؤسسات التي تطبق NVMe-oF باستخدام تخزين بنسبة 85-95% مقارنة بـ 50-60% مع التكوينات المرفقة مباشرة، مع الحفاظ على زمن استجابة أقل من 10 ميكروثانية.² تدعم التقنية بروتوكولات نقل متعددة بما في ذلك RDMA over Converged Ethernet (RoCE) وInfiniBand وFibre Channel وTCP، مع هيمنة نشر RoCE على البنية التحتية للذكاء الاصطناعي نظرًا لانتشار Ethernet. تقلل بنيات التخزين المفصولة النفقات الرأسمالية بنسبة 35-45% من خلال تحسين الاستخدام، وتتيح التوسع المستقل لموارد الحوسبة والتخزين، وتوفر مرونة تشغيلية مستحيلة مع البنيات التقليدية.
أساسيات بروتوكول NVMe-oF
يحافظ NVMe over Fabric على كفاءة بروتوكول NVMe مع توسيعه عبر وسائط النقل الشبكية. يحتفظ البروتوكول بمجموعة أوامر NVMe المبسطة وبنية الطوابير المتوازية والنموذج المدفوع بالمقاطعات مع إضافة حمل إضافي ضئيل لنقل الشبكة. تضيف معاملة NVMe-oF النموذجية 2-8 ميكروثانية فقط من زمن الاستجابة مقارنة بـ NVMe المحلي، محققة 95% من أداء SSD المحلي عبر الشبكات المكونة بشكل صحيح.³
تحدد خيارات النقل خصائص الأداء وتعقيد النشر:
NVMe over RoCE v2 يهيمن على النشر المؤسسي نظرًا لإعادة استخدام البنية التحتية لـ Ethernet. يوفر RoCE (RDMA over Converged Ethernet) تجاوز النواة وعمليات نقل بدون نسخ، محققًا زمن استجابة أقل من 5 ميكروثانية. يمنع تكوين Ethernet بدون فقدان باستخدام Priority Flow Control فقدان الحزم. تدعم محولات Ethernet القياسية RoCE مع البرامج الثابتة المناسبة. يتطلب النشر ضبطًا دقيقًا لجودة الخدمة لمنع الازدحام.
NVMe over InfiniBand يقدم أدنى زمن استجابة عند 2-3 ميكروثانية لكنه يتطلب بنية تحتية متخصصة. يضمن التحكم في التدفق القائم على الائتمان في InfiniBand التسليم بدون فقدان دون تعقيد PFC. تمنع إدارة الازدحام المدمجة تدهور الأداء تحت الحمل. تحد التكلفة العالية من الاعتماد على النشر الحرج للأداء. دعم أصلي لـ GPU Direct Storage يعظم الإنتاجية.
NVMe over TCP يوفر أقصى توافق باستخدام شبكات TCP/IP القياسية. التنفيذ البرمجي فقط لا يتطلب أجهزة خاصة. يتراوح زمن الاستجابة من 15-50 ميكروثانية حسب ظروف الشبكة. يضيف التحكم في ازدحام TCP وإعادة الإرسال حملاً إضافيًا. مناسب لمستويات التخزين الموجهة نحو السعة حيث تهم التكلفة أكثر من الأداء.
NVMe over Fibre Channel يستفيد من البنية التحتية الحالية لـ SAN في البيئات المؤسسية. يوفر التسليم بدون فقدان في FC والتقسيم عزل التخزين. يقاس زمن الاستجابة عادة بـ 10-20 ميكروثانية. يقتصر حاليًا على 32 جيجابت/ثانية بينما يصل Ethernet إلى 400 جيجابت/ثانية. يستخدم بشكل أساسي لنقل بيئات FC القديمة إلى NVMe.
تصميم البنية لنطاق 100,000 وحدة معالجة رسومات
يتطلب توسيع NVMe-oF إلى 100,000 وحدة معالجة رسومات بنية هرمية مع طبقات تجميع متعددة:
نسيج تخزين Leaf-Spine: تتصل عقد التخزين بمحولات leaf بسرعة 100-200 جيجابت إيثرنت. يتعامل كل leaf مع 32-48 عقدة تخزين مع اشتراك زائد 2:1. تربط محولات spine بين محولات leaf باستخدام روابط 400-800 جيجابت إيثرنت. طبقة spine غير المحظورة تمنع الازدحام بين محولات leaf. يستخدم النشر النموذجي 4-8 محولات spine للتكرار وعرض النطاق الترددي.
التوسع القائم على Pod: تنظيم البنية التحتية في وحدات pod تضم 1,000-2,000 وحدة معالجة رسومات لنطاقات قابلة للإدارة. تحتوي كل pod على نسيج تخزين مخصص مع 20-40 عقدة تخزين. تستخدم الاتصالات بين الـ pod روابط DCI (Data Center Interconnect) عالية السرعة. تتوسع الـ pod بشكل مستقل دون التأثير على غيرها. تحد نطاقات الفشل من نطاق تأثير الانقطاعات.
تكوين عقدة التخزين: خوادم ثنائية المقبس مع 24-36 قرص NVMe لكل عقدة. بطاقات شبكة 200 جيجابت إيثرنت ثنائية المنفذ لاتصال نسيج متكرر. ذاكرة 512 جيجابايت إلى 1 تيرابايت للتخزين المؤقت للبيانات الوصفية والمخازن المؤقتة. إمكانيات تفريغ الأجهزة لمعالجة NVMe-oF. طبقة تخزين معرفة بالبرمجيات تدير مجمعات الأقراص.
بنية مساحة الاسم: توفر مساحة الاسم العالمية عرضًا موحدًا للتخزين عبر جميع العقد. تعزل مساحات الأسماء الفرعية بيانات المستأجر أو التطبيق. إنشاء/حذف مساحة الاسم ديناميكيًا دون انقطاع. يمنع التوفير الرقيق هدر السعة. تتيح مشاركة مساحة الاسم سير العمل التعاوني.
نشر واقعي على نطاق ByteDance: - 12 مركز بيانات مع 8,000-10,000 وحدة معالجة رسومات لكل منها - 2,500 عقدة تخزين توفر سعة قابلة للاستخدام 85 بيتابايت - شبكة Clos ثلاثية الطبقات مع spine بسرعة 400 جيجابت إيثرنت - إنتاجية إجمالية 180 جيجابايت/ثانية لكل رف - متوسط زمن استجابة 5 ميكروثانية - تم تحقيق استخدام تخزين بنسبة 94%
أفضل ممارسات التنفيذ
تتبع نشرات NVMe-oF الناجحة أنماطًا راسخة:
التميز في تكوين الشبكة: تمكين الإطارات الضخمة (9000 MTU) من طرف إلى طرف لتحقيق الكفاءة. تكوين Priority Flow Control (PFC) على جميع منافذ المحول للتسليم بدون فقدان. تنفيذ Enhanced Transmission Selection (ETS) لتخصيص عرض النطاق الترددي. نشر Data Center Bridging (DCB) للتكوين الموحد. مراقبة إحصائيات إطار إيقاف PFC لاكتشاف الازدحام. فصل حركة مرور التخزين باستخدام شبكات VLAN أو الشبكات المتراكبة.
تحسين جودة الخدمة: تعيين حركة مرور التخزين لأعلى فئة أولوية. حجز 40% كحد أدنى من عرض النطاق الترددي لتدفقات التخزين. تكوين الطابور العادل الموزون لفئات حركة المرور. تنفيذ تحديد المعدل لمنع التدفقات الفردية من الهيمنة. مراقبة استخدام المخزن المؤقت لمنع الفقدان. ضبط معلمات جودة الخدمة بناءً على أنماط عبء العمل.
التكرار والتوافر العالي: نشر عقد تخزين ثنائية الاتصال لمحولات منفصلة. تنفيذ إدخال/إخراج متعدد المسارات مع مسارات نشطة-نشطة. تكوين تجاوز الفشل التلقائي للمسار في 50 مللي ثانية أو أقل. استخدام التجزئة المتسقة لتوزيع البيانات. الحفاظ على النسخ المتماثل ثلاثي الاتجاهات أو ترميز المحو للمتانة. التصميم لتكرار N+2 على مستوى المكونات.
تنفيذ الأمان: تمكين IPsec أو TLS للتشفير أثناء النقل. تنفيذ التحكم في الوصول القائم على المنطقة للعزل. استخدام مفاتيح المصادقة لاتصالات NVMe-oF. نشر التجزئة الدقيقة للحد من الحركة الجانبية. تدقيق جميع عمليات الوصول للتخزين للامتثال. المسح الأمني المنتظم للثغرات.
تصمم Introl وتنشر بنيات NVMe-oF للبنية التحتية للذكاء الاصطناعي على النطاق الفائق عبر منطقة التغطية العالمية الخاصة بنا، مع خبرة مثبتة في إدارة أنظمة التخزين المفصولة التي تدعم ما يصل إلى 100,000 وحدة معالجة رسومات.⁴ نفذت فرقنا أكثر من 50 نشرًا لـ NVMe-oF تتراوح من 1 بيتابايت إلى 100 بيتابايت.
تقنيات تحسين الأداء
يتطلب تحقيق أقصى أداء لـ NVMe-oF تحسينًا منهجيًا:
ضبط وحدة المعالجة المركزية والمقاطعات: تثبيت مقاطعات NVMe-oF على نوى وحدة معالجة مركزية مخصصة لتجنب حمل المجدول. تعطيل تحجيم تردد وحدة المعالجة المركزية للأداء المتسق. تكوين تقارب NUMA للوصول إلى الذاكرة المحلية. زيادة دمج المقاطعات لتقليل استخدام وحدة المعالجة المركزية. تمكين تعديل المقاطعات التكيفي للتحسين الديناميكي. مراقبة استخدام وحدة المعالجة المركزية لتحديد الاختناقات.
إدارة الذاكرة والمخزن المؤقت: تخصيص صفحات ضخمة لمخازن NVMe-oF المؤقتة لتقليل أخطاء TLB. ضبط إعدادات ذاكرة النواة لأحمال العمل عالية الإنتاجية. تكوين أحجام مخزن المقبس المناسبة لمكدس الشبكة. تنفيذ تجميع الذاكرة لتقليل حمل التخصيص. مراقبة استخدام عرض النطاق الترددي للذاكرة. منع تجزئة الذاكرة من خلال التخصيص الدقيق.
تحسين مكدس التخزين: محاذاة أحجام الإدخال/الإخراج مع حدود صفحات SSD لتحقيق الكفاءة. تكوين أعماق الطابور بين 256-1024 لكل اتصال. تمكين مخازن ذاكرة المتحكم (CMB) لتقليل زمن الاستجابة. تنفيذ جدولة الإدخال/الإخراج المحسنة لخصائص NVMe. تعطيل الميزات غير الضرورية مثل التسجيل اليومي. مراقبة توازن التآكل وجمع القمامة في SSD.
ذكاء وضع عبء العمل: تنفيذ خوارزميات موقع البيانات للحفاظ على البيانات الساخنة بالقرب من الحوسبة. استخدام التجزئة المتسقة لتوزيع البيانات المتوقع. موازنة السعة والأداء عبر عقد التخزين. ترحيل البيانات بناءً على أنماط الوصول. تخزين البيانات المتكررة الوصول مؤقتًا في مستويات أسرع. التنبؤ بأنماط الوصول المستقبلية باستخدام نماذج التعلم الآلي.
مقاييس الأداء من النشر الإنتاجي: - قراءة عشوائية 4 كيلوبايت: 15 مليون IOPS لكل عقدة تخزين - قراءة تسلسلية 128 كيلوبايت: 180 جيجابايت/ثانية لكل عقدة تخزين - متوسط زمن الاستجابة: 5-7 ميكروثانية عبر RoCE - زمن الاستجابة الطرفي (p99.9): 25 ميكروثانية - حمل وحدة المعالجة المركزية: 8-12% لأحمال العمل المشبعة
استكشاف المشكلات الشائعة وإصلاحها
تواجه نشرات NVMe-oF تحديات مميزة تتطلب حلولاً محددة:
ارتفاعات زمن الاستجابة العالية: العرض: زيادات دورية في زمن الاستجابة من 5 ميكروثانية إلى 500 ميكروثانية الأسباب: عواصف PFC، استنفاد المخزن المؤقت، إعادة إرسال TCP الحلول: ضبط عتبات PFC، زيادة مخازن المحول المؤقتة، عزل حركة مرور التخزين المراقبة: تتبع مدة وتكرار إطار الإيقاف المؤقت
تدهور الإنتاجية: العرض: انخفاض الأداء من 180 جيجابايت/ثانية إلى 50 جيجابايت/ثانية الأسباب: ازدحام الشبكة، خنق SSD الحراري، اختناقات وحدة المعالجة المركزية الحلول: تنفيذ تشكيل حركة المرور، تحسين التبريد، توسيع عقد التخزين المراقبة: قياس الاستخدام لكل رابط ودرجات حرارة SSD
فشل الاتصال: العرض: انقطاع اتصالات NVMe-oF بشكل عشوائي الأسباب: مشكلات المصادقة، تذبذب الشبكة، أخطاء برنامج التشغيل الحلول: التحقق من بيانات الاعتماد، فحص الكابلات/البصريات، تحديث برامج التشغيل/البرامج الثابتة المراقبة: تسجيل تغييرات حالة الاتصال وعدادات الأخطاء
اختلالات السعة: العرض: بعض العقد عند سعة 95% بينما أخرى عند 40% الأسباب: ضعف وضع البيانات، انحراف عبء العمل، فشل إعادة التوازن الحلول: تنفيذ تجزئة أفضل، ترحيل البيانات بنشاط، إصلاح الأتمتة المراقبة: تتبع السعة وتوزيع IOPS لكل عقدة
دراسات حالة نشر واقعية
Meta - تحديث البنية التحتية للتدريب: - التحدي: 50,000 وحدة معالجة رسومات مع استخدام تخزين 60% - الحل: نشر NVMe-oF مع 40 بيتابايت تخزين مفصول - البنية: RoCE v2 عبر نسيج 200 جيجابت إيثرنت - النتائج: استخدام 90%، تدريب نموذج أسرع 2.1 مرة - الاستثمار: توفير 45 مليون دولار في شراء التخزين - الابتكار الرئيسي: وضع البيانات التنبؤي باستخدام أنماط الوصول
شركة خدمات مالية - تحليل بيانات التداول: - النطاق: 5,000 وحدة معالجة رسومات تعالج 10 تيرابايت/يوم من بيانات السوق - التخزين: مجمع NVMe-oF بسعة 5 بيتابايت مع وصول أقل من ميلي ثانية - الشبكة: نسيج InfiniBand لزمن استجابة حتمي - الأداء: تم تحقيق متوسط زمن استجابة 3 ميكروثانية - الفائدة: تحليل في الوقت الفعلي لبيانات تاريخية تمتد 20 عامًا - البنية: تخزين متدرج مع NVMe وOptane PMem
شركة مركبات ذاتية القيادة - منصة المحاكاة: - مجموعة البيانات: 100 بيتابايت من لقطات القيادة وبيانات المستشعرات - البنية التحتية: 8,000 وحدة معالجة رسومات مع تخزين مركزي - التقنية: NVMe-oF عبر TCP لتحسين التكلفة - الإنتاجية: 500 جيجابايت/ثانية إج
[تم اقتطاع المحتوى للترجمة]