هندسة خطوط أنابيب البيانات للذكاء الاصطناعي: تغذية التدريب على نطاق البيتابايت بسرعة 100 جيجابايت/ثانية

تقضي خدمة معالجة البيانات المسبقة (DPP) من Meta الآن على توقفات البيانات عبر مجموعات التدريب على نطاق الإكسابايت. يحقق WEKApod إنتاجية 720 جيجابايت/ثانية من 8 عقد تخزين تغذي 768 وحدة H100 GPU. أقراص PCIe Gen5 NVMe SSD تتجاوز 14 جيجابايت/ثانية...

هندسة خطوط أنابيب البيانات للذكاء الاصطناعي: تغذية التدريب على نطاق البيتابايت بسرعة 100 جيجابايت/ثانية

هندسة خطوط أنابيب البيانات للذكاء الاصطناعي: تغذية التدريب على نطاق البيتابايت بسرعة 100 جيجابايت/ثانية

آخر تحديث: 11 ديسمبر 2025

تحديث ديسمبر 2025: تقضي خدمة معالجة البيانات المسبقة (DPP) من Meta الآن على توقفات البيانات عبر مجموعات التدريب على نطاق الإكسابايت. يحقق WEKApod إنتاجية 720 جيجابايت/ثانية من 8 عقد تخزين تغذي 768 وحدة H100 GPU. أصبحت أقراص PCIe Gen5 NVMe SSD التي تتجاوز 14 جيجابايت/ثانية في القراءة التسلسلية معياراً قياسياً لطبقة تخزين التدريب. تقلل مخازن الميزات وهندسات التخزين المؤقت المتدرجة من زمن الوصول للبيانات الباردة بمقدار 10 أضعاف.

اكتشفت Meta أن 56% من دورات GPU كانت متوقفة في انتظار بيانات التدريب.[^1] تخزن الشركة إكسابايتات من بيانات التدريب في Tectonic، نظام الملفات الموزع الخاص بها، لكنها كانت تفتقر إلى سعة التخزين للحفاظ على مجموعات البيانات بحجم البيتابايت محلياً بالقرب من أجهزة التدريب.[^2] تطلب الحل بناء خدمة معالجة البيانات المسبقة (DPP) التي تتوسع للقضاء على توقفات البيانات بالكامل. تواجه المؤسسات التي تدرب نماذج كبيرة نفس التحدي الأساسي: أقوى وحدات GPU لا تحقق شيئاً أثناء انتظار بيانات الإدخال.

يحدد التخزين الذي يغذي تدريب الذكاء الاصطناعي ما إذا كانت استثمارات GPU تحقق العوائد المتوقعة. يحقق WEKApod أكثر من 720 جيجابايت/ثانية إنتاجية و18 مليون IOPS مع زمن استجابة أقل من 150 ميكروثانية، مما يغذي 768 وحدة H100 GPU من 8 عقد تخزين فقط.[^3] يستخدم الحاسوب الفائق RSC من Meta 46 بيتابايت من التخزين المؤقت للحفاظ على تغذية وحدات GPU.[^4] تطلب تدريب GPT-4 حوالي 25,000 وحدة A100 GPU تعالج 13 تريليون رمز على مدى 90-100 يوم.[^5] على نطاق واسع، تصبح هندسة خط أنابيب البيانات بنفس أهمية هندسة الحوسبة.

تحدي خط أنابيب البيانات

تتطلب نماذج اللغة الكبيرة الوصول إلى بيتابايتات من البيانات عالية الجودة والمعالجة مسبقاً. بدون تخزين سريع وموثوق، حتى أقوى وحدات GPU تبقى خاملة في انتظار الإدخال.[^6] تمكّن طبقة الأداء من البنية التحتية للتخزين التدفق السلس للبيانات عبر مراحل خط الأنابيب كثيفة الحوسبة: التطبيع والتحويل إلى رموز والتدريب.

يتضمن خط أنابيب التعلم الآلي النموذجي معالجة البيانات المسبقة التي تديرها وحدات CPU، وتدريب النموذج الذي ينقل إلى وحدات GPU، والمعالجة اللاحقة التي تعود إلى وحدات CPU.[^7] تحدث الاختناقات عند نقل البيانات بين ذاكرة CPU RAM وذاكرة GPU DRAM. يخلق عدم التوافق بين إنتاجية التخزين وعرض نطاق الشبكة وحوسبة المعالجة المسبقة واستهلاك GPU توقفات تهدر سعة المعجّلات باهظة الثمن.

هندسة تخزين البيانات واستيعابها في Meta

يتكون خط أنابيب DSI الشامل من Meta من مستودع بيانات مركزي مبني على تخزين موزع وخدمة معالجة البيانات المسبقة التي تتوسع في المعالجة المسبقة بشكل مستقل عن حوسبة التدريب.[^8] تفصل الهندسة التخزين والمعالجة المسبقة والتدريب إلى طبقات قابلة للتوسع منفصلة.

يعمل Tectonic كنظام ملفات موزع على نطاق الإكسابايت من Meta، مما يوفر بنية تحتية للتخزين المفصول لنماذج تدريب الذكاء الاصطناعي.[^9] تدرب الشركة النماذج على مجموعات بيانات بحجم التيرابايت إلى البيتابايت دون سعة تخزين محلية تطابق تلك الأحجام. يمكّن التخزين المفصول من تخصيص الموارد المرن لكنه يتطلب شبكات عالية النطاق الترددي تربط التخزين بالحوسبة.

يتلقى DPP Master مواصفات الجلسة التي تحتوي على جداول مجموعات البيانات والأقسام والميزات المطلوبة وعمليات التحويل.[^10] يقسم Master أعباء عمل المعالجة المسبقة عبر بيتابايتات من البيانات إلى عناصر عمل مستقلة ومكتفية ذاتياً تسمى الشرائح. يطلب عمال DPP الشرائح من Master وينفذون تحويلات المعالجة المسبقة، مما يفصل إنتاجية المعالجة المسبقة عن سعة CPU لعقدة التدريب.

التسلسل الهرمي للتخزين والتخزين المؤقت

تبني Meta نحو حلول تخزين متدرجة تجمع بين الأقراص الصلبة HDD وأقراص SSD، مع عمل أقراص SSD كطبقات تخزين مؤقت للميزات عالية إعادة الاستخدام.[^11] لا تتطلب جميع بيانات التدريب نفس أنماط الوصول: تستفيد الميزات التي يتم الوصول إليها بشكل متكرر من تخزين الفلاش بينما تبقى البيانات الباردة على وسائط محسّنة للسعة.

تقلل استراتيجية التخزين المؤقت تكاليف التخزين دون التضحية بإنتاجية التدريب. تخدم البيانات الساخنة الموجودة في الطبقات السريعة غالبية القراءات بينما تتدفق البيانات الباردة من تخزين السعة خلال الحقب الأولية. يمكّن فهم أنماط الوصول إلى البيانات من اتخاذ قرارات تدرج ذكية توازن بين التكلفة والأداء.

تقنيات التخزين لتدريب الذكاء الاصطناعي

تخدم تقنيات التخزين المختلفة أدواراً مختلفة في خطوط أنابيب بيانات الذكاء الاصطناعي. يعتمد الاختيار على أنماط الوصول ومتطلبات السعة وقيود الميزانية.

أنظمة الملفات المتوازية

تقدم أنظمة الملفات المتوازية مثل Lustre وGPFS أداءً استثنائياً مع تزامن هائل، مما يجعلها مثالية لأعباء عمل الذكاء الاصطناعي كثيفة الإدخال/الإخراج المتزامن.[^12] تقوم هذه الأنظمة بتوزيع البيانات عبر العديد من خوادم التخزين، مما يوفر عرض نطاق إجمالي يتوسع مع عدد الخوادم.

تقدم Google Cloud خدمة Managed Lustre كذاكرة تخزين مؤقت عالية الأداء فوق Cloud Storage، مما يسرّع أعباء عمل الذكاء الاصطناعي التي تتطلب إنتاجية عالية للغاية وعمليات إدخال/إخراج منخفضة زمن الاستجابة.[^13] تستورد المؤسسات وتصدر البيانات بين Managed Lustre وCloud Storage، باستخدام نظام الملفات المتوازي كطبقة أداء للتدريب النشط مع الحفاظ على البيانات في تخزين الكائنات للمتانة.

تخزين NVMe

تتجاوز أقراص PCIe Gen5 NVMe SSD إنتاجية قراءة تسلسلية تبلغ 14 جيجابايت/ثانية وتتعامل مع ملايين من عمليات IOPS للقراءة العشوائية.[^14] تقضي هذه التقنية على التخزين كعنق زجاجة عند تدريب نماذج الذكاء الاصطناعي على عشرات التيرابايتات من البيانات. ضاعف اعتماد PCIe Gen5 خلال 2024-2025 الإنتاجية لكل مسار إلى حوالي 4 جيجابايت/ثانية لكل مسار، ليصل إلى 64 جيجابايت/ثانية في تكوينات x16.

يوسع NVMe-oF (NVMe over Fabrics) أداء NVMe عبر الشبكات، مما يمكّن من هندسات التخزين المفصول التي تحافظ على زمن استجابة قريب من المحلي. تصل مجموعات التدريب إلى مجمعات تخزين NVMe المشتركة دون التضحية بمزايا أداء الأقراص المتصلة مباشرة.

تخزين الكائنات للبيانات الباردة

يوفر تخزين الكائنات سعة فعالة من حيث التكلفة لمجموعات البيانات بحجم البيتابايت التي تتحمل زمن استجابة أعلى. تخزن شركة تجارة إلكترونية كبيرة مئات البيتابايتات من بيانات التدريب في AWS S3، مع توزيع أعباء عمل تدريب الذكاء الاصطناعي/التعلم الآلي عبر مناطق AWS متعددة ومراكز البيانات المحلية.[^15]

يعمل تخزين الكائنات بشكل أفضل لأنماط الاستيعاب الدفعي حيث تقوم مهام التدريب بتحميل البيانات إلى طبقات أسرع قبل بدء المعالجة المكثفة. تفضل الاقتصاديات تخزين الكائنات للأرشيف والنسخ الاحتياطي بينما تتعامل طبقات الأداء مع إدخال/إخراج التدريب النشط.

المعالجة المسبقة على نطاق واسع

تستهلك المعالجة المسبقة للبيانات موارد حوسبة كبيرة وغالباً ما تصبح عنق الزجاجة الذي يمنع الاستخدام الكامل لـ GPU. أظهرت تجربة Meta أن وحدات CPU على عقد المدرب لم تستطع معالجة البيانات مسبقاً بسرعة كافية لخدمة وحدات GPU، مما حفز هندسة DPP الموزعة.[^16]

عمال المعالجة المسبقة الموزعين

تتوسع هندسة DPP في عمال المعالجة المسبقة بشكل مستقل عن عقد التدريب.[^17] تتطلب إضافة سعة المعالجة المسبقة فقط إضافة مثيلات عمال، وليس تعديل بنية التدريب التحتية. يمكّن الفصل المؤسسات من تحديد حجم حوسبة المعالجة المسبقة المناسب لمجموعات بيانات محددة وتعقيد التحويل.

تنفذ مثيلات العمال عمليات التحويل بما في ذلك التنظيف والتطبيع والتحويل إلى رموز واستخراج الميزات. تتطلب التحويلات المعقدة المزيد من حوسبة المعالجة المسبقة لكل وحدة إنتاجية تدريب. قد تواكب التحويلات البسيطة التدريب باستخدام موارد معالجة مسبقة ضئيلة.

المعالجة المسبقة المعجّلة

تنفذ جهود الصناعة بشكل متزايد عمليات تحويل المعالجة المسبقة على المعجّلات بدلاً من وحدات CPU.[^18] تنقل NVIDIA DALI (مكتبة تحميل البيانات) فك تشفير الصور والتعزيز وتحويل التنسيق إلى وحدات GPU. تقضي المعالجة المسبقة المعجّلة على اختناقات CPU لخطوط أنابيب تدريب الصور والفيديو.

يتطلب نقل المعالجة المسبقة إلى وحدات GPU تصميم خط أنابيب دقيق لتجنب إنشاء اختناقات جديدة. تقلل ذاكرة GPU المستخدمة للمعالجة المسبقة من الذاكرة المتاحة لمعلمات النموذج والتنشيطات. يعتمد التوازن بين تسريع المعالجة المسبقة وسعة التدريب على خصائص عبء العمل.

مخازن الميزات

توصي Google باستخدام Vertex AI Feature Store للميزات الجاهزة للخدمة عبر الإنترنت.[^19] تحسب مخازن الميزات مسبقاً وتخزن قيم الميزات، مما يلغي الحساب المتكرر عبر جولات التدريب. يضمن جدولة مهام هندسة الميزات لحساب قيم ميزات جديدة بانتظام بالإيقاع المطلوب بيانات حديثة دون عبء المعالجة المسبقة في الوقت الفعلي.

تثبت مخازن الميزات قيمة خاصة لنماذج التوصية حيث يتجاوز تعقيد حساب الميزات ميزانيات الوقت لكل طلب. يمكن لكل من التدريب والاستدلال الوصول إلى نفس الميزات المحسوبة مسبقاً، مما يحافظ على الاتساق بين التطوير والإنتاج.

هندسة الشبكة لخطوط أنابيب البيانات

توفر الوصلات عالية النطاق الترددي الأساس لهندسات التخزين المفصول. يوفر InfiniBand وRoCE (RDMA over Converged Ethernet) زمن استجابة منخفض للغاية وإنتاجية عالية ضرورية للتدريب الموزع عبر مجموعات GPU والوصول السريع لمجموعات البيانات.[^20]

تصميم شبكة التخزين

يجب أن تطابق شبكات التخزين إنتاجية القراءة الإجمالية مع استهلاك تدريب GPU. قد تتطلب مجموعة من 1,000 وحدة H100 GPU تدرب عبء عمل متطلب للبيانات عشرات الجيجابايتات في الثانية من إنتاجية التخزين المستدامة. يجب أن تتجاوز سعة الشبكة بين طبقات التخزين والحوسبة هذا المتطلب مع هامش لأنماط الانفجار.

تؤثر طوبولوجيا الشبكة على الإنتاجية القابلة للتحقيق. توفر طوبولوجيات Fat-tree عرض نطاق تقسيم كامل لكنها تكلف أكثر من التصميمات ذات الاشتراك الزائد. تستفيد أعباء عمل التدريب ذات إدخال/إخراج التخزين الثقيل من الأقمشة غير المحجوبة التي تقضي على ازدحام الشبكة كعنق زجاجة.

تحسين نقل البيانات

تضمن تقنيات تحسين نقل البيانات بما في ذلك الإدخال/الإخراج المتوازي والجلب المسبق والتخزين المؤقت والضغط وتحسين موقع البيانات حركة بيانات فعالة بين أنظمة التخزين وعقد الحوسبة.[^21] يتوقع الجلب المسبق متطلبات البيانات ويجهز البيانات قبل أن تطلبها عقد الحوسبة. يقلل الضغط متطلبات عرض نطاق الشبكة على حساب دورات الحوسبة.

تقلل تجميع البيانات تكرار المعاملات، مما يوزع العبء لكل طلب عبر عمليات نقل أكبر.[^22] تقلل تصفية البيانات حجم العينة قبل الإرسال إلى وحدات GPU، مما يقلل كلاً من قراءات التخزين وعمليات نقل الشبكة. يمكن لمجموعة التقنيات تقليل متطلبات عرض نطاق التخزين الفعالة بشكل كبير.

بناء خطوط أنابيب البيانات على نطاق واسع

تحتاج المؤسسات التي تنشر بنية تحتية للتدريب على نطاق البيتابايت إلى مناهج متكاملة للتخزين والمعالجة المسبقة والشبكات تطابق سعة حوسبة GPU.

تخطيط السعة

يجب أن يأخذ تخطيط سعة التخزين في الاعتبار نمو بيانات التدريب إلى جانب توسيع النموذج. تنمو مجموعات بيانات التدريب مع تراكم المؤسسات المزيد من البيانات وسعيها نحو نماذج أكبر تتطلب المزيد من الرموز. تتضاعف متطلبات السعة مع احتفاظ المؤسسات بإصدارات متعددة من مجموعات البيانات لقابلية التكرار.

يثبت تخطيط الإنتاجية أنه أكثر تحدياً من تخطيط السعة. تختلف العلاقة بين حجم النموذج وحجم الدفعة ومتطلبات إنتاجية البيانات حسب الهندسة وتكوين التدريب. يوفر اختبار أعباء عمل محددة على البنية التحتية المستهدفة أكثر متطلبات الإنتاجية موثوقية.

خبرة نشر البنية التحتية

يطابق تعقيد بنية خط أنابيب البيانات التحتية أو يتجاوز تعقيد بنية الحوسبة التحتية. يجب أن تتكامل أنظمة التخزين والشبكات عالية السرعة وخدمات المعالجة المسبقة بسلاسة مع مجموعات GPU. تخلق أخطاء التكوين في أي مكون اختناقات تهدر استثمار GPU.

تتخصص شبكة Introl المكونة من 550 مهندساً ميدانياً في عمليات نشر البنية التحتية المتكاملة التي يتطلبها تدريب الذكاء الاصطناعي على نطاق واسع.[^23] احتلت الشركة المرتبة رقم 14 في قائمة Inc. 5000 لعام 2025 بنمو ثلاث سنوات بنسبة 9,594%، مما يعكس الطلب على خدمات البنية التحتية المهنية.[^24] تستفيد المؤسسات التي تبني مجموعات التدريب من خبرة النشر التي تعالج التخزين والشبكات والحوسبة كنظام متكامل.

تتطلب إدارة عمليات النشر التي تصل إلى 100,000 وحدة GPU مع أكثر من 40,000 ميل من البنية التحتية لشبكة الألياف البصرية نطاقاً تشغيلياً يطابق أكبر مبادرات التدريب

طلب عرض سعر_

أخبرنا عن مشروعك وسنرد خلال 72 ساعة.

> TRANSMISSION_COMPLETE

تم استلام الطلب_

شكراً لاستفسارك. سيقوم فريقنا بمراجعة طلبك والرد خلال 72 ساعة.

QUEUED FOR PROCESSING