الحوسبة المُفككة للذكاء الاصطناعي: بنية البنية التحتية القابلة للتركيب

الحوسبة المُفككة للذكاء الاصطناعي: بنية البنية التحتية القابلة للتركيب

الحوسبة المُفككة للذكاء الاصطناعي: بنية البنية التحتية القابلة للتركيب

آخر تحديث: 11 ديسمبر 2025

تحديث ديسمبر 2025: يحقق تجميع ذاكرة CXL تسريعاً بمقدار 3.8 ضعف مقارنة بـ 200G RDMA، و6.5 ضعف مقارنة بـ 100G RDMA في استدلال النماذج اللغوية الكبيرة. قال جينسن هوانغ: "عندما يمكنك وضع المسرّعات في أي مكان في مركز البيانات وتركيبها وإعادة تهيئتها لأحمال عمل محددة - هذه ثورة." تكسر البنية التحتية القابلة للتركيب نسب الخوادم الثابتة لتتطابق ديناميكياً مع متطلبات أحمال عمل الذكاء الاصطناعي بدقة.

يحقق تجميع ذاكرة CXL تسريعاً بمقدار 3.8 ضعف مقارنة بـ 200G RDMA و6.5 ضعف مقارنة بـ 100G RDMA عند مشاركة الذاكرة عبر خوادم GPU التي تشغّل استدلال النماذج اللغوية الكبيرة.[^1] استخدم العرض التوضيحي خادمين مزودين بوحدات معالجة الرسومات NVIDIA H100 يشغّلان نموذج OPT-6.7B، موضحاً كيف تُسرّع ذاكرة CXL المشتركة أحمال عمل الذكاء الاصطناعي بما يتجاوز ما تتيحه الشبكات التقليدية. وكما أشار جينسن هوانغ من NVIDIA: "عندما تكون قادراً على تفكيك الخادم المُدمج، عندما يمكنك وضع المسرّعات في أي مكان في مركز البيانات ثم تركيب وإعادة تهيئة مركز البيانات لهذا الحمل العمل المحدد - هذه ثورة."[^2]

تمثل البنية التحتية القابلة للتركيب نهجاً معمارياً حيث توجد موارد الحوسبة والتخزين والشبكات كمجمعات مُجردة تُدار بشكل مستقل من خلال مستويات التحكم المُعرّفة برمجياً.[^3] على عكس البنى التقليدية التي تربط المعالج والذاكرة والتخزين والشبكات بخوادم محددة، تتعامل البنية التحتية القابلة للتركيب مع موارد الأجهزة كمجمعات مرنة تُخصص ديناميكياً عبر أحمال العمل. يَعِد هذا النهج بتحسينات جذرية في استخدام الموارد ومرونة النشر للبنية التحتية للذكاء الاصطناعي.

كسر حدود الخادم

تُحزّم الخوادم التقليدية نسباً ثابتة من المعالج والذاكرة ووحدة معالجة الرسومات والتخزين. نادراً ما تتطابق أحمال عمل الذكاء الاصطناعي مع هذه النسب الثابتة. تتطلب مهام التدريب أقصى كثافة لوحدات GPU مع متطلبات معالج متواضعة نسبياً. قد تحتاج أحمال عمل الاستدلال إلى ذاكرة أكبر لكل GPU مما توفره التكوينات القياسية. تتطلب خطوط المعالجة المسبقة سعة المعالج والتخزين دون وحدات GPU.

تكسر البنية التحتية القابلة للتركيب حدود الخادم، مما يسمح للمؤسسات بتجميع أنظمة افتراضية تتطابق مع متطلبات أحمال العمل بدقة.[^4] يتلقى حمل عمل التدريب تركيبة من 8 وحدات GPU، وحد أدنى من المعالج، وتخزين عالي النطاق الترددي. يتلقى حمل عمل الاستدلال وحدتي GPU مع ذاكرة موسعة. تخدم نفس الموارد المادية كلا الحملين في أوقات مختلفة دون إعادة تهيئة الأجهزة.

نموذج التفكيك

تفصل البنى المُفككة العقد المادية إلى أنواع موارد مخصصة: عقد الحوسبة، وعقد الذاكرة، وعقد GPU، وعقد التخزين.[^5] تربط الأنسجة عالية السرعة العقد، مما يُمكّن البرمجيات من تركيب أنظمة منطقية من موارد مادية موزعة. يحدث التركيب في البرمجيات دون إعادة التوصيل المادي.

لم تعد الموارد خاملة في انتظار أحمال عمل محددة. تخدم عقدة GPU مهام التدريب خلال ساعات الذروة ومهام الاستدلال ليلاً. توسّع عقد الذاكرة السعة لأحمال العمل كثيفة الذاكرة دون الإفراط في تزويد كل خادم. تحسّن المرونة الاستخدام مع تقليل إجمالي متطلبات الأجهزة.

CXL يُمكّن تجميع الذاكرة

يوفر Compute Express Link (CXL) الوصلة البينية المتماسكة للذاكرة المؤقتة التي تُمكّن تفكيك الذاكرة العملي.[^6] يوفر CXL وصولاً بدلالات الذاكرة مع زمن استجابة في نطاق 200-500 نانوثانية، مقارنة بحوالي 100 ميكروثانية لـ NVMe وأكثر من 10 ميلي ثانية لمشاركة الذاكرة القائمة على التخزين.[^7] يُمكّن تحسين زمن الاستجابة مشاركة الذاكرة الديناميكية والدقيقة حقاً عبر عقد الحوسبة.

كيف يعمل تجميع ذاكرة CXL

تُنشئ مجمعات ذاكرة CXL طبقة جديدة من الذاكرة عالية السرعة والمُفككة التي تُعيد تشكيل كيفية بناء المؤسسات للبنية التحتية للذكاء الاصطناعي.[^8] تصل عقد المعالج إلى الذاكرة المُجمّعة كما لو كانت متصلة محلياً، مع تولي نسيج CXL التماسك ونقل البيانات بشفافية. ترى التطبيقات سعة ذاكرة موسعة دون تعديل.

يُمكّن CXL Memory Box تجميع الذاكرة عبر خوادم GPU متعددة، مما يسمح بالوصول إلى مجمعات ذاكرة أكبر مما توفره الخوادم الفردية.[^9] تستفيد أحمال عمل الذكاء الاصطناعي التي تعالج مجموعات بيانات تتجاوز سعة الذاكرة المحلية من الذاكرة المُجمّعة دون عقوبات أداء الوصول التقليدي للذاكرة البعيدة. يُمكّن هذا النهج أحجام دفعات أكبر ونوافذ سياق أطول دون ترقية الخوادم الفردية.

ما وراء الذاكرة: تجميع الموارد الكامل

يُمكّن CXL أكثر من تجميع الذاكرة. يدعم المعيار الاتصالات القابلة للتركيب بين المعالجات ومخازن الذاكرة المؤقتة والمسرّعات.[^10] تتصل وحدات GPU وFPGA وDPU والمسرّعات الأخرى من خلال نسيج CXL للتخصيص الديناميكي عبر أحمال العمل.

تمتد الرؤية إلى تفكيك الموارد الكامل حيث لا يرتبط أي مورد بشكل دائم بأي مورد آخر. تبني المؤسسات مجمعات موارد مُحجّمة للطلب الإجمالي بدلاً من ذروة الطلب لكل حمل عمل. تُركّب التنظيم البرمجي الموارد المناسبة لكل حمل عمل في الوقت الفعلي.

حلول الصناعة

يقدم العديد من الموردين حلول البنية التحتية القابلة للتركيب التي تلبي متطلبات أحمال عمل الذكاء الاصطناعي.

منصة Liqid القابلة للتركيب

أطلقت Liqid خوادم GPU قابلة للتركيب مع تجميع ذاكرة CXL 2.0 تدعم ما يصل إلى 100 تيرابايت من الذاكرة القابلة للتركيب المُفككة.[^11] تتضمن المنصة صندوق GPU ذو 10 فتحات EX-5410P يدعم وحدات GPU بقدرة 600 واط بما في ذلك NVIDIA H200 وRTX Pro 6000 ومسرّعات Intel Gaudi 3. ينظم برنامج Matrix تركيب الموارد عبر منصة الأجهزة.

يُحزّم نهج Liqid قابلية التركيب في حلول متكاملة بدلاً من مطالبة العملاء بتصميم أنظمة مُفككة من المكونات. تكتسب المؤسسات فوائد قابلية التركيب دون بناء خبرة في تصميم الأنسجة وتطوير برامج التنظيم.

أنظمة IBM Research القابلة للتركيب

تستكشف IBM Research معايير CXL لبناء أنظمة قابلة للتركيب بالكامل عبر نسيج عالي السرعة ومنخفض زمن الاستجابة.[^12] في بنيتهم، توجد الموارد كجزء من مجمعات كبيرة متصلة عبر نسيج الشبكة بدلاً من تجميعها بشكل ثابت في الخوادم. تتجمع الموارد القابلة للتركيب معاً لإعادة إنشاء تجريدات الخادم التي تتطابق مع متطلبات أحمال العمل المحددة.

يعالج برنامج البحث التحديات بما في ذلك تصميم طوبولوجيا الأنسجة وتحسين زمن الاستجابة والتنظيم البرمجي للبنية التحتية القابلة للتركيب للذكاء الاصطناعي. يُعزز العمل فهم كيفية عمل الأنظمة القابلة للتركيب على نطاق الإنتاج.

تعاون GigaIO وMicrochip

طورت GigaIO وMicrochip بنية تحتية مُفككة قابلة للتركيب على مستوى السحابة تجمع بين تقنيات PCIe وCXL.[^13] يستهدف النهج مراكز البيانات التي تتطلب مرونة الموارد القابلة للتركيب مع خصائص أداء الأجهزة المتصلة مباشرة.

الاعتبارات المعمارية

يتطلب تنفيذ البنية التحتية القابلة للتركيب قرارات معمارية تمتد عبر تصميم الأنسجة وبرامج التنظيم وإدارة أحمال العمل.

طوبولوجيا الأنسجة

يحدد نسيج الربط البيني زمن الاستجابة والنطاق الترددي القابلين للتحقيق بين الموارد المُفككة. يجب أن توفر أنسجة CXL نطاقاً ترددياً كافياً لأنماط الوصول بسرعة الذاكرة مع الحفاظ على زمن الاستجابة ضمن حدود مقبولة. تؤثر طوبولوجيا الأنسجة على كل من الأداء والتكلفة.

توفر طوبولوجيات المحولات مرونة ولكنها تضيف زمن استجابة مقارنة بالاتصالات المباشرة. تعتمد المفاضلة بين تعقيد الطوبولوجيا وميزانية زمن الاستجابة على متطلبات أحمال العمل المحددة. تتطلب أحمال العمل كثيفة الذاكرة زمن استجابة أقل من أحمال العمل كثيفة التخزين.

متطلبات التنظيم

يدير التنظيم البرمجي تركيب الموارد، ويتعامل مع طلبات التخصيص، ويتتبع حالة الموارد، ويحافظ على العزل بين التركيبات. يجب أن تستجيب طبقة التنظيم بسرعة كافية لدعم تغييرات أحمال العمل الديناميكية دون أن تصبح عنق زجاجة.

يُمكّن تكامل Kubernetes الموارد القابلة للتركيب من خدمة أحمال عمل الذكاء الاصطناعي المُحتواة باستخدام بدائيات التنظيم المألوفة. يدير GPU Operator والإضافات المماثلة موارد المسرّعات، مع إضافات قابلية التركيب التي تُمكّن تخصيص مجمع GPU الديناميكي.

اعتبارات نطاق الفشل

يغير التفكيك خصائص نطاق الفشل. تؤثر عقدة الذاكرة الفاشلة على جميع التركيبات التي تستخدم تلك الذاكرة بدلاً من خادم واحد. يتوسع نطاق الانفجار لفشل المكونات مقارنة ببنى الخوادم المُدمجة.

يجب أن تأخذ استراتيجيات التكرار في الاعتبار أوضاع الفشل المُفككة. تتطلب مجمعات الذاكرة تكراراً عبر العقد المادية. يجب أن تتجنب سياسات التركيب تركيز أحمال العمل الحرجة على الموارد المشتركة. يجب أن تتتبع المراقبة الصحة عبر النسيج بدلاً من الخوادم الفردية.

خبرة نشر البنية التحتية

يتجاوز تعقيد البنية التحتية القابلة للتركيب نشر الخوادم التقليدية. يتطلب تركيب الأنسجة والتحقق من الأداء وتكوين التنظيم خبرة متخصصة تفتقر إليها معظم المؤسسات داخلياً.

يدعم 550 مهندساً ميدانياً من Introl المؤسسات في تنفيذ بنى البنية التحتية المتقدمة بما في ذلك الأنظمة القابلة للتركيب والمُفككة.[^14] احتلت الشركة المرتبة 14 في قائمة Inc. 5000 لعام 2025 مع نمو بنسبة 9,594% على مدى ثلاث سنوات، مما يعكس الطلب على خدمات البنية التحتية المهنية.[^15] تستفيد عمليات النشر القابلة للتركيب من الخبرة في تركيب الأنسجة عالية السرعة والتحقق منها.

يتطلب نشر البنية التحتية عبر 257 موقعاً عالمياً ممارسات متسقة بغض النظر عن الجغرافيا.[^16] تدير Introl عمليات النشر التي تصل إلى 100,000 وحدة GPU مع أكثر من 40,000 ميل من البنية التحتية لشبكة الألياف البصرية، مما يوفر نطاقاً تشغيلياً للمؤسسات التي تبني بنية تحتية قابلة للتركيب للذكاء الاصطناعي.[^17]

المستقبل القابل للتركيب

ستُمكّن البنى المُفككة والمُشاركة للموارد البنية التحتية لمعالجة البيتابايتات من البيانات اللازمة للذكاء الاصطناعي والتعلم الآلي وتقنيات البيانات الكثيفة الأخرى.[^18] سيتسارع اعتماد CXL مع نضوج المعيار وانتشار حلول الموردين.

يجب على المؤسسات التي تخطط لاستثمارات البنية التحتية للذكاء الاصطناعي تقييم البنى القابلة للتركيب لعمليات النشر حيث يجعل تباين أحمال العمل الخوادم ذات النسب الثابتة غير فعالة. تتضاعف فوائد المرونة مع الحجم: تحقق عمليات النشر الأكبر تحسينات استخدام أفضل من تجميع الموارد.

يمثل الانتقال من البنية التحتية المُدمجة إلى القابلة للتركيب تحولاً جوهرياً في بنية مراكز البيانات. تكتسب المؤسسات التي تتقن النشر القابل للتركيب مزايا مرونة تترجم إلى كفاءة التكلفة وسرعة النشر. تبدأ الثورة التي وصفها جينسن هوانغ بفهم كيف يغير التفكيك اقتصاديات البنية التحتية.

النقاط الرئيسية

لمهندسي البنية التحتية: - يحقق تجميع ذاكرة CXL تسريعاً بمقدار 3.8 ضعف مقابل 200G RDMA و6.5 ضعف مقابل 100G RDMA لأحمال عمل استدلال النماذج اللغوية الكبيرة - زمن استجابة CXL: 200-500 نانوثانية للوصول بدلالات الذاكرة مقابل ~100 ميكروثانية NVMe مقابل >10 ميلي ثانية للمشاركة القائمة على التخزين - يُمكّن التفكيك: تركيب 8 GPU للتدريب، 2 GPU + ذاكرة موسعة للاستدلال، من نفس مجمع الأجهزة

لفرق المشتريات: - Liqid EX-5410P: صندوق GPU ذو 10 فتحات يدعم وحدات GPU بقدرة 600 واط (H200، RTX Pro 6000، Gaudi 3) مع تجميع ذاكرة CXL بسعة 100 تيرابايت - تُهدر الخوادم ذات النسب الثابتة التقليدية الموارد: يحتاج التدريب أقصى GPU مع معالج متواضع؛ يحتاج الاستدلال ذاكرة أكبر لكل GPU - يقلل القابل للتركيب إجمالي الأجهزة بتجميع الموارد عبر أحمال العمل؛ تخدم عقد GPU التدريب نهاراً والاستدلال ليلاً

لمهندسي المنصات: - تستكشف IBM Research CXL لأنظمة قابلة للتركيب بالكامل عبر نسيج عالي السرعة ومنخفض زمن الاستجابة - تعاون GigaIO/Microchip: قابل للتركيب على مستوى السحابة يجمع بين تقنيات PCIe وCXL - تكامل Kubernetes من خلال إضافات GPU Operator يُمكّن الموارد القابلة للتركيب مع تنظيم مألوف

لفرق العمليات: - تغيير نطاق الفشل: تؤثر عقدة الذاكرة الفاشلة على جميع التركيبات التي تستخدمها مقابل خادم واحد في البنية المُدمجة - يجب أن تأخذ استراتيجيات التكرار في الاعتبار أوضاع الفشل المُفككة؛ تجنب تركيز أحمال العمل على الموارد المشتركة - تحل مراقبة صحة الأنسجة محل مراقبة الخوادم الفردية؛ تمنع سياسات التركيب

[تم اقتطاع المحتوى للترجمة]

طلب عرض سعر_

أخبرنا عن مشروعك وسنرد خلال 72 ساعة.

> TRANSMISSION_COMPLETE

تم استلام الطلب_

شكراً لاستفسارك. سيقوم فريقنا بمراجعة طلبك والرد خلال 72 ساعة.

QUEUED FOR PROCESSING