UALink و CXL 4.0: المعايير المفتوحة التي تعيد تشكيل بنية مجموعات GPU

UALink 1.0 يتحدى NVLink بقدرة توسع تصل إلى 1,024 معالج GPU. CXL 4.0 يضاعف عرض النطاق الترددي إلى 128 GT/s. دليل تقني لمعايير الربط المفتوحة للبنية التحتية للذكاء الاصطناعي.

UALink و CXL 4.0: المعايير المفتوحة التي تعيد تشكيل بنية مجموعات GPU

UALink و CXL 4.0: المعايير المفتوحة التي تعيد تشكيل بنية مجموعات GPU

مواصفات UALink 1.0 المنشورة في أبريل 2025 تتيح التوسع إلى 1,024 معالج مسرّع عبر نسيج واحد، متحديةً بشكل مباشر منظومة NVLink و NVSwitch المملوكة لشركة Nvidia. بعد سبعة أشهر، أصدر اتحاد CXL مواصفات CXL 4.0 في 18 نوفمبر 2025، مضاعفاً عرض النطاق الترددي إلى 128 GT/s ومتيحاً تجميع الذاكرة عبر خزانات متعددة. معاً، تمثل هذه المعايير المفتوحة أكبر تحدٍ لهيمنة Nvidia على الربط البيني منذ أن قدمت الشركة NVLink في عام 2016.

ملخص سريع

يوفر UALink 1.0 سرعة 200 GT/s لكل مسار مع دعم يصل إلى 1,024 معالج مسرّع، مقارنة بحد NVLink الأقصى البالغ 576 معالج GPU. يضاعف CXL 4.0 عرض النطاق الترددي للذاكرة إلى 128 GT/s ويقدم منافذ مجمّعة لأحمال عمل الذكاء الاصطناعي التي تتطلب ذاكرة مشتركة بحجم تيرابايت. ستتوفر الأجهزة الداعمة لـ UALink في أواخر 2026 من AMD و Intel و Astera Labs، بينما تستهدف عمليات نشر CXL 4.0 متعددة الخزانات عام 2027. بالنسبة لفرق البنية التحتية التي تخطط لمجموعات GPU من الجيل القادم، تشير هذه المواصفات إلى تحول نحو بنى معمارية محايدة تجاه الموردين تقلل من التقيد بمورد واحد مع تمكين نطاق غير مسبوق.


مشهد الربط البيني في 2025

تحدد تقنيات الربط البيني لمعالجات GPU مدى فعالية توسع مجموعات الذكاء الاصطناعي. كلما كان تبادل البيانات بين المعالجات المسرّعة أسرع، كانت النماذج التي يمكنها تدريبها أكبر وخدمة طلبات الاستدلال أكثر كفاءة.

تقنيات الربط البيني الحالية

التقنية المالك عرض النطاق الترددي الحد الأقصى للتوسع الحالة
NVLink 5.0 Nvidia 1.8 TB/s لكل GPU 576 GPU في الإنتاج (Blackwell)
NVLink 4.0 Nvidia 900 GB/s لكل GPU 256 GPU في الإنتاج (Hopper)
Infinity Fabric AMD ~1.075 TB/s لكل بطاقة 8 GPU (شبكة مباشرة) في الإنتاج (MI300X)
UALink 1.0 اتحاد 800 GB/s (4 مسارات) 1,024 معالج مسرّع المواصفات منشورة أبريل 2025
CXL 4.0 اتحاد 128 GT/s متعدد الخزانات المواصفات منشورة نوفمبر 2025

يهيمن NVLink من Nvidia على عمليات النشر الإنتاجية، لكن نظام GB200 NVL72 يجسد كلاً من قوته وقيوده: 72 معالج GPU من Blackwell مترابطة بعرض نطاق ترددي إجمالي يبلغ 130 TB/s، لكن حصرياً ضمن منظومة Nvidia المملوكة.


تشكيل الاتحاد

تأسس اتحاد Ultra Accelerator Link في أكتوبر 2024 بأعضاء مؤسسين هم AMD و Astera Labs و AWS و Cisco و Google و HPE و Intel و Meta و Microsoft. يبني هذا الجهد على العمل الذي أعلنته AMD و Broadcom في ديسمبر 2023.

بحلول يناير 2025، انضمت Alibaba Cloud و Apple و Synopsys على مستوى مجلس الإدارة، ليصل إجمالي العضوية إلى 75 منظمة.

المواصفات التقنية

تحدد مواصفات UALink 200G 1.0 ربطاً بينياً منخفض زمن الاستجابة وعالي عرض النطاق الترددي للاتصال بين المعالجات المسرّعة والمبدلات في حجرات حوسبة الذكاء الاصطناعي.

المواصفة UALink 1.0
معدل البيانات لكل مسار 200 GT/s ثنائي الاتجاه
معدل الإشارة 212.5 GT/s (مع حمل FEC الزائد)
عرض الروابط x1، x2، x4
الحد الأقصى لعرض النطاق 800 GB/s (تكوين x4)
الحد الأقصى للتوسع 1,024 معالج مسرّع
طول الكابل <4 أمتار محسّن
هدف زمن الاستجابة <1 µs ذهاباً وإياباً (حمولات 64B/640B)

تخصص مبدلات UALink منفذاً واحداً لكل معالج مسرّع وتستخدم معرفات فريدة من 10 بت للتوجيه الدقيق عبر النسيج.

المقياس UALink 1.0 NVLink 4.0 (Hopper) NVLink 5.0 (Blackwell)
عرض النطاق لكل GPU 800 GB/s 900 GB/s 1.8 TB/s
الروابط لكل GPU 4 18 18
الحد الأقصى للـ GPU 1,024 256 576
التقيد بالمورد معيار مفتوح Nvidia فقط Nvidia فقط
توفر الأجهزة أواخر 2026/2027 في الإنتاج في الإنتاج

يوفر NVLink 5.0 أكثر من 3 أضعاف عرض النطاق الترددي لكل اتصال مقارنة بـ UALink 1.0 (2,538 GB/s مقابل 800 GB/s). ومع ذلك، يدعم UALink ما يقارب ضعف الحجم الأقصى للمجموعة (1,024 مقابل 576 GPU) ويعمل عبر موردين متعددين.

اختلافات فلسفة التصميم

يُحسّن NVLink لـمجموعات GPU المتجانسة الكثيفة حيث يكون الحد الأقصى لعرض النطاق الترددي بين المعالجات المتقاربة هو الأهم. تتفوق التقنية في أنظمة DGX وخزانات NVL72 حيث تأتي جميع المكونات من Nvidia.

يستهدف UALink البنى المعمارية المعيارية على مستوى الخزانة حيث تمزج المؤسسات المعالجات المسرّعة من موردين مختلفين أو تتطلب مجموعات منطقية أكبر. يتيح المعيار المفتوح لسلسلة AMD MI وسلسلة Intel Gaudi والمعالجات المسرّعة المستقبلية التواصل من خلال نسيج مشترك.

الوضع الحالي لـ AMD

يربط Infinity Fabric من AMD ما يصل إلى ثمانية معالجات MI300X أو MI355X في شبكة متصلة بالكامل. يحمل كل MI300X سبعة روابط Infinity Fabric مع 16 مساراً لكل رابط، مما يوفر ما يقارب 1.075 TB/s من عرض النطاق الترددي للاتصال المباشر بين الأقران.

القيد: التوسع إلى ما بعد 8 معالجات GPU يتطلب شبكات Ethernet. تتضمن خارطة طريق AMD تقنية AFL (Accelerated Fabric Link) تعمل عبر روابط PCIe Gen7، بالإضافة إلى اعتماد UALink للتوافق مع الموردين المتعددين.


CXL 4.0: ذاكرة بلا حدود

مشكلة جدار الذاكرة

تصطدم أحمال عمل الذكاء الاصطناعي بشكل متزايد بعنق زجاجة الذاكرة قبل حدود الحوسبة. تتطلب نماذج اللغة الكبيرة تيرابايتات من الذاكرة لذاكرات KV التخزينية المؤقتة أثناء الاستدلال، بينما تتطلب عمليات التدريب المزيد للتنشيطات وحالات المحسّن.

تربط البنى المعمارية التقليدية للخوادم الذاكرة مباشرة بالمعالجات، مما يخلق سعة معطلة عندما تتغير أحمال العمل. يفصل CXL الذاكرة عن الحوسبة، مما يتيح التخصيص الديناميكي عبر العقد.

مواصفات CXL 4.0

أصدر اتحاد CXL مواصفات CXL 4.0 في مؤتمر Supercomputing 2025 بتاريخ 18 نوفمبر 2025.

المواصفة CXL 3.0/3.1 CXL 4.0
معدل الإشارة 64 GT/s 128 GT/s
جيل PCIe PCIe 6.0 PCIe 7.0
عرض النطاق الترددي 256 GB/s (x16) 512 GB/s (x16)
معيدات التوقيت 2 4
عرض الروابط x16، x8، x4، x1 x16، x8، x4، x2، x1
الطوبولوجيا خزانة واحدة متعدد الخزانات

الميزات الرئيسية لـ CXL 4.0

المنافذ المجمّعة: يقدم CXL 4.0 تجميع المنافذ مما يسمح للمضيفين والأجهزة بدمج منافذ فعلية متعددة في اتصال منطقي واحد. يوفر هذا عرض نطاق ترددي أعلى مع الحفاظ على نموذج برمجي بسيط حيث يرى النظام جهازاً واحداً.

النطاق الممتد: تتيح أربع معيدات توقيت تكوينات متعددة الخزانات دون التضحية بجودة الإشارة. قيّد CXL 3.x عمليات النشر على طوبولوجيات الخزانة الواحدة؛ يمتد CXL 4.0 بتجميع الذاكرة عبر ممرات مركز البيانات.

سعة الذاكرة: يتيح تجميع ذاكرة CXL أكثر من 100 تيرابايت من الذاكرة متصلة بمعالج واحد، وهو أمر قيّم للمؤسسات التي تعالج مجموعات بيانات كبيرة أو تشغّل أحمال عمل ذكاء اصطناعي كثيفة الذاكرة.

روابط x2 الأصلية: يقلل خيار عرض رابط x2 الجديد التكلفة للتطبيقات التي تتطلب عرض نطاق ترددي معتدل، مما يحسّن اقتصاديات CXL لعمليات النشر على الحافة.

أداء تجميع ذاكرة CXL

أظهرت العروض التوضيحية في CXL DevCon 2025 خادمين مع معالجات NVIDIA H100 GPU يشغّلان نموذج OPT-6.7B:

التكوين الأداء
تجميع ذاكرة CXL خط الأساس
RDMA 200G أبطأ 3.8 مرة
RDMA 100G أبطأ 6.5 مرة

يوفر CXL وصولاً بدلالات الذاكرة مع زمن استجابة في نطاق 200-500 نانوثانية، مقارنة بـ ~100 ميكروثانية لـ NVMe وأكثر من 10 ملي ثانية لمشاركة الذاكرة القائمة على التخزين.

مكاسب الطاقة والكفاءة

تُظهر الأبحاث أن CXL يمكن أن [يخفض استهلاك طاقة الذاكرة بنسبة 20-30%](https://computeexpresslink.org/blog/over

[المحتوى مختصر للترجمة]

طلب عرض سعر_

أخبرنا عن مشروعك وسنرد خلال 72 ساعة.

> TRANSMISSION_COMPLETE

تم استلام الطلب_

شكراً لاستفسارك. سيقوم فريقنا بمراجعة طلبك والرد خلال 72 ساعة.

QUEUED FOR PROCESSING