دليل تخطيط البنية التحتية لـ CXL 4.0: تجميع الذاكرة للذكاء الاصطناعي على نطاق واسع
13 ديسمبر 2025
تحديث ديسمبر 2025: أصدر اتحاد CXL الإصدار 4.0 في 18 نوفمبر 2025، مضاعفاً عرض النطاق الترددي إلى 128 GT/s عبر PCIe 7.0 ومقدماً المنافذ المجمعة لاتصالات بسرعة 1.5 TB/s. يغطي هذا الدليل تخطيط النشر للمؤسسات التي تستعد لتطبيق تجميع الذاكرة القائم على CXL في بنيتها التحتية للذكاء الاصطناعي.
ملخص تنفيذي
يتيح CXL 4.0 تجميع الذاكرة على نطاق غير مسبوق، مما يسمح لأحمال عمل استدلال الذكاء الاصطناعي بالوصول إلى أكثر من 100 تيرابايت من الذاكرة المشتركة مع تماسك ذاكرة التخزين المؤقت عبر أرفف متعددة. تجمع المنافذ المجمعة في المواصفات اتصالات فعلية متعددة في مرفقات منطقية واحدة تقدم عرض نطاق ترددي يبلغ 1.5 TB/s. بالنسبة لمخططي البنية التحتية، تتمحور القرارات الرئيسية حول فهم موعد اعتماد CXL (2026-2027 للإنتاج)، والمنتجات التي يجب تقييمها الآن (محولات CXL 2.0/3.0 متوفرة للشحن)، وكيف يكمل CXL تقنيات NVLink وUALink بدلاً من استبدالها. يقدم هذا الدليل العمق التقني وأطر اتخاذ القرار اللازمة لتخطيط نشر CXL.
مشكلة جدار الذاكرة
تواجه نماذج اللغة الكبيرة قيداً جوهرياً: سعة ذاكرة وحدة معالجة الرسوميات. تتجاوز أحمال عمل استدلال الذكاء الاصطناعي الحديثة بشكل روتيني 80-120 جيجابايت لكل وحدة معالجة رسوميات، وتنمو ذاكرة التخزين المؤقت للمفتاح والقيمة (KV cache) مع طول السياق.[^1] يمكن أن يستهلك طلب استدلال واحد بنافذة سياق 128K عشرات الجيجابايت فقط لتخزين KV cache.
تتفاقم المشكلة على نطاق واسع. تستهلك أوزان النماذج للنماذج اللغوية الكبيرة المتقدمة مئات الجيجابايت. تنمو متطلبات KV cache خطياً مع كل من حجم الدفعة وطول التسلسل. تظل ذاكرة VRAM لوحدة معالجة الرسوميات ثابتة عند 80 جيجابايت (H100) أو 192 جيجابايت (B200).[^2]
الحلول التقليدية غير كافية:
| النهج | القيد |
|---|---|
| إضافة المزيد من وحدات معالجة الرسوميات | زيادة خطية في التكلفة، الذاكرة لا تزال معزولة لكل وحدة |
| تفريغ NVMe | زمن استجابة ~100 ميكروثانية، أبطأ 100 مرة من DRAM |
| المشاركة القائمة على RDMA | زمن استجابة 10-20 ميكروثانية، شبكات معقدة |
| ذاكرة GPU أكبر | محدودة العرض، مكلفة |
يغير CXL هذه المعادلة من خلال تمكين تجميع الذاكرة بزمن استجابة مماثل لـ DRAM (200-500 نانوثانية) عبر مركز البيانات.[^3]
نظرة تقنية معمقة على CXL 4.0
التطور من CXL 1.0 إلى 4.0
نضج CXL بسرعة منذ تقديمه في 2019. وسع كل جيل القدرات:
| الجيل | الإصدار | قاعدة PCIe | السرعة | التطور الرئيسي |
|---|---|---|---|---|
| CXL 1.0/1.1 | 2019/2020 | PCIe 5.0 | 32 GT/s | إرفاق ذاكرة متماسكة أساسي |
| CXL 2.0 | 2022 | PCIe 5.0 | 32 GT/s | التبديل، تجميع الذاكرة، تعدد الأجهزة |
| CXL 3.0/3.1 | 2023/2024 | PCIe 6.0 | 64 GT/s | دعم النسيج، نظير إلى نظير، 4,096 عقدة |
| CXL 4.0 | نوفمبر 2025 | PCIe 7.0 | 128 GT/s | المنافذ المجمعة، متعدد الأرفف، RAS محسن |
قدم CXL 2.0 المفهوم الأساسي لتجميع الذاكرة. تتصل أجهزة ذاكرة Type 3 متعددة بمحول، مكونة مجموعة مشتركة يخصص منها المحول الموارد ديناميكياً لمضيفين مختلفين.[^4] يتيح هذا تحسين استخدام الذاكرة من 50-60% النموذجية إلى أكثر من 85% عبر المجموعة.
أضاف CXL 3.0 قدرات النسيج التي تدعم التبديل متعدد المستويات وما يصل إلى 4,096 عقدة مع التوجيه القائم على المنافذ (PBR).[^5] أدى التحول إلى FLITs بحجم 256 بايت و64 GT/s لـ PCIe 6.0 إلى مضاعفة عرض النطاق الترددي المتاح.
يضاعف CXL 4.0 عرض النطاق الترددي مرة أخرى مع تقديم ميزات حاسمة لعمليات نشر الذكاء الاصطناعي متعددة الأرفف.
بنية المنافذ المجمعة
الميزة الأكثر أهمية في CXL 4.0 للحوسبة عالية الأداء: تجمع المنافذ المجمعة منافذ أجهزة CXL الفعلية المتعددة في كيان منطقي واحد.[^6]
كيف تعمل المنافذ المجمعة:
- يجمع المضيف وجهاز Type 1/2 منافذ فعلية متعددة
- يرى برنامج النظام جهازاً واحداً رغم الاتصالات الفعلية المتعددة
- يتجمع عرض النطاق الترددي عبر جميع المنافذ المجمعة
- محسن لوضع FLIT 256 بايت، مما يلغي الحمل القديم
حسابات عرض النطاق الترددي:
| التكوين | الاتجاه | عرض النطاق الترددي |
|---|---|---|
| منفذ x16 واحد @ 128 GT/s | أحادي الاتجاه | 256 GB/s |
| منفذ x16 واحد @ 128 GT/s | ثنائي الاتجاه | 512 GB/s |
| 3 منافذ x16 مجمعة @ 128 GT/s | أحادي الاتجاه | 768 GB/s |
| 3 منافذ x16 مجمعة @ 128 GT/s | ثنائي الاتجاه | 1,536 GB/s |
للمقارنة، تقدم ذاكرة HBM3e على H200 عرض نطاق ترددي يبلغ 4.8 TB/s.[^7] يمثل اتصال CXL 4.0 المجمع بسرعة 1.5 TB/s حوالي 30% من هذا العرض الترددي—كافٍ للعديد من حالات استخدام توسيع الذاكرة حيث تهم السعة أكثر من ذروة عرض النطاق الترددي.
أساس PCIe 7.0
يبني CXL 4.0 على تحسينات الطبقة الفيزيائية لـ PCIe 7.0:[^8]
- معدل نقل 128 GT/s: ضعف 64 GT/s لـ PCIe 6.0
- ترميز PAM4: نفس مخطط الترميز مثل PCIe 6.0
- FEC محسن: تصحيح الأخطاء الأمامي لسلامة الإشارة
- دعم بصري: يتيح اتصالات بمدى أطول
تحتفظ المواصفات بتنسيق FLIT 256 بايت من CXL 3.x مع إضافة متغير محسن لزمن الاستجابة للعمليات الحساسة للوقت.[^9]
قدرات النسيج متعدد الأرفف
يوسع CXL 4.0 النطاق من خلال آليتين:
دعم أربعة معيدات توقيت: سمحت الأجيال السابقة بمعيدي توقيت. تتيح أربعة معيدات توقيت اتصالات فعلية أطول تمتد عبر أرفف متعددة دون تدهور الإشارة.[^10]
عرض x2 أصلي: كان سابقاً وضع تراجع متدهور، تعمل روابط x2 الآن بأداء كامل. يتيح هذا تكوينات توزيع أعلى حيث تخدم العديد من الاتصالات ذات عرض النطاق المنخفض نقاط نهاية أكثر.[^11]
تتضافر هذه الميزات لتمكين "تجميع الذاكرة متعدد الأرفف"—قدرة يستهدفها اتحاد CXL صراحة للنشر الإنتاجي في أواخر 2026-2027.[^12]
حالات استخدام CXL للبنية التحتية للذكاء الاصطناعي
تفريغ KV Cache لاستدلال النماذج اللغوية الكبيرة
حالة الاستخدام الأكثر تأثيراً على المدى القريب: تفريغ KV cache من ذاكرة VRAM لوحدة معالجة الرسوميات إلى الذاكرة المتصلة عبر CXL.
المشكلة: يولد استدلال النماذج اللغوية الكبيرة بسياقات طويلة ذاكرات KV cache ضخمة. يمكن أن يتطلب نموذج بـ 70 مليار معلمة مع سياق 128K وحجم دفعة 32 أكثر من 150 جيجابايت فقط لـ KV cache.[^13] يتجاوز هذا ذاكرة VRAM لـ H100، مما يفرض تخفيضات مكلفة في حجم الدفعة أو استخدام وحدات معالجة رسوميات متعددة.
حل CXL: تخزين KV cache في ذاكرة CXL المجمعة مع الاحتفاظ بالطبقات النشطة في ذاكرة VRAM لوحدة معالجة الرسوميات. عرضت XConn وMemVerge هذا في SC25 وOCP 2025:[^14]
- وحدتا H100 GPU (80 جيجابايت لكل منهما) تشغلان OPT-6.7B
- تفريغ KV cache إلى مجموعة ذاكرة CXL مشتركة
- تسريع 3.8x مقارنة بـ 200G RDMA
- تسريع 6.5x مقارنة بـ 100G RDMA
- تحسين أكثر من 5x مقارنة بـ KV cache القائم على SSD
تؤكد الأبحاث الأكاديمية الفرصة. يحقق PNM-KV (المعالجة القريبة من الذاكرة لـ KV cache) تحسيناً في الإنتاجية يصل إلى 21.9x عن طريق تفريغ اختيار صفحة الرموز إلى المسرعات داخل ذاكرة CXL.[^15]
توسيع الذاكرة للتدريب
تستفيد أحمال عمل التدريب من سعة الذاكرة الموسعة لـ:
- أحجام دفعات أكبر: المزيد من العينات لكل تكرار دون تراكم التدرجات
- تقليل نقاط التفتيش للتنشيط: تخزين المزيد من التنشيطات في الذاكرة مقابل إعادة الحساب
- حالة المحسن: يتطلب محسن Adam ضعف المعلمات للزخم/التباين
يتيح توسيع ذاكرة CXL تكوينات تدريب كانت تتطلب سابقاً توزيعاً متعدد العقد للتشغيل على عقد فردية، مما يقلل من حمل الاتصال.
الأحمال العلمية والحوسبة عالية الأداء
يستخدم مشروع Crete من PNNL مجموعات CXL لمشاركة الذاكرة عالية الإنتاجية عبر عقد الحوسبة في المحاكاة العلمية.[^16] تشمل حالات الاستخدام:
- الديناميكا الجزيئية مع قوائم جوار كبيرة
- تحليلات الرسوم البيانية على مجموعات بيانات بتريليون حافة
- قواعد البيانات في الذاكرة التي تتجاوز سعة خادم واحد
مشهد الربط البيني
CXL مقابل NVLink مقابل UALink
يتطلب فهم موقع CXL إدراك أن هذه التقنيات تخدم أغراضاً مختلفة:
| المعيار | الغرض الأساسي | الأفضل لـ |
|---|---|---|
| CXL | تماسك الذاكرة + التجميع | توسيع ذاكرة CPU، مجموعات الذاكرة المشتركة |
| NVLink | توسيع GPU إلى GPU | اتصال GPU داخل العقدة |
| UALink | ربط المسرعات | بديل معيار مفتوح لـ NVLink |
| Ultra Ethernet | شبكات التوسع | متعدد الأرفف، أكثر من 10,000 نقطة نهاية |
يعمل CXL على PCIe SerDes: معدل خطأ أقل، زمن استجابة أقل، لكن عرض نطاق ترددي أقل من SerDes على طراز Ethernet لـ NVLink/UALink.[^17] يقدم NVLink 5 سرعة 1.8 TB/s لكل GPU—متجاوزاً بكثير 512 GB/s لكل منفذ x16 في CXL 4.0.[^18]
التقنيات تكمل بعضها بدلاً من التنافس:
- داخل عقدة GPU: يربط NVLink وحدات GPU
- بين العقد: UALink أو InfiniBand/Ethernet
- توسيع الذاكرة: يضيف CXL سعة لوحدات CPU والمسرعات
- مجموعات الذاكرة على مستوى النسيج: تتيح محولات CXL المشاركة عبر المضيفين
تقترح Panmnesia بنيات "CXL-over-XLink" التي تدمج الثلاثة، مع الإبلاغ عن تدريب AI أسرع بـ 5.3x وتقليل زمن استجابة الاستدلال بـ 6x مقارنة بخطوط الأساس PCIe/RDMA.[^19]
إطار اتخاذ القرار: متى تستخدم ماذا
| السيناريو | الربط البيني الموصى به | المبرر |
|---|---|---|
| تدريب متعدد GPU داخل الخادم | NVLink | أعلى عرض نطاق ترددي، أدنى زمن استجابة |
| كبسولة استدلال متعدد GPU (غير NVIDIA) | UALink | معيار مفتوح، عرض نطاق ترددي عالي |
| توسيع الذاكرة خارج VRAM | CXL | تماسك ذاكرة التخزين المؤقت، زمن استجابة مماثل لـ DRAM |
| مجموعة GPU متعددة الأرفف | InfiniBand أو Ultra Ethernet | مصمم للتوسع |
| مجموعة ذاكرة مشتركة عبر الخوادم | محولات CXL | تجميع الذاكرة مع التماسك |
| الصين/الأسواق المقيدة | فكر في UB-Mesh | يتجنب تبعيات الملكية الفكرية الغربية |
منظومة CXL: الموردون والمنتجات
موسعات الذاكرة
يشحن مصنعو DRAM الثلاثة الكبار جميعهم موسعات ذاكرة CXL:
| المورد | المنتج | السعة | الواجهة | الحالة |
|---|---|---|---|---|
| Samsung | CMM-D | 256 GB | CXL 2.0 | إنتاج ضخم 2025[^20] |
| SK Hynix | CMM-DDR5 | 128 GB | CXL 2.0 | إنتاج ضخم أواخر 2024[^21] |
| Micron | CZ120 | 256 GB | CXL 2.0 | عينات[^22] |
| SK Hynix | CMS | 512 GB | CXL (مع دعم الحوسبة) | تم الإعلان عنه[^23] |
يضيف CMS (حل الذاكرة الحسابية) من SK Hynix قدرات حوسبة مباشرة في وحدة الذاكرة—تطبيق مبكر للمعالجة القريبة من الذاكرة لـ CXL.
موردو المحولات
تتيح محولات CXL تجميع الذاكرة عبر مضيفين متعددين:
| المورد | المنتج | الجيل | الحالة | الميزة الرئيسية |
|---|---|---|---|---|
| XConn | XC50256 | CXL 2.0 | متوفر للشحن | محول 256 مساراً، الأول في السوق[^24] |
| XConn | Apollo | CXL 2.0 | متوفر للشحن | عروض تجميع الذاكرة في SC25[^25] |
| Panmnesia | Fabric Switch | CXL 3.2 | عينات نوفمبر 2025 | أول تطبيق PBR[^26] |
| Astera Labs | Leo | CXL 2.0 | متوفر للشحن | وحدة تحكم ذاكرة ذكية[^27] |
| Microchip | SMC 2000 | CXL 2.0 | متوفر للشحن | وحدة تحكم توسيع الذاكرة[^28] |
يمثل محول CXL 3.2 Fabric من Panmnesia قفزة جيلية: أول سيليكون يطبق التوجيه القائم على المنافذ لبنيات النسيج الحقيقية مع ما يصل إلى 4,096 عقدة.[^29]
موردو وحدات التحكم
تترجم وحدات تحكم ذاكرة CXL بين بروتوكول CXL وDRAM:
| المورد | الدور | المنتجات الرئيسية |
|---|---|---|
| Marvell | وحدة تحكم | وحدات تحكم Structera CXL[^30] |
| Montage | وحدة تحكم | شرائح مخزن ذاكرة CXL |
| Astera Labs | وحدة تحكم | وحدة تحكم ذاكرة Leo الذكية |
| Microchip | وحدة تحكم | سلسلة SMC 2000 |
أكملت Structera من Marvell اختبار التوافق مع جميع موردي الذاكرة الثلاثة الكبار (Samsung وMicron وSK Hynix) على منصات Intel وAMD.[^31]
دليل تخطيط النشر
الجدول الزمني
| الفترة | جيل CXL | القدرة المتوقعة | التوصية |
|---|---|---|---|
| الآن - الربع الثاني 2026 | CXL 2.0 | توسيع الذاكرة، تجميع أساسي | تقييم الإنتاج |
| الربع الثالث 2026 - الربع الرابع 2026 | CXL 3.0/3.1 | النسيج، نظير إلى نظير، 4K عقدة | تبني مبكر للذكاء الاصطناعي |
| 2027+ | CXL 4.0 | تجميع متعدد الأرفف، 1.5 TB/s | يبدأ التخطيط الآن |
تتوقع ABI Research حلول CXL 3.0/3.1 مع دعم برمجي كافٍ للاعتماد التجاري بحلول 2027.[^32]
ما يجب تقييمه الآن
فوري (2025): 1. اختبار موسعات ذاكرة CXL 2.0 على خوادم Intel Sapphire Rapids أو AMD EPYC Genoa الحالية 2. تقييم محولات XConn أو Astera Labs لتجميع الذاكرة
[تم اقتطاع المحتوى للترجمة]