دليل تخطيط البنية التحتية لـ CXL 4.0: تجميع الذاكرة لـ AI على نطاق واسع
13 ديسمبر 2025
تحديث ديسمبر 2025: أصدر اتحاد CXL معيار CXL 4.0 في 18 نوفمبر 2025، مضاعفاً عرض النطاق إلى 128 GT/s عبر PCIe 7.0 ومقدماً المنافذ المجمعة لاتصالات بسرعة 1.5 TB/s. يغطي هذا الدليل تخطيط النشر للمؤسسات التي تستعد لتطبيق تجميع الذاكرة المبني على CXL في بنيتها التحتية لـ AI.
الملخص التنفيذي
يمكّن CXL 4.0 من تجميع الذاكرة على نطاق غير مسبوق، مما يسمح لأعباء العمل الاستنتاجية لـ AI بالوصول إلى أكثر من 100 تيرابايت من الذاكرة المشتركة مع تماسك cache عبر عدة رفوف. تجمع المنافذ المجمعة للمواصفات عدة اتصالات فيزيائية في ملحقات منطقية واحدة توفر عرض نطاق 1.5 TB/s. بالنسبة لمخططي البنية التحتية، تتضمن القرارات الرئيسية فهم متى يتم اعتماد CXL (2026-2027 للإنتاج)، والمنتجات التي يجب تقييمها الآن (محولات CXL 2.0/3.0 قيد الشحن)، وكيف يكمل CXL بدلاً من استبدال NVLink و UALink. يوفر هذا الدليل العمق التقني وأطر القرار المطلوبة لتخطيط نشر CXL.
مشكلة جدار الذاكرة
تواجه نماذج اللغة الكبيرة قيداً أساسياً: سعة ذاكرة GPU. تتجاوز أعباء العمل الاستنتاجية الحديثة لـ AI بشكل روتيني 80-120 GB لكل GPU، وينمو cache المفاتيح-القيم (KV) مع طول السياق.[^1] يمكن لطلب استنتاج واحد بنافذة سياق 128K أن يستهلك عشرات الجيجابايت فقط لتخزين KV cache.
تشتد المشكلة على نطاق واسع. تستهلك أوزان النموذج لـ LLMs المتقدمة مئات الجيجابايت. تنمو متطلبات KV cache خطياً مع حجم الدفعة وطول التسلسل. تبقى VRAM لـ GPU ثابتة عند 80GB (H100) أو 192GB (B200).[^2]
الحلول التقليدية تقصر:
| النهج | القيد |
|---|---|
| إضافة المزيد من GPUs | زيادة التكلفة الخطية، الذاكرة لا تزال معزولة لكل GPU |
| تفريغ NVMe | زمن استجابة ~100 μs، أبطأ 100 مرة من DRAM |
| المشاركة المبنية على RDMA | لا يزال زمن استجابة 10-20 μs، شبكات معقدة |
| ذاكرة GPU أكبر | محدودة العرض، مكلفة |
يغير CXL هذه المعادلة من خلال تمكين تجميع الذاكرة مع زمن استجابة مشابه لـ DRAM (200-500 ns) عبر مركز البيانات.[^3]
الغوص التقني العميق في CXL 4.0
التطور من CXL 1.0 إلى 4.0
نضج CXL بسرعة منذ تقديمه في 2019. وسع كل جيل القدرات:
| الجيل | الإصدار | قاعدة PCIe | السرعة | التقدم الرئيسي |
|---|---|---|---|---|
| CXL 1.0/1.1 | 2019/2020 | PCIe 5.0 | 32 GT/s | ربط الذاكرة المتماسكة الأساسي |
| CXL 2.0 | 2022 | PCIe 5.0 | 32 GT/s | التبديل، تجميع الذاكرة، متعدد الأجهزة |
| CXL 3.0/3.1 | 2023/2024 | PCIe 6.0 | 64 GT/s | دعم النسيج، نظير إلى نظير، 4,096 عقدة |
| CXL 4.0 | نوفمبر 2025 | PCIe 7.0 | 128 GT/s | المنافذ المجمعة، متعدد الرفوف، RAS محسن |
قدم CXL 2.0 المفهوم الأساسي لتجميع الذاكرة. تتصل عدة أجهزة ذاكرة من النوع 3 بمحول، مكونة مجموعة مشتركة يخصص منها المحول الموارد ديناميكياً لمضيفين مختلفين.[^4] هذا يمكن من تحسينات استخدام الذاكرة من النموذجي 50-60% إلى 85%+ عبر المجموعة.
أضاف CXL 3.0 قدرات النسيج الداعمة للتبديل متعدد المستويات وحتى 4,096 عقدة مع التوجيه المبني على المنفذ (PBR).[^5] ضاعف التحول إلى FLITs بحجم 256 بايت و 64 GT/s لـ PCIe 6.0 عرض النطاق المتاح.
يضاعف CXL 4.0 عرض النطاق مرة أخرى بينما يقدم ميزات حاسمة لعمليات النشر متعددة الرفوف لـ AI.
معمارية المنافذ المجمعة
أهم ميزة في CXL 4.0 للحوسبة عالية الأداء: تجمع المنافذ المجمعة عدة منافذ أجهزة CXL فيزيائية في كيان منطقي واحد.[^6]
كيف تعمل المنافذ المجمعة:
- يجمع المضيف وجهاز النوع 1/2 عدة منافذ فيزيائية
- ترى برمجيات النظام جهازاً واحداً رغم عدة اتصالات فيزيائية
- يتجمع عرض النطاق عبر جميع المنافذ المجمعة
- محسن لوضع FLIT بحجم 256 بايت، مما يلغي العبء القديم
حسابات عرض النطاق:
| التكوين | الاتجاه | عرض النطاق |
|---|---|---|
| منفذ x16 واحد @ 128 GT/s | أحادي الاتجاه | 256 GB/s |
| منفذ x16 واحد @ 128 GT/s | ثنائي الاتجاه | 512 GB/s |
| 3 منافذ x16 مجمعة @ 128 GT/s | أحادي الاتجاه | 768 GB/s |
| 3 منافذ x16 مجمعة @ 128 GT/s | ثنائي الاتجاه | 1,536 GB/s |
للسياق، تقدم ذاكرة HBM3e على H200 عرض نطاق 4.8 TB/s.[^7] يمثل الاتصال المجمع CXL 4.0 بسرعة 1.5 TB/s حوالي 30% من ذلك العرض—كافٍ للعديد من حالات استخدام توسيع الذاكرة حيث تهم السعة أكثر من عرض النطاق الأقصى.
أساس PCIe 7.0
يبني CXL 4.0 على تحسينات الطبقة الفيزيائية لـ PCIe 7.0:[^8]
- معدل نقل 128 GT/s: ضعف 64 GT/s لـ PCIe 6.0
- إشارة PAM4: نفس مخطط الترميز كـ PCIe 6.0
- FEC محسن: تصحيح الأخطاء الأمامي لسلامة الإشارة
- الدعم البصري: يمكن الاتصالات بمدى أطول
تحتفظ المواصفات بتنسيق FLIT بحجم 256 بايت من CXL 3.x بينما تضيف متغيراً محسناً للزمن للعمليات الحساسة للوقت.[^9]
قدرات النسيج متعدد الرفوف
يمدد CXL 4.0 المدى عبر آليتين:
دعم أربعة معيدات توقيت: سمحت الأجيال السابقة بمعيدين. تمكن أربعة معيدات توقيت من اتصالات فيزيائية أطول تمتد عبر رفوف متعددة دون تدهور الإشارة.[^10]
عرض x2 أصلي: كان سابقاً وضع تراجع منتقص، تعمل الآن روابط x2 بالأداء الكامل. هذا يمكن تكوينات تفرع أعلى حيث تخدم العديد من الاتصالات منخفضة عرض النطاق نقاط نهاية أكثر.[^11]
تتحد هذه الميزات لتمكين "تجميع الذاكرة متعدد الرفوف"—قدرة يستهدفها اتحاد CXL صراحة لنشر الإنتاج في أواخر 2026-2027.[^12]
حالات استخدام CXL للبنية التحتية لـ AI
تفريغ KV Cache لاستنتاج LLM
حالة الاستخدام الأعلى تأثيراً على المدى القريب: تفريغ KV cache من VRAM لـ GPU إلى ذاكرة متصلة بـ CXL.
المشكلة: ينتج استنتاج LLM بسياقات طويلة KV caches ضخمة. يمكن لنموذج بـ 70B معامل مع سياق 128K وحجم دفعة 32 أن يتطلب 150+ GB فقط لـ KV cache.[^13] هذا يتجاوز VRAM لـ H100، مما يفرض تخفيضات مكلفة في حجم الدفعة أو GPUs متعددة.
حل CXL: تخزين KV cache في مجموعة ذاكرة CXL مجمعة بينما يحتفظ بالطبقات الساخنة في VRAM لـ GPU. أظهر XConn و MemVerge هذا في SC25 و OCP 2025:[^14]
- اثنان من GPUs H100 (80GB لكل منهما) يشغلان OPT-6.7B
- تفريغ KV cache إلى مجموعة ذاكرة CXL مشتركة
- تسريع 3.8x مقابل RDMA 200G
- تسريع 6.5x مقابل RDMA 100G
- تحسن >5x مقابل KV cache مبني على SSD
تؤكد الأبحاث الأكاديمية الفرصة. يحقق PNM-KV (Processing-Near-Memory لـ KV cache) تحسناً في الإنتاجية يصل إلى 21.9x من خلال تفريغ اختيار صفحة الرمز إلى مسرعات داخل ذاكرة CXL.[^15]
توسيع الذاكرة للتدريب
تستفيد أعباء عمل التدريب من سعة الذاكرة الموسعة لـ:
- أحجام دفعات أكبر: عينات أكثر لكل تكرار دون تراكم التدرج
- تقليل نقاط تفتيش التنشيط: تخزين المزيد من التنشيطات في الذاكرة مقابل إعادة الحساب
- حالة المحسن: يتطلب محسن Adam 2x من المعاملات للزخم/التباين
يمكّن توسيع ذاكرة CXL من تكوينات تدريب كانت تتطلب سابقاً توزيعاً متعدد العقد للعمل على عقد واحدة، مما يقلل عبء التواصل.
أعباء العمل العلمية و HPC
يستخدم مشروع Crete في PNNL مجموعات CXL للمشاركة عالية الإنتاجية للذاكرة عبر عقد الحوسبة في المحاكيات العلمية.[^16] تشمل حالات الاستخدام:
- الديناميكا الجزيئية مع قوائم جوار كبيرة
- تحليلات الرسم البياني على مجموعات بيانات تريليون حافة
- قواعد بيانات في الذاكرة تتجاوز سعة خادم واحد
مشهد الربط البيني
CXL مقابل NVLink مقابل UALink
يتطلب فهم موضع CXL إدراك أن هذه التقنيات تخدم أغراضاً مختلفة:
| المعيار | الغرض الأساسي | الأفضل لـ |
|---|---|---|
| CXL | تماسك الذاكرة + التجميع | توسيع ذاكرة CPU، مجموعات ذاكرة مشتركة |
| NVLink | تحجيم GPU-to-GPU | تواصل GPU داخل العقدة |
| UALink | ربط المسرع | بديل معيار مفتوح لـ NVLink |
| Ultra Ethernet | شبكات التوسع | متعدد الرفوف، 10,000+ نقطة نهاية |
يعمل CXL على PCIe SerDes: معدل خطأ أقل، زمن استجابة أقل، لكن عرض نطاق أقل من NVLink/UALink's Ethernet-style SerDes.[^17] يقدم NVLink 5 سرعة 1.8 TB/s لكل GPU—يتجاوز بكثير 512 GB/s لكل منفذ x16 لـ CXL 4.0.[^18]
التقنيات تكمل بدلاً من التنافس:
- داخل عقدة GPU: يربط NVLink بين GPUs
- بين العقد: UALink أو InfiniBand/Ethernet
- توسيع الذاكرة: يضيف CXL سعة إلى CPUs والمسرعات
- مجموعات ذاكرة على مستوى النسيج: تمكن محولات CXL المشاركة عبر المضيفين
تقترح Panmnesia معماريات "CXL-over-XLink" التي تدمج الثلاثة جميعاً، مُبلغة عن تدريب AI أسرع بـ 5.3x وتقليل زمن استجابة الاستنتاج بـ 6x مقابل خطوط أساس PCIe/RDMA.[^19]
إطار القرار: متى تستخدم ماذا
| السيناريو | الربط البيني الموصى به | المنطق |
|---|---|---|
| تدريب متعدد GPU داخل الخادم | NVLink | أعلى عرض نطاق، أقل زمن استجابة |
| كبسولة استنتاج متعدد GPU (غير NVIDIA) | UALink | معيار مفتوح، عرض نطاق عالي |
| توسيع الذاكرة ما بعد VRAM | CXL | تماسك cache، زمن استجابة مشابه لـ DRAM |
| مجموعة GPU متعددة الرفوف | InfiniBand أو Ultra Ethernet | مصمم للتوسع |
| مجموعة ذاكرة مشتركة عبر الخوادم | محولات CXL | تجميع الذاكرة مع التماسك |
| الصين/الأسواق المقيدة | اعتبر UB-Mesh | يتجنب تبعيات IP الغربية |
نظام CXL البيئي: الموردون والمنتجات
موسعات الذاكرة
جميع مصنعي DRAM الثلاثة الرئيسيين يشحنون موسعات ذاكرة CXL:
| المورد | المنتج | السعة | الواجهة | الحالة |
|---|---|---|---|---|
| Samsung | CMM-D | 256 GB | CXL 2.0 | إنتاج ضخم 2025[^20] |
| SK Hynix | CMM-DDR5 | 128 GB | CXL 2.0 | إنتاج ضخم أواخر 2024[^21] |
| Micron | CZ120 | 256 GB | CXL 2.0 | في العينات[^22] |
| SK Hynix | CMS | 512 GB | CXL (مُمكن للحوسبة) | مُعلن[^23] |
يضيف CMS (حل الذاكرة الحاسوبية) من SK Hynix قدرات حاسوبية مباشرة في وحدة الذاكرة—تطبيق مبكر للمعالجة القريبة من الذاكرة لـ CXL.
موردو المحولات
تمكن محولات CXL من تجميع الذاكرة عبر مضيفين متعددين:
| المورد | المنتج | الجيل | الحالة | الميزة الرئيسية |
|---|---|---|---|---|
| XConn | XC50256 | CXL 2.0 | يشحن | محول 256 مسار، الأول في السوق[^24] |
| XConn | Apollo | CXL 2.0 | يشحن | عروض تجميع الذاكرة في SC25[^25] |
| Panmnesia | Fabric Switch | CXL 3.2 | في العينات نوفمبر 2025 | أول تطبيق PBR[^26] |
| Astera Labs | Leo | CXL 2.0 | يشحن | وحدة تحكم ذاكرة ذكية[^27] |
| Microchip | SMC 2000 | CXL 2.0 | يشحن | وحدة تحكم توسيع الذاكرة[^28] |
يمثل Fabric Switch CXL 3.2 من Panmnesia قفزة جيل: أول سيليكون ينفذ التوجيه المبني على المنفذ لمعماريات نسيج حقيقية مع حتى 4,096 عقدة.[^29]
موردو وحدات التحكم
تترجم وحدات تحكم ذاكرة CXL بين بروتوكول CXL و DRAM:
| المورد | الدور | المنتجات الرئيسية |
|---|---|---|
| Marvell | وحدة التحكم | وحدات تحكم Structera CXL[^30] |
| Montage | وحدة التحكم | رقائق مخزن ذاكرة CXL |
| Astera Labs | وحدة التحكم | وحدة تحكم ذاكرة Leo الذكية |
| Microchip | وحدة التحكم | سلسلة SMC 2000 |
أكمل Structera من Marvell اختبار التشغيل البيني مع جميع موردي الذاكرة الثلاثة الرئيسيين (Samsung، Micron، SK Hynix) على منصتي Intel و AMD.[^31]
دليل تخطيط النشر
الجدولة الزمنية
| الفترة | جيل CXL | القدرة المتوقعة | التوصية |
|---|---|---|---|
| الآن-الربع الثاني 2026 | CXL 2.0 | توسيع الذاكرة، التجميع الأساسي | تقييم الإنتاج |
| الربع الثالث 2026-الربع الرابع 2026 | CXL 3.0/3.1 | النسيج، نظير إلى نظير، 4K عقدة | الاعتماد المبكر لـ AI |
| 2027+ | CXL 4.0 | التجميع متعدد الرفوف، 1.5 TB/s | التخطيط يبدأ الآن |
تتوقع ABI Research حلول CXL 3.0/3.1 مع دعم برمجي كافٍ للاعتماد التجاري بحلول 2027.[^32]
ما يجب تقييمه الآن
فوري (2025): 1. اختبار موسعات ذاكرة CXL 2.0 على خوادم Intel Sapphire Rapids أو AMD EPYC Genoa الحالية 2. تقييم محولات XConn أو Astera Labs للذاكرة