دليل تخطيط البنية التحتية لـ CXL 4.0: تجميع الذاكرة لـ AI على نطاق واسع

دليل نشر شامل لـ CXL 4.0 يغطي المنافذ المجمعة، تجميع الذاكرة متعدد الرفوف، تفريغ KV cache، النظام البيئي للموردين، وجدولة التخطيط 2026-2027.

دليل تخطيط البنية التحتية لـ CXL 4.0: تجميع الذاكرة لـ AI على نطاق واسع

دليل تخطيط البنية التحتية لـ CXL 4.0: تجميع الذاكرة لـ AI على نطاق واسع

13 ديسمبر 2025

تحديث ديسمبر 2025: أصدر اتحاد CXL معيار CXL 4.0 في 18 نوفمبر 2025، مضاعفاً عرض النطاق إلى 128 GT/s عبر PCIe 7.0 ومقدماً المنافذ المجمعة لاتصالات بسرعة 1.5 TB/s. يغطي هذا الدليل تخطيط النشر للمؤسسات التي تستعد لتطبيق تجميع الذاكرة المبني على CXL في بنيتها التحتية لـ AI.


الملخص التنفيذي

يمكّن CXL 4.0 من تجميع الذاكرة على نطاق غير مسبوق، مما يسمح لأعباء العمل الاستنتاجية لـ AI بالوصول إلى أكثر من 100 تيرابايت من الذاكرة المشتركة مع تماسك cache عبر عدة رفوف. تجمع المنافذ المجمعة للمواصفات عدة اتصالات فيزيائية في ملحقات منطقية واحدة توفر عرض نطاق 1.5 TB/s. بالنسبة لمخططي البنية التحتية، تتضمن القرارات الرئيسية فهم متى يتم اعتماد CXL (2026-2027 للإنتاج)، والمنتجات التي يجب تقييمها الآن (محولات CXL 2.0/3.0 قيد الشحن)، وكيف يكمل CXL بدلاً من استبدال NVLink و UALink. يوفر هذا الدليل العمق التقني وأطر القرار المطلوبة لتخطيط نشر CXL.


مشكلة جدار الذاكرة

تواجه نماذج اللغة الكبيرة قيداً أساسياً: سعة ذاكرة GPU. تتجاوز أعباء العمل الاستنتاجية الحديثة لـ AI بشكل روتيني 80-120 GB لكل GPU، وينمو cache المفاتيح-القيم (KV) مع طول السياق.[^1] يمكن لطلب استنتاج واحد بنافذة سياق 128K أن يستهلك عشرات الجيجابايت فقط لتخزين KV cache.

تشتد المشكلة على نطاق واسع. تستهلك أوزان النموذج لـ LLMs المتقدمة مئات الجيجابايت. تنمو متطلبات KV cache خطياً مع حجم الدفعة وطول التسلسل. تبقى VRAM لـ GPU ثابتة عند 80GB (H100) أو 192GB (B200).[^2]

الحلول التقليدية تقصر:

النهج القيد
إضافة المزيد من GPUs زيادة التكلفة الخطية، الذاكرة لا تزال معزولة لكل GPU
تفريغ NVMe زمن استجابة ~100 μs، أبطأ 100 مرة من DRAM
المشاركة المبنية على RDMA لا يزال زمن استجابة 10-20 μs، شبكات معقدة
ذاكرة GPU أكبر محدودة العرض، مكلفة

يغير CXL هذه المعادلة من خلال تمكين تجميع الذاكرة مع زمن استجابة مشابه لـ DRAM (200-500 ns) عبر مركز البيانات.[^3]


الغوص التقني العميق في CXL 4.0

التطور من CXL 1.0 إلى 4.0

نضج CXL بسرعة منذ تقديمه في 2019. وسع كل جيل القدرات:

الجيل الإصدار قاعدة PCIe السرعة التقدم الرئيسي
CXL 1.0/1.1 2019/2020 PCIe 5.0 32 GT/s ربط الذاكرة المتماسكة الأساسي
CXL 2.0 2022 PCIe 5.0 32 GT/s التبديل، تجميع الذاكرة، متعدد الأجهزة
CXL 3.0/3.1 2023/2024 PCIe 6.0 64 GT/s دعم النسيج، نظير إلى نظير، 4,096 عقدة
CXL 4.0 نوفمبر 2025 PCIe 7.0 128 GT/s المنافذ المجمعة، متعدد الرفوف، RAS محسن

قدم CXL 2.0 المفهوم الأساسي لتجميع الذاكرة. تتصل عدة أجهزة ذاكرة من النوع 3 بمحول، مكونة مجموعة مشتركة يخصص منها المحول الموارد ديناميكياً لمضيفين مختلفين.[^4] هذا يمكن من تحسينات استخدام الذاكرة من النموذجي 50-60% إلى 85%+ عبر المجموعة.

أضاف CXL 3.0 قدرات النسيج الداعمة للتبديل متعدد المستويات وحتى 4,096 عقدة مع التوجيه المبني على المنفذ (PBR).[^5] ضاعف التحول إلى FLITs بحجم 256 بايت و 64 GT/s لـ PCIe 6.0 عرض النطاق المتاح.

يضاعف CXL 4.0 عرض النطاق مرة أخرى بينما يقدم ميزات حاسمة لعمليات النشر متعددة الرفوف لـ AI.

معمارية المنافذ المجمعة

أهم ميزة في CXL 4.0 للحوسبة عالية الأداء: تجمع المنافذ المجمعة عدة منافذ أجهزة CXL فيزيائية في كيان منطقي واحد.[^6]

كيف تعمل المنافذ المجمعة:

  1. يجمع المضيف وجهاز النوع 1/2 عدة منافذ فيزيائية
  2. ترى برمجيات النظام جهازاً واحداً رغم عدة اتصالات فيزيائية
  3. يتجمع عرض النطاق عبر جميع المنافذ المجمعة
  4. محسن لوضع FLIT بحجم 256 بايت، مما يلغي العبء القديم

حسابات عرض النطاق:

التكوين الاتجاه عرض النطاق
منفذ x16 واحد @ 128 GT/s أحادي الاتجاه 256 GB/s
منفذ x16 واحد @ 128 GT/s ثنائي الاتجاه 512 GB/s
3 منافذ x16 مجمعة @ 128 GT/s أحادي الاتجاه 768 GB/s
3 منافذ x16 مجمعة @ 128 GT/s ثنائي الاتجاه 1,536 GB/s

للسياق، تقدم ذاكرة HBM3e على H200 عرض نطاق 4.8 TB/s.[^7] يمثل الاتصال المجمع CXL 4.0 بسرعة 1.5 TB/s حوالي 30% من ذلك العرض—كافٍ للعديد من حالات استخدام توسيع الذاكرة حيث تهم السعة أكثر من عرض النطاق الأقصى.

أساس PCIe 7.0

يبني CXL 4.0 على تحسينات الطبقة الفيزيائية لـ PCIe 7.0:[^8]

  • معدل نقل 128 GT/s: ضعف 64 GT/s لـ PCIe 6.0
  • إشارة PAM4: نفس مخطط الترميز كـ PCIe 6.0
  • FEC محسن: تصحيح الأخطاء الأمامي لسلامة الإشارة
  • الدعم البصري: يمكن الاتصالات بمدى أطول

تحتفظ المواصفات بتنسيق FLIT بحجم 256 بايت من CXL 3.x بينما تضيف متغيراً محسناً للزمن للعمليات الحساسة للوقت.[^9]

قدرات النسيج متعدد الرفوف

يمدد CXL 4.0 المدى عبر آليتين:

دعم أربعة معيدات توقيت: سمحت الأجيال السابقة بمعيدين. تمكن أربعة معيدات توقيت من اتصالات فيزيائية أطول تمتد عبر رفوف متعددة دون تدهور الإشارة.[^10]

عرض x2 أصلي: كان سابقاً وضع تراجع منتقص، تعمل الآن روابط x2 بالأداء الكامل. هذا يمكن تكوينات تفرع أعلى حيث تخدم العديد من الاتصالات منخفضة عرض النطاق نقاط نهاية أكثر.[^11]

تتحد هذه الميزات لتمكين "تجميع الذاكرة متعدد الرفوف"—قدرة يستهدفها اتحاد CXL صراحة لنشر الإنتاج في أواخر 2026-2027.[^12]


حالات استخدام CXL للبنية التحتية لـ AI

تفريغ KV Cache لاستنتاج LLM

حالة الاستخدام الأعلى تأثيراً على المدى القريب: تفريغ KV cache من VRAM لـ GPU إلى ذاكرة متصلة بـ CXL.

المشكلة: ينتج استنتاج LLM بسياقات طويلة KV caches ضخمة. يمكن لنموذج بـ 70B معامل مع سياق 128K وحجم دفعة 32 أن يتطلب 150+ GB فقط لـ KV cache.[^13] هذا يتجاوز VRAM لـ H100، مما يفرض تخفيضات مكلفة في حجم الدفعة أو GPUs متعددة.

حل CXL: تخزين KV cache في مجموعة ذاكرة CXL مجمعة بينما يحتفظ بالطبقات الساخنة في VRAM لـ GPU. أظهر XConn و MemVerge هذا في SC25 و OCP 2025:[^14]

  • اثنان من GPUs H100 (80GB لكل منهما) يشغلان OPT-6.7B
  • تفريغ KV cache إلى مجموعة ذاكرة CXL مشتركة
  • تسريع 3.8x مقابل RDMA 200G
  • تسريع 6.5x مقابل RDMA 100G
  • تحسن >5x مقابل KV cache مبني على SSD

تؤكد الأبحاث الأكاديمية الفرصة. يحقق PNM-KV (Processing-Near-Memory لـ KV cache) تحسناً في الإنتاجية يصل إلى 21.9x من خلال تفريغ اختيار صفحة الرمز إلى مسرعات داخل ذاكرة CXL.[^15]

توسيع الذاكرة للتدريب

تستفيد أعباء عمل التدريب من سعة الذاكرة الموسعة لـ:

  • أحجام دفعات أكبر: عينات أكثر لكل تكرار دون تراكم التدرج
  • تقليل نقاط تفتيش التنشيط: تخزين المزيد من التنشيطات في الذاكرة مقابل إعادة الحساب
  • حالة المحسن: يتطلب محسن Adam 2x من المعاملات للزخم/التباين

يمكّن توسيع ذاكرة CXL من تكوينات تدريب كانت تتطلب سابقاً توزيعاً متعدد العقد للعمل على عقد واحدة، مما يقلل عبء التواصل.

أعباء العمل العلمية و HPC

يستخدم مشروع Crete في PNNL مجموعات CXL للمشاركة عالية الإنتاجية للذاكرة عبر عقد الحوسبة في المحاكيات العلمية.[^16] تشمل حالات الاستخدام:

  • الديناميكا الجزيئية مع قوائم جوار كبيرة
  • تحليلات الرسم البياني على مجموعات بيانات تريليون حافة
  • قواعد بيانات في الذاكرة تتجاوز سعة خادم واحد

مشهد الربط البيني

يتطلب فهم موضع CXL إدراك أن هذه التقنيات تخدم أغراضاً مختلفة:

المعيار الغرض الأساسي الأفضل لـ
CXL تماسك الذاكرة + التجميع توسيع ذاكرة CPU، مجموعات ذاكرة مشتركة
NVLink تحجيم GPU-to-GPU تواصل GPU داخل العقدة
UALink ربط المسرع بديل معيار مفتوح لـ NVLink
Ultra Ethernet شبكات التوسع متعدد الرفوف، 10,000+ نقطة نهاية

يعمل CXL على PCIe SerDes: معدل خطأ أقل، زمن استجابة أقل، لكن عرض نطاق أقل من NVLink/UALink's Ethernet-style SerDes.[^17] يقدم NVLink 5 سرعة 1.8 TB/s لكل GPU—يتجاوز بكثير 512 GB/s لكل منفذ x16 لـ CXL 4.0.[^18]

التقنيات تكمل بدلاً من التنافس:

  • داخل عقدة GPU: يربط NVLink بين GPUs
  • بين العقد: UALink أو InfiniBand/Ethernet
  • توسيع الذاكرة: يضيف CXL سعة إلى CPUs والمسرعات
  • مجموعات ذاكرة على مستوى النسيج: تمكن محولات CXL المشاركة عبر المضيفين

تقترح Panmnesia معماريات "CXL-over-XLink" التي تدمج الثلاثة جميعاً، مُبلغة عن تدريب AI أسرع بـ 5.3x وتقليل زمن استجابة الاستنتاج بـ 6x مقابل خطوط أساس PCIe/RDMA.[^19]

إطار القرار: متى تستخدم ماذا

السيناريو الربط البيني الموصى به المنطق
تدريب متعدد GPU داخل الخادم NVLink أعلى عرض نطاق، أقل زمن استجابة
كبسولة استنتاج متعدد GPU (غير NVIDIA) UALink معيار مفتوح، عرض نطاق عالي
توسيع الذاكرة ما بعد VRAM CXL تماسك cache، زمن استجابة مشابه لـ DRAM
مجموعة GPU متعددة الرفوف InfiniBand أو Ultra Ethernet مصمم للتوسع
مجموعة ذاكرة مشتركة عبر الخوادم محولات CXL تجميع الذاكرة مع التماسك
الصين/الأسواق المقيدة اعتبر UB-Mesh يتجنب تبعيات IP الغربية

نظام CXL البيئي: الموردون والمنتجات

موسعات الذاكرة

جميع مصنعي DRAM الثلاثة الرئيسيين يشحنون موسعات ذاكرة CXL:

المورد المنتج السعة الواجهة الحالة
Samsung CMM-D 256 GB CXL 2.0 إنتاج ضخم 2025[^20]
SK Hynix CMM-DDR5 128 GB CXL 2.0 إنتاج ضخم أواخر 2024[^21]
Micron CZ120 256 GB CXL 2.0 في العينات[^22]
SK Hynix CMS 512 GB CXL (مُمكن للحوسبة) مُعلن[^23]

يضيف CMS (حل الذاكرة الحاسوبية) من SK Hynix قدرات حاسوبية مباشرة في وحدة الذاكرة—تطبيق مبكر للمعالجة القريبة من الذاكرة لـ CXL.

موردو المحولات

تمكن محولات CXL من تجميع الذاكرة عبر مضيفين متعددين:

المورد المنتج الجيل الحالة الميزة الرئيسية
XConn XC50256 CXL 2.0 يشحن محول 256 مسار، الأول في السوق[^24]
XConn Apollo CXL 2.0 يشحن عروض تجميع الذاكرة في SC25[^25]
Panmnesia Fabric Switch CXL 3.2 في العينات نوفمبر 2025 أول تطبيق PBR[^26]
Astera Labs Leo CXL 2.0 يشحن وحدة تحكم ذاكرة ذكية[^27]
Microchip SMC 2000 CXL 2.0 يشحن وحدة تحكم توسيع الذاكرة[^28]

يمثل Fabric Switch CXL 3.2 من Panmnesia قفزة جيل: أول سيليكون ينفذ التوجيه المبني على المنفذ لمعماريات نسيج حقيقية مع حتى 4,096 عقدة.[^29]

موردو وحدات التحكم

تترجم وحدات تحكم ذاكرة CXL بين بروتوكول CXL و DRAM:

المورد الدور المنتجات الرئيسية
Marvell وحدة التحكم وحدات تحكم Structera CXL[^30]
Montage وحدة التحكم رقائق مخزن ذاكرة CXL
Astera Labs وحدة التحكم وحدة تحكم ذاكرة Leo الذكية
Microchip وحدة التحكم سلسلة SMC 2000

أكمل Structera من Marvell اختبار التشغيل البيني مع جميع موردي الذاكرة الثلاثة الرئيسيين (Samsung، Micron، SK Hynix) على منصتي Intel و AMD.[^31]


دليل تخطيط النشر

الجدولة الزمنية

الفترة جيل CXL القدرة المتوقعة التوصية
الآن-الربع الثاني 2026 CXL 2.0 توسيع الذاكرة، التجميع الأساسي تقييم الإنتاج
الربع الثالث 2026-الربع الرابع 2026 CXL 3.0/3.1 النسيج، نظير إلى نظير، 4K عقدة الاعتماد المبكر لـ AI
2027+ CXL 4.0 التجميع متعدد الرفوف، 1.5 TB/s التخطيط يبدأ الآن

تتوقع ABI Research حلول CXL 3.0/3.1 مع دعم برمجي كافٍ للاعتماد التجاري بحلول 2027.[^32]

ما يجب تقييمه الآن

فوري (2025): 1. اختبار موسعات ذاكرة CXL 2.0 على خوادم Intel Sapphire Rapids أو AMD EPYC Genoa الحالية 2. تقييم محولات XConn أو Astera Labs للذاكرة

طلب عرض سعر_

أخبرنا عن مشروعك وسنرد خلال 72 ساعة.

> TRANSMISSION_COMPLETE

تم استلام الطلب_

شكراً لاستفسارك. سيقوم فريقنا بمراجعة طلبك والرد خلال 72 ساعة.

QUEUED FOR PROCESSING