دليل تخطيط البنية التحتية لـ CXL 4.0: تجميع الذاكرة لـ AI على نطاق واسع

دليل نشر شامل لـ CXL 4.0 يغطي المنافذ المجمعة، تجميع الذاكرة متعدد الرفوف، تفريغ KV cache، النظام البيئي للموردين، وجدولة التخطيط 2026-2027.

Madison Kersh

Apr 27, 2026 8 min read Disclaimer

دليل تخطيط البنية التحتية لـ CXL 4.0: تجميع الذاكرة لـ AI على نطاق واسع

13 ديسمبر 2025

تحديث ديسمبر 2025: أصدر اتحاد CXL معيار CXL 4.0 في 18 نوفمبر 2025، مضاعفاً عرض النطاق إلى 128 GT/s عبر PCIe 7.0 ومقدماً المنافذ المجمعة لاتصالات بسرعة 1.5 TB/s. يغطي هذا الدليل تخطيط النشر للمؤسسات التي تستعد لتطبيق تجميع الذاكرة المبني على CXL في بنيتها التحتية لـ AI.

الملخص التنفيذي

يمكّن CXL 4.0 من تجميع الذاكرة على نطاق غير مسبوق، مما يسمح لأعباء العمل الاستنتاجية لـ AI بالوصول إلى أكثر من 100 تيرابايت من الذاكرة المشتركة مع تماسك cache عبر عدة رفوف. تجمع المنافذ المجمعة للمواصفات عدة اتصالات فيزيائية في ملحقات منطقية واحدة توفر عرض نطاق 1.5 TB/s. بالنسبة لمخططي البنية التحتية، تتضمن القرارات الرئيسية فهم متى يتم اعتماد CXL (2026-2027 للإنتاج)، والمنتجات التي يجب تقييمها الآن (محولات CXL 2.0/3.0 قيد الشحن)، وكيف يكمل CXL بدلاً من استبدال NVLink و UALink. يوفر هذا الدليل العمق التقني وأطر القرار المطلوبة لتخطيط نشر CXL.

مشكلة جدار الذاكرة

تواجه نماذج اللغة الكبيرة قيداً أساسياً: سعة ذاكرة GPU. تتجاوز أعباء العمل الاستنتاجية الحديثة لـ AI بشكل روتيني 80-120 GB لكل GPU، وينمو cache المفاتيح-القيم (KV) مع طول السياق.[^1] يمكن لطلب استنتاج واحد بنافذة سياق 128K أن يستهلك عشرات الجيجابايت فقط لتخزين KV cache.

تشتد المشكلة على نطاق واسع. تستهلك أوزان النموذج لـ LLMs المتقدمة مئات الجيجابايت. تنمو متطلبات KV cache خطياً مع حجم الدفعة وطول التسلسل. تبقى VRAM لـ GPU ثابتة عند 80GB (H100) أو 192GB (B200).[^2]

الحلول التقليدية تقصر:

النهج	القيد
إضافة المزيد من GPUs	زيادة التكلفة الخطية، الذاكرة لا تزال معزولة لكل GPU
تفريغ NVMe	زمن استجابة ~100 μs، أبطأ 100 مرة من DRAM
المشاركة المبنية على RDMA	لا يزال زمن استجابة 10-20 μs، شبكات معقدة
ذاكرة GPU أكبر	محدودة العرض، مكلفة

يغير CXL هذه المعادلة من خلال تمكين تجميع الذاكرة مع زمن استجابة مشابه لـ DRAM (200-500 ns) عبر مركز البيانات.[^3]

الغوص التقني العميق في CXL 4.0

التطور من CXL 1.0 إلى 4.0

نضج CXL بسرعة منذ تقديمه في 2019. وسع كل جيل القدرات:

الجيل	الإصدار	قاعدة PCIe	السرعة	التقدم الرئيسي
CXL 1.0/1.1	2019/2020	PCIe 5.0	32 GT/s	ربط الذاكرة المتماسكة الأساسي
CXL 2.0	2022	PCIe 5.0	32 GT/s	التبديل، تجميع الذاكرة، متعدد الأجهزة
CXL 3.0/3.1	2023/2024	PCIe 6.0	64 GT/s	دعم النسيج، نظير إلى نظير، 4,096 عقدة
CXL 4.0	نوفمبر 2025	PCIe 7.0	128 GT/s	المنافذ المجمعة، متعدد الرفوف، RAS محسن

قدم CXL 2.0 المفهوم الأساسي لتجميع الذاكرة. تتصل عدة أجهزة ذاكرة من النوع 3 بمحول، مكونة مجموعة مشتركة يخصص منها المحول الموارد ديناميكياً لمضيفين مختلفين.[^4] هذا يمكن من تحسينات استخدام الذاكرة من النموذجي 50-60% إلى 85%+ عبر المجموعة.

أضاف CXL 3.0 قدرات النسيج الداعمة للتبديل متعدد المستويات وحتى 4,096 عقدة مع التوجيه المبني على المنفذ (PBR).[^5] ضاعف التحول إلى FLITs بحجم 256 بايت و 64 GT/s لـ PCIe 6.0 عرض النطاق المتاح.

يضاعف CXL 4.0 عرض النطاق مرة أخرى بينما يقدم ميزات حاسمة لعمليات النشر متعددة الرفوف لـ AI.

معمارية المنافذ المجمعة

أهم ميزة في CXL 4.0 للحوسبة عالية الأداء: تجمع المنافذ المجمعة عدة منافذ أجهزة CXL فيزيائية في كيان منطقي واحد.[^6]

كيف تعمل المنافذ المجمعة:

يجمع المضيف وجهاز النوع 1/2 عدة منافذ فيزيائية
ترى برمجيات النظام جهازاً واحداً رغم عدة اتصالات فيزيائية
يتجمع عرض النطاق عبر جميع المنافذ المجمعة
محسن لوضع FLIT بحجم 256 بايت، مما يلغي العبء القديم

حسابات عرض النطاق:

التكوين	الاتجاه	عرض النطاق
منفذ x16 واحد @ 128 GT/s	أحادي الاتجاه	256 GB/s
منفذ x16 واحد @ 128 GT/s	ثنائي الاتجاه	512 GB/s
3 منافذ x16 مجمعة @ 128 GT/s	أحادي الاتجاه	768 GB/s
3 منافذ x16 مجمعة @ 128 GT/s	ثنائي الاتجاه	1,536 GB/s

للسياق، تقدم ذاكرة HBM3e على H200 عرض نطاق 4.8 TB/s.[^7] يمثل الاتصال المجمع CXL 4.0 بسرعة 1.5 TB/s حوالي 30% من ذلك العرض—كافٍ للعديد من حالات استخدام توسيع الذاكرة حيث تهم السعة أكثر من عرض النطاق الأقصى.

أساس PCIe 7.0

يبني CXL 4.0 على تحسينات الطبقة الفيزيائية لـ PCIe 7.0:[^8]

معدل نقل 128 GT/s: ضعف 64 GT/s لـ PCIe 6.0
إشارة PAM4: نفس مخطط الترميز كـ PCIe 6.0
FEC محسن: تصحيح الأخطاء الأمامي لسلامة الإشارة
الدعم البصري: يمكن الاتصالات بمدى أطول

تحتفظ المواصفات بتنسيق FLIT بحجم 256 بايت من CXL 3.x بينما تضيف متغيراً محسناً للزمن للعمليات الحساسة للوقت.[^9]

قدرات النسيج متعدد الرفوف

يمدد CXL 4.0 المدى عبر آليتين:

دعم أربعة معيدات توقيت: سمحت الأجيال السابقة بمعيدين. تمكن أربعة معيدات توقيت من اتصالات فيزيائية أطول تمتد عبر رفوف متعددة دون تدهور الإشارة.[^10]

عرض x2 أصلي: كان سابقاً وضع تراجع منتقص، تعمل الآن روابط x2 بالأداء الكامل. هذا يمكن تكوينات تفرع أعلى حيث تخدم العديد من الاتصالات منخفضة عرض النطاق نقاط نهاية أكثر.[^11]

تتحد هذه الميزات لتمكين "تجميع الذاكرة متعدد الرفوف"—قدرة يستهدفها اتحاد CXL صراحة لنشر الإنتاج في أواخر 2026-2027.[^12]

حالات استخدام CXL للبنية التحتية لـ AI

تفريغ KV Cache لاستنتاج LLM

حالة الاستخدام الأعلى تأثيراً على المدى القريب: تفريغ KV cache من VRAM لـ GPU إلى ذاكرة متصلة بـ CXL.

المشكلة: ينتج استنتاج LLM بسياقات طويلة KV caches ضخمة. يمكن لنموذج بـ 70B معامل مع سياق 128K وحجم دفعة 32 أن يتطلب 150+ GB فقط لـ KV cache.[^13] هذا يتجاوز VRAM لـ H100، مما يفرض تخفيضات مكلفة في حجم الدفعة أو GPUs متعددة.

حل CXL: تخزين KV cache في مجموعة ذاكرة CXL مجمعة بينما يحتفظ بالطبقات الساخنة في VRAM لـ GPU. أظهر XConn و MemVerge هذا في SC25 و OCP 2025:[^14]

اثنان من GPUs H100 (80GB لكل منهما) يشغلان OPT-6.7B
تفريغ KV cache إلى مجموعة ذاكرة CXL مشتركة
تسريع 3.8x مقابل RDMA 200G
تسريع 6.5x مقابل RDMA 100G
تحسن >5x مقابل KV cache مبني على SSD

تؤكد الأبحاث الأكاديمية الفرصة. يحقق PNM-KV (Processing-Near-Memory لـ KV cache) تحسناً في الإنتاجية يصل إلى 21.9x من خلال تفريغ اختيار صفحة الرمز إلى مسرعات داخل ذاكرة CXL.[^15]

توسيع الذاكرة للتدريب

تستفيد أعباء عمل التدريب من سعة الذاكرة الموسعة لـ:

أحجام دفعات أكبر: عينات أكثر لكل تكرار دون تراكم التدرج
تقليل نقاط تفتيش التنشيط: تخزين المزيد من التنشيطات في الذاكرة مقابل إعادة الحساب
حالة المحسن: يتطلب محسن Adam 2x من المعاملات للزخم/التباين

يمكّن توسيع ذاكرة CXL من تكوينات تدريب كانت تتطلب سابقاً توزيعاً متعدد العقد للعمل على عقد واحدة، مما يقلل عبء التواصل.

أعباء العمل العلمية و HPC

يستخدم مشروع Crete في PNNL مجموعات CXL للمشاركة عالية الإنتاجية للذاكرة عبر عقد الحوسبة في المحاكيات العلمية.[^16] تشمل حالات الاستخدام:

الديناميكا الجزيئية مع قوائم جوار كبيرة
تحليلات الرسم البياني على مجموعات بيانات تريليون حافة
قواعد بيانات في الذاكرة تتجاوز سعة خادم واحد

مشهد الربط البيني

CXL مقابل NVLink مقابل UALink

يتطلب فهم موضع CXL إدراك أن هذه التقنيات تخدم أغراضاً مختلفة:

المعيار	الغرض الأساسي	الأفضل لـ
CXL	تماسك الذاكرة + التجميع	توسيع ذاكرة CPU، مجموعات ذاكرة مشتركة
NVLink	تحجيم GPU-to-GPU	تواصل GPU داخل العقدة
UALink	ربط المسرع	بديل معيار مفتوح لـ NVLink
Ultra Ethernet	شبكات التوسع	متعدد الرفوف، 10,000+ نقطة نهاية

يعمل CXL على PCIe SerDes: معدل خطأ أقل، زمن استجابة أقل، لكن عرض نطاق أقل من NVLink/UALink's Ethernet-style SerDes.[^17] يقدم NVLink 5 سرعة 1.8 TB/s لكل GPU—يتجاوز بكثير 512 GB/s لكل منفذ x16 لـ CXL 4.0.[^18]

التقنيات تكمل بدلاً من التنافس:

داخل عقدة GPU: يربط NVLink بين GPUs
بين العقد: UALink أو InfiniBand/Ethernet
توسيع الذاكرة: يضيف CXL سعة إلى CPUs والمسرعات
مجموعات ذاكرة على مستوى النسيج: تمكن محولات CXL المشاركة عبر المضيفين

تقترح Panmnesia معماريات "CXL-over-XLink" التي تدمج الثلاثة جميعاً، مُبلغة عن تدريب AI أسرع بـ 5.3x وتقليل زمن استجابة الاستنتاج بـ 6x مقابل خطوط أساس PCIe/RDMA.[^19]

إطار القرار: متى تستخدم ماذا

السيناريو	الربط البيني الموصى به	المنطق
تدريب متعدد GPU داخل الخادم	NVLink	أعلى عرض نطاق، أقل زمن استجابة
كبسولة استنتاج متعدد GPU (غير NVIDIA)	UALink	معيار مفتوح، عرض نطاق عالي
توسيع الذاكرة ما بعد VRAM	CXL	تماسك cache، زمن استجابة مشابه لـ DRAM
مجموعة GPU متعددة الرفوف	InfiniBand أو Ultra Ethernet	مصمم للتوسع
مجموعة ذاكرة مشتركة عبر الخوادم	محولات CXL	تجميع الذاكرة مع التماسك
الصين/الأسواق المقيدة	اعتبر UB-Mesh	يتجنب تبعيات IP الغربية

نظام CXL البيئي: الموردون والمنتجات

موسعات الذاكرة

جميع مصنعي DRAM الثلاثة الرئيسيين يشحنون موسعات ذاكرة CXL:

المورد	المنتج	السعة	الواجهة	الحالة
Samsung	CMM-D	256 GB	CXL 2.0	إنتاج ضخم 2025[^20]
SK Hynix	CMM-DDR5	128 GB	CXL 2.0	إنتاج ضخم أواخر 2024[^21]
Micron	CZ120	256 GB	CXL 2.0	في العينات[^22]
SK Hynix	CMS	512 GB	CXL (مُمكن للحوسبة)	مُعلن[^23]

يضيف CMS (حل الذاكرة الحاسوبية) من SK Hynix قدرات حاسوبية مباشرة في وحدة الذاكرة—تطبيق مبكر للمعالجة القريبة من الذاكرة لـ CXL.

موردو المحولات

تمكن محولات CXL من تجميع الذاكرة عبر مضيفين متعددين:

المورد	المنتج	الجيل	الحالة	الميزة الرئيسية
XConn	XC50256	CXL 2.0	يشحن	محول 256 مسار، الأول في السوق[^24]
XConn	Apollo	CXL 2.0	يشحن	عروض تجميع الذاكرة في SC25[^25]
Panmnesia	Fabric Switch	CXL 3.2	في العينات نوفمبر 2025	أول تطبيق PBR[^26]
Astera Labs	Leo	CXL 2.0	يشحن	وحدة تحكم ذاكرة ذكية[^27]
Microchip	SMC 2000	CXL 2.0	يشحن	وحدة تحكم توسيع الذاكرة[^28]

يمثل Fabric Switch CXL 3.2 من Panmnesia قفزة جيل: أول سيليكون ينفذ التوجيه المبني على المنفذ لمعماريات نسيج حقيقية مع حتى 4,096 عقدة.[^29]

موردو وحدات التحكم

تترجم وحدات تحكم ذاكرة CXL بين بروتوكول CXL و DRAM:

المورد	الدور	المنتجات الرئيسية
Marvell	وحدة التحكم	وحدات تحكم Structera CXL[^30]
Montage	وحدة التحكم	رقائق مخزن ذاكرة CXL
Astera Labs	وحدة التحكم	وحدة تحكم ذاكرة Leo الذكية
Microchip	وحدة التحكم	سلسلة SMC 2000

أكمل Structera من Marvell اختبار التشغيل البيني مع جميع موردي الذاكرة الثلاثة الرئيسيين (Samsung، Micron، SK Hynix) على منصتي Intel و AMD.[^31]

دليل تخطيط النشر

الجدولة الزمنية

الفترة	جيل CXL	القدرة المتوقعة	التوصية
الآن-الربع الثاني 2026	CXL 2.0	توسيع الذاكرة، التجميع الأساسي	تقييم الإنتاج
الربع الثالث 2026-الربع الرابع 2026	CXL 3.0/3.1	النسيج، نظير إلى نظير، 4K عقدة	الاعتماد المبكر لـ AI
2027+	CXL 4.0	التجميع متعدد الرفوف، 1.5 TB/s	التخطيط يبدأ الآن

تتوقع ABI Research حلول CXL 3.0/3.1 مع دعم برمجي كافٍ للاعتماد التجاري بحلول 2027.[^32]

ما يجب تقييمه الآن

فوري (2025): 1. اختبار موسعات ذاكرة CXL 2.0 على خوادم Intel Sapphire Rapids أو AMD EPYC Genoa الحالية 2. تقييم محولات XConn أو Astera Labs للذاكرة

دليل تخطيط البنية التحتية لـ CXL 4.0: تجميع الذاكرة لـ AI على نطاق واسع

الملخص التنفيذي

مشكلة جدار الذاكرة

الغوص التقني العميق في CXL 4.0

التطور من CXL 1.0 إلى 4.0

معمارية المنافذ المجمعة

أساس PCIe 7.0

قدرات النسيج متعدد الرفوف

حالات استخدام CXL للبنية التحتية لـ AI

تفريغ KV Cache لاستنتاج LLM

توسيع الذاكرة للتدريب

أعباء العمل العلمية و HPC

مشهد الربط البيني

CXL مقابل NVLink مقابل UALink

إطار القرار: متى تستخدم ماذا

نظام CXL البيئي: الموردون والمنتجات

موسعات الذاكرة

موردو المحولات

موردو وحدات التحكم

دليل تخطيط النشر

الجدولة الزمنية

ما يجب تقييمه الآن

You Might Also Like

جدولة أحمال عمل AI: تحسين استخدام GPU عبر المناطق الزمنية

عمليات أمن البنية التحتية للـ AI: متطلبات SOC لمجموعات GPU

استثمار البنية التحتية للـ AI بقيمة 600 مليار دولار: الإنفاق...

طلب عرض سعر_

تم استلام الطلب_