دليل تخطيط البنية التحتية لـ CXL 4.0: تجميع الذاكرة للذكاء الاصطناعي على نطاق واسع

دليل شامل لنشر CXL 4.0 يغطي المنافذ المجمعة، وتجميع الذاكرة متعدد الأرفف، وتفريغ ذاكرة KV cache، ومنظومة الموردين، والجدول الزمني للتخطيط في 2026-2027.

Blake Crosley

Mar 29, 2026 8 min read Disclaimer

دليل تخطيط البنية التحتية لـ CXL 4.0: تجميع الذاكرة للذكاء الاصطناعي على نطاق واسع

13 ديسمبر 2025

تحديث ديسمبر 2025: أصدر اتحاد CXL الإصدار 4.0 في 18 نوفمبر 2025، مضاعفاً عرض النطاق الترددي إلى 128 GT/s عبر PCIe 7.0 ومقدماً المنافذ المجمعة لاتصالات بسرعة 1.5 TB/s. يغطي هذا الدليل تخطيط النشر للمؤسسات التي تستعد لتطبيق تجميع الذاكرة القائم على CXL في بنيتها التحتية للذكاء الاصطناعي.

ملخص تنفيذي

يتيح CXL 4.0 تجميع الذاكرة على نطاق غير مسبوق، مما يسمح لأحمال عمل استدلال الذكاء الاصطناعي بالوصول إلى أكثر من 100 تيرابايت من الذاكرة المشتركة مع تماسك ذاكرة التخزين المؤقت عبر أرفف متعددة. تجمع المنافذ المجمعة في المواصفات اتصالات فعلية متعددة في مرفقات منطقية واحدة تقدم عرض نطاق ترددي يبلغ 1.5 TB/s. بالنسبة لمخططي البنية التحتية، تتمحور القرارات الرئيسية حول فهم موعد اعتماد CXL (2026-2027 للإنتاج)، والمنتجات التي يجب تقييمها الآن (محولات CXL 2.0/3.0 متوفرة للشحن)، وكيف يكمل CXL تقنيات NVLink وUALink بدلاً من استبدالها. يقدم هذا الدليل العمق التقني وأطر اتخاذ القرار اللازمة لتخطيط نشر CXL.

مشكلة جدار الذاكرة

تواجه نماذج اللغة الكبيرة قيداً جوهرياً: سعة ذاكرة وحدة معالجة الرسوميات. تتجاوز أحمال عمل استدلال الذكاء الاصطناعي الحديثة بشكل روتيني 80-120 جيجابايت لكل وحدة معالجة رسوميات، وتنمو ذاكرة التخزين المؤقت للمفتاح والقيمة (KV cache) مع طول السياق.[^1] يمكن أن يستهلك طلب استدلال واحد بنافذة سياق 128K عشرات الجيجابايت فقط لتخزين KV cache.

تتفاقم المشكلة على نطاق واسع. تستهلك أوزان النماذج للنماذج اللغوية الكبيرة المتقدمة مئات الجيجابايت. تنمو متطلبات KV cache خطياً مع كل من حجم الدفعة وطول التسلسل. تظل ذاكرة VRAM لوحدة معالجة الرسوميات ثابتة عند 80 جيجابايت (H100) أو 192 جيجابايت (B200).[^2]

الحلول التقليدية غير كافية:

النهج	القيد
إضافة المزيد من وحدات معالجة الرسوميات	زيادة خطية في التكلفة، الذاكرة لا تزال معزولة لكل وحدة
تفريغ NVMe	زمن استجابة ~100 ميكروثانية، أبطأ 100 مرة من DRAM
المشاركة القائمة على RDMA	زمن استجابة 10-20 ميكروثانية، شبكات معقدة
ذاكرة GPU أكبر	محدودة العرض، مكلفة

يغير CXL هذه المعادلة من خلال تمكين تجميع الذاكرة بزمن استجابة مماثل لـ DRAM (200-500 نانوثانية) عبر مركز البيانات.[^3]

نظرة تقنية معمقة على CXL 4.0

التطور من CXL 1.0 إلى 4.0

نضج CXL بسرعة منذ تقديمه في 2019. وسع كل جيل القدرات:

الجيل	الإصدار	قاعدة PCIe	السرعة	التطور الرئيسي
CXL 1.0/1.1	2019/2020	PCIe 5.0	32 GT/s	إرفاق ذاكرة متماسكة أساسي
CXL 2.0	2022	PCIe 5.0	32 GT/s	التبديل، تجميع الذاكرة، تعدد الأجهزة
CXL 3.0/3.1	2023/2024	PCIe 6.0	64 GT/s	دعم النسيج، نظير إلى نظير، 4,096 عقدة
CXL 4.0	نوفمبر 2025	PCIe 7.0	128 GT/s	المنافذ المجمعة، متعدد الأرفف، RAS محسن

قدم CXL 2.0 المفهوم الأساسي لتجميع الذاكرة. تتصل أجهزة ذاكرة Type 3 متعددة بمحول، مكونة مجموعة مشتركة يخصص منها المحول الموارد ديناميكياً لمضيفين مختلفين.[^4] يتيح هذا تحسين استخدام الذاكرة من 50-60% النموذجية إلى أكثر من 85% عبر المجموعة.

أضاف CXL 3.0 قدرات النسيج التي تدعم التبديل متعدد المستويات وما يصل إلى 4,096 عقدة مع التوجيه القائم على المنافذ (PBR).[^5] أدى التحول إلى FLITs بحجم 256 بايت و64 GT/s لـ PCIe 6.0 إلى مضاعفة عرض النطاق الترددي المتاح.

يضاعف CXL 4.0 عرض النطاق الترددي مرة أخرى مع تقديم ميزات حاسمة لعمليات نشر الذكاء الاصطناعي متعددة الأرفف.

بنية المنافذ المجمعة

الميزة الأكثر أهمية في CXL 4.0 للحوسبة عالية الأداء: تجمع المنافذ المجمعة منافذ أجهزة CXL الفعلية المتعددة في كيان منطقي واحد.[^6]

كيف تعمل المنافذ المجمعة:

يجمع المضيف وجهاز Type 1/2 منافذ فعلية متعددة
يرى برنامج النظام جهازاً واحداً رغم الاتصالات الفعلية المتعددة
يتجمع عرض النطاق الترددي عبر جميع المنافذ المجمعة
محسن لوضع FLIT 256 بايت، مما يلغي الحمل القديم

حسابات عرض النطاق الترددي:

التكوين	الاتجاه	عرض النطاق الترددي
منفذ x16 واحد @ 128 GT/s	أحادي الاتجاه	256 GB/s
منفذ x16 واحد @ 128 GT/s	ثنائي الاتجاه	512 GB/s
3 منافذ x16 مجمعة @ 128 GT/s	أحادي الاتجاه	768 GB/s
3 منافذ x16 مجمعة @ 128 GT/s	ثنائي الاتجاه	1,536 GB/s

للمقارنة، تقدم ذاكرة HBM3e على H200 عرض نطاق ترددي يبلغ 4.8 TB/s.[^7] يمثل اتصال CXL 4.0 المجمع بسرعة 1.5 TB/s حوالي 30% من هذا العرض الترددي—كافٍ للعديد من حالات استخدام توسيع الذاكرة حيث تهم السعة أكثر من ذروة عرض النطاق الترددي.

أساس PCIe 7.0

يبني CXL 4.0 على تحسينات الطبقة الفيزيائية لـ PCIe 7.0:[^8]

معدل نقل 128 GT/s: ضعف 64 GT/s لـ PCIe 6.0
ترميز PAM4: نفس مخطط الترميز مثل PCIe 6.0
FEC محسن: تصحيح الأخطاء الأمامي لسلامة الإشارة
دعم بصري: يتيح اتصالات بمدى أطول

تحتفظ المواصفات بتنسيق FLIT 256 بايت من CXL 3.x مع إضافة متغير محسن لزمن الاستجابة للعمليات الحساسة للوقت.[^9]

قدرات النسيج متعدد الأرفف

يوسع CXL 4.0 النطاق من خلال آليتين:

دعم أربعة معيدات توقيت: سمحت الأجيال السابقة بمعيدي توقيت. تتيح أربعة معيدات توقيت اتصالات فعلية أطول تمتد عبر أرفف متعددة دون تدهور الإشارة.[^10]

عرض x2 أصلي: كان سابقاً وضع تراجع متدهور، تعمل روابط x2 الآن بأداء كامل. يتيح هذا تكوينات توزيع أعلى حيث تخدم العديد من الاتصالات ذات عرض النطاق المنخفض نقاط نهاية أكثر.[^11]

تتضافر هذه الميزات لتمكين "تجميع الذاكرة متعدد الأرفف"—قدرة يستهدفها اتحاد CXL صراحة للنشر الإنتاجي في أواخر 2026-2027.[^12]

حالات استخدام CXL للبنية التحتية للذكاء الاصطناعي

تفريغ KV Cache لاستدلال النماذج اللغوية الكبيرة

حالة الاستخدام الأكثر تأثيراً على المدى القريب: تفريغ KV cache من ذاكرة VRAM لوحدة معالجة الرسوميات إلى الذاكرة المتصلة عبر CXL.

المشكلة: يولد استدلال النماذج اللغوية الكبيرة بسياقات طويلة ذاكرات KV cache ضخمة. يمكن أن يتطلب نموذج بـ 70 مليار معلمة مع سياق 128K وحجم دفعة 32 أكثر من 150 جيجابايت فقط لـ KV cache.[^13] يتجاوز هذا ذاكرة VRAM لـ H100، مما يفرض تخفيضات مكلفة في حجم الدفعة أو استخدام وحدات معالجة رسوميات متعددة.

حل CXL: تخزين KV cache في ذاكرة CXL المجمعة مع الاحتفاظ بالطبقات النشطة في ذاكرة VRAM لوحدة معالجة الرسوميات. عرضت XConn وMemVerge هذا في SC25 وOCP 2025:[^14]

وحدتا H100 GPU (80 جيجابايت لكل منهما) تشغلان OPT-6.7B
تفريغ KV cache إلى مجموعة ذاكرة CXL مشتركة
تسريع 3.8x مقارنة بـ 200G RDMA
تسريع 6.5x مقارنة بـ 100G RDMA
تحسين أكثر من 5x مقارنة بـ KV cache القائم على SSD

تؤكد الأبحاث الأكاديمية الفرصة. يحقق PNM-KV (المعالجة القريبة من الذاكرة لـ KV cache) تحسيناً في الإنتاجية يصل إلى 21.9x عن طريق تفريغ اختيار صفحة الرموز إلى المسرعات داخل ذاكرة CXL.[^15]

توسيع الذاكرة للتدريب

تستفيد أحمال عمل التدريب من سعة الذاكرة الموسعة لـ:

أحجام دفعات أكبر: المزيد من العينات لكل تكرار دون تراكم التدرجات
تقليل نقاط التفتيش للتنشيط: تخزين المزيد من التنشيطات في الذاكرة مقابل إعادة الحساب
حالة المحسن: يتطلب محسن Adam ضعف المعلمات للزخم/التباين

يتيح توسيع ذاكرة CXL تكوينات تدريب كانت تتطلب سابقاً توزيعاً متعدد العقد للتشغيل على عقد فردية، مما يقلل من حمل الاتصال.

الأحمال العلمية والحوسبة عالية الأداء

يستخدم مشروع Crete من PNNL مجموعات CXL لمشاركة الذاكرة عالية الإنتاجية عبر عقد الحوسبة في المحاكاة العلمية.[^16] تشمل حالات الاستخدام:

الديناميكا الجزيئية مع قوائم جوار كبيرة
تحليلات الرسوم البيانية على مجموعات بيانات بتريليون حافة
قواعد البيانات في الذاكرة التي تتجاوز سعة خادم واحد

مشهد الربط البيني

CXL مقابل NVLink مقابل UALink

يتطلب فهم موقع CXL إدراك أن هذه التقنيات تخدم أغراضاً مختلفة:

المعيار	الغرض الأساسي	الأفضل لـ
CXL	تماسك الذاكرة + التجميع	توسيع ذاكرة CPU، مجموعات الذاكرة المشتركة
NVLink	توسيع GPU إلى GPU	اتصال GPU داخل العقدة
UALink	ربط المسرعات	بديل معيار مفتوح لـ NVLink
Ultra Ethernet	شبكات التوسع	متعدد الأرفف، أكثر من 10,000 نقطة نهاية

يعمل CXL على PCIe SerDes: معدل خطأ أقل، زمن استجابة أقل، لكن عرض نطاق ترددي أقل من SerDes على طراز Ethernet لـ NVLink/UALink.[^17] يقدم NVLink 5 سرعة 1.8 TB/s لكل GPU—متجاوزاً بكثير 512 GB/s لكل منفذ x16 في CXL 4.0.[^18]

التقنيات تكمل بعضها بدلاً من التنافس:

داخل عقدة GPU: يربط NVLink وحدات GPU
بين العقد: UALink أو InfiniBand/Ethernet
توسيع الذاكرة: يضيف CXL سعة لوحدات CPU والمسرعات
مجموعات الذاكرة على مستوى النسيج: تتيح محولات CXL المشاركة عبر المضيفين

تقترح Panmnesia بنيات "CXL-over-XLink" التي تدمج الثلاثة، مع الإبلاغ عن تدريب AI أسرع بـ 5.3x وتقليل زمن استجابة الاستدلال بـ 6x مقارنة بخطوط الأساس PCIe/RDMA.[^19]

إطار اتخاذ القرار: متى تستخدم ماذا

السيناريو	الربط البيني الموصى به	المبرر
تدريب متعدد GPU داخل الخادم	NVLink	أعلى عرض نطاق ترددي، أدنى زمن استجابة
كبسولة استدلال متعدد GPU (غير NVIDIA)	UALink	معيار مفتوح، عرض نطاق ترددي عالي
توسيع الذاكرة خارج VRAM	CXL	تماسك ذاكرة التخزين المؤقت، زمن استجابة مماثل لـ DRAM
مجموعة GPU متعددة الأرفف	InfiniBand أو Ultra Ethernet	مصمم للتوسع
مجموعة ذاكرة مشتركة عبر الخوادم	محولات CXL	تجميع الذاكرة مع التماسك
الصين/الأسواق المقيدة	فكر في UB-Mesh	يتجنب تبعيات الملكية الفكرية الغربية

منظومة CXL: الموردون والمنتجات

موسعات الذاكرة

يشحن مصنعو DRAM الثلاثة الكبار جميعهم موسعات ذاكرة CXL:

المورد	المنتج	السعة	الواجهة	الحالة
Samsung	CMM-D	256 GB	CXL 2.0	إنتاج ضخم 2025[^20]
SK Hynix	CMM-DDR5	128 GB	CXL 2.0	إنتاج ضخم أواخر 2024[^21]
Micron	CZ120	256 GB	CXL 2.0	عينات[^22]
SK Hynix	CMS	512 GB	CXL (مع دعم الحوسبة)	تم الإعلان عنه[^23]

يضيف CMS (حل الذاكرة الحسابية) من SK Hynix قدرات حوسبة مباشرة في وحدة الذاكرة—تطبيق مبكر للمعالجة القريبة من الذاكرة لـ CXL.

موردو المحولات

تتيح محولات CXL تجميع الذاكرة عبر مضيفين متعددين:

المورد	المنتج	الجيل	الحالة	الميزة الرئيسية
XConn	XC50256	CXL 2.0	متوفر للشحن	محول 256 مساراً، الأول في السوق[^24]
XConn	Apollo	CXL 2.0	متوفر للشحن	عروض تجميع الذاكرة في SC25[^25]
Panmnesia	Fabric Switch	CXL 3.2	عينات نوفمبر 2025	أول تطبيق PBR[^26]
Astera Labs	Leo	CXL 2.0	متوفر للشحن	وحدة تحكم ذاكرة ذكية[^27]
Microchip	SMC 2000	CXL 2.0	متوفر للشحن	وحدة تحكم توسيع الذاكرة[^28]

يمثل محول CXL 3.2 Fabric من Panmnesia قفزة جيلية: أول سيليكون يطبق التوجيه القائم على المنافذ لبنيات النسيج الحقيقية مع ما يصل إلى 4,096 عقدة.[^29]

موردو وحدات التحكم

تترجم وحدات تحكم ذاكرة CXL بين بروتوكول CXL وDRAM:

المورد	الدور	المنتجات الرئيسية
Marvell	وحدة تحكم	وحدات تحكم Structera CXL[^30]
Montage	وحدة تحكم	شرائح مخزن ذاكرة CXL
Astera Labs	وحدة تحكم	وحدة تحكم ذاكرة Leo الذكية
Microchip	وحدة تحكم	سلسلة SMC 2000

أكملت Structera من Marvell اختبار التوافق مع جميع موردي الذاكرة الثلاثة الكبار (Samsung وMicron وSK Hynix) على منصات Intel وAMD.[^31]

دليل تخطيط النشر

الجدول الزمني

الفترة	جيل CXL	القدرة المتوقعة	التوصية
الآن - الربع الثاني 2026	CXL 2.0	توسيع الذاكرة، تجميع أساسي	تقييم الإنتاج
الربع الثالث 2026 - الربع الرابع 2026	CXL 3.0/3.1	النسيج، نظير إلى نظير، 4K عقدة	تبني مبكر للذكاء الاصطناعي
2027+	CXL 4.0	تجميع متعدد الأرفف، 1.5 TB/s	يبدأ التخطيط الآن

تتوقع ABI Research حلول CXL 3.0/3.1 مع دعم برمجي كافٍ للاعتماد التجاري بحلول 2027.[^32]

ما يجب تقييمه الآن

فوري (2025): 1. اختبار موسعات ذاكرة CXL 2.0 على خوادم Intel Sapphire Rapids أو AMD EPYC Genoa الحالية 2. تقييم محولات XConn أو Astera Labs لتجميع الذاكرة

[تم اقتطاع المحتوى للترجمة]

دليل تخطيط البنية التحتية لـ CXL 4.0: تجميع الذاكرة للذكاء الاصطناعي على نطاق واسع

ملخص تنفيذي

مشكلة جدار الذاكرة

نظرة تقنية معمقة على CXL 4.0

التطور من CXL 1.0 إلى 4.0

بنية المنافذ المجمعة

أساس PCIe 7.0

قدرات النسيج متعدد الأرفف

حالات استخدام CXL للبنية التحتية للذكاء الاصطناعي

تفريغ KV Cache لاستدلال النماذج اللغوية الكبيرة

توسيع الذاكرة للتدريب

الأحمال العلمية والحوسبة عالية الأداء

مشهد الربط البيني

CXL مقابل NVLink مقابل UALink

إطار اتخاذ القرار: متى تستخدم ماذا

منظومة CXL: الموردون والمنتجات

موسعات الذاكرة

موردو المحولات

موردو وحدات التحكم

دليل تخطيط النشر

الجدول الزمني

ما يجب تقييمه الآن

You Might Also Like

طفرة البنية التحتية للذكاء الاصطناعي بقيمة 27 مليار دولار في...

ماليزيا وتايلاند: مراكز بيانات الذكاء الاصطناعي الناشئة في ج...

النسخ الاحتياطي والاسترداد للذكاء الاصطناعي: حماية بيانات ال...

طلب عرض سعر_

تم استلام الطلب_