دليل تخطيط البنية التحتية لـ CXL 4.0: تجميع الذاكرة للذكاء الاصطناعي على نطاق واسع

دليل شامل لنشر CXL 4.0 يغطي المنافذ المجمعة، وتجميع الذاكرة متعدد الأرفف، وتفريغ ذاكرة KV cache، ومنظومة الموردين، والجدول الزمني للتخطيط في 2026-2027.

دليل تخطيط البنية التحتية لـ CXL 4.0: تجميع الذاكرة للذكاء الاصطناعي على نطاق واسع

دليل تخطيط البنية التحتية لـ CXL 4.0: تجميع الذاكرة للذكاء الاصطناعي على نطاق واسع

13 ديسمبر 2025

تحديث ديسمبر 2025: أصدر اتحاد CXL الإصدار 4.0 في 18 نوفمبر 2025، مضاعفاً عرض النطاق الترددي إلى 128 GT/s عبر PCIe 7.0 ومقدماً المنافذ المجمعة لاتصالات بسرعة 1.5 TB/s. يغطي هذا الدليل تخطيط النشر للمؤسسات التي تستعد لتطبيق تجميع الذاكرة القائم على CXL في بنيتها التحتية للذكاء الاصطناعي.


ملخص تنفيذي

يتيح CXL 4.0 تجميع الذاكرة على نطاق غير مسبوق، مما يسمح لأحمال عمل استدلال الذكاء الاصطناعي بالوصول إلى أكثر من 100 تيرابايت من الذاكرة المشتركة مع تماسك ذاكرة التخزين المؤقت عبر أرفف متعددة. تجمع المنافذ المجمعة في المواصفات اتصالات فعلية متعددة في مرفقات منطقية واحدة تقدم عرض نطاق ترددي يبلغ 1.5 TB/s. بالنسبة لمخططي البنية التحتية، تتمحور القرارات الرئيسية حول فهم موعد اعتماد CXL (2026-2027 للإنتاج)، والمنتجات التي يجب تقييمها الآن (محولات CXL 2.0/3.0 متوفرة للشحن)، وكيف يكمل CXL تقنيات NVLink وUALink بدلاً من استبدالها. يقدم هذا الدليل العمق التقني وأطر اتخاذ القرار اللازمة لتخطيط نشر CXL.


مشكلة جدار الذاكرة

تواجه نماذج اللغة الكبيرة قيداً جوهرياً: سعة ذاكرة وحدة معالجة الرسوميات. تتجاوز أحمال عمل استدلال الذكاء الاصطناعي الحديثة بشكل روتيني 80-120 جيجابايت لكل وحدة معالجة رسوميات، وتنمو ذاكرة التخزين المؤقت للمفتاح والقيمة (KV cache) مع طول السياق.[^1] يمكن أن يستهلك طلب استدلال واحد بنافذة سياق 128K عشرات الجيجابايت فقط لتخزين KV cache.

تتفاقم المشكلة على نطاق واسع. تستهلك أوزان النماذج للنماذج اللغوية الكبيرة المتقدمة مئات الجيجابايت. تنمو متطلبات KV cache خطياً مع كل من حجم الدفعة وطول التسلسل. تظل ذاكرة VRAM لوحدة معالجة الرسوميات ثابتة عند 80 جيجابايت (H100) أو 192 جيجابايت (B200).[^2]

الحلول التقليدية غير كافية:

النهج القيد
إضافة المزيد من وحدات معالجة الرسوميات زيادة خطية في التكلفة، الذاكرة لا تزال معزولة لكل وحدة
تفريغ NVMe زمن استجابة ~100 ميكروثانية، أبطأ 100 مرة من DRAM
المشاركة القائمة على RDMA زمن استجابة 10-20 ميكروثانية، شبكات معقدة
ذاكرة GPU أكبر محدودة العرض، مكلفة

يغير CXL هذه المعادلة من خلال تمكين تجميع الذاكرة بزمن استجابة مماثل لـ DRAM (200-500 نانوثانية) عبر مركز البيانات.[^3]


نظرة تقنية معمقة على CXL 4.0

التطور من CXL 1.0 إلى 4.0

نضج CXL بسرعة منذ تقديمه في 2019. وسع كل جيل القدرات:

الجيل الإصدار قاعدة PCIe السرعة التطور الرئيسي
CXL 1.0/1.1 2019/2020 PCIe 5.0 32 GT/s إرفاق ذاكرة متماسكة أساسي
CXL 2.0 2022 PCIe 5.0 32 GT/s التبديل، تجميع الذاكرة، تعدد الأجهزة
CXL 3.0/3.1 2023/2024 PCIe 6.0 64 GT/s دعم النسيج، نظير إلى نظير، 4,096 عقدة
CXL 4.0 نوفمبر 2025 PCIe 7.0 128 GT/s المنافذ المجمعة، متعدد الأرفف، RAS محسن

قدم CXL 2.0 المفهوم الأساسي لتجميع الذاكرة. تتصل أجهزة ذاكرة Type 3 متعددة بمحول، مكونة مجموعة مشتركة يخصص منها المحول الموارد ديناميكياً لمضيفين مختلفين.[^4] يتيح هذا تحسين استخدام الذاكرة من 50-60% النموذجية إلى أكثر من 85% عبر المجموعة.

أضاف CXL 3.0 قدرات النسيج التي تدعم التبديل متعدد المستويات وما يصل إلى 4,096 عقدة مع التوجيه القائم على المنافذ (PBR).[^5] أدى التحول إلى FLITs بحجم 256 بايت و64 GT/s لـ PCIe 6.0 إلى مضاعفة عرض النطاق الترددي المتاح.

يضاعف CXL 4.0 عرض النطاق الترددي مرة أخرى مع تقديم ميزات حاسمة لعمليات نشر الذكاء الاصطناعي متعددة الأرفف.

بنية المنافذ المجمعة

الميزة الأكثر أهمية في CXL 4.0 للحوسبة عالية الأداء: تجمع المنافذ المجمعة منافذ أجهزة CXL الفعلية المتعددة في كيان منطقي واحد.[^6]

كيف تعمل المنافذ المجمعة:

  1. يجمع المضيف وجهاز Type 1/2 منافذ فعلية متعددة
  2. يرى برنامج النظام جهازاً واحداً رغم الاتصالات الفعلية المتعددة
  3. يتجمع عرض النطاق الترددي عبر جميع المنافذ المجمعة
  4. محسن لوضع FLIT 256 بايت، مما يلغي الحمل القديم

حسابات عرض النطاق الترددي:

التكوين الاتجاه عرض النطاق الترددي
منفذ x16 واحد @ 128 GT/s أحادي الاتجاه 256 GB/s
منفذ x16 واحد @ 128 GT/s ثنائي الاتجاه 512 GB/s
3 منافذ x16 مجمعة @ 128 GT/s أحادي الاتجاه 768 GB/s
3 منافذ x16 مجمعة @ 128 GT/s ثنائي الاتجاه 1,536 GB/s

للمقارنة، تقدم ذاكرة HBM3e على H200 عرض نطاق ترددي يبلغ 4.8 TB/s.[^7] يمثل اتصال CXL 4.0 المجمع بسرعة 1.5 TB/s حوالي 30% من هذا العرض الترددي—كافٍ للعديد من حالات استخدام توسيع الذاكرة حيث تهم السعة أكثر من ذروة عرض النطاق الترددي.

أساس PCIe 7.0

يبني CXL 4.0 على تحسينات الطبقة الفيزيائية لـ PCIe 7.0:[^8]

  • معدل نقل 128 GT/s: ضعف 64 GT/s لـ PCIe 6.0
  • ترميز PAM4: نفس مخطط الترميز مثل PCIe 6.0
  • FEC محسن: تصحيح الأخطاء الأمامي لسلامة الإشارة
  • دعم بصري: يتيح اتصالات بمدى أطول

تحتفظ المواصفات بتنسيق FLIT 256 بايت من CXL 3.x مع إضافة متغير محسن لزمن الاستجابة للعمليات الحساسة للوقت.[^9]

قدرات النسيج متعدد الأرفف

يوسع CXL 4.0 النطاق من خلال آليتين:

دعم أربعة معيدات توقيت: سمحت الأجيال السابقة بمعيدي توقيت. تتيح أربعة معيدات توقيت اتصالات فعلية أطول تمتد عبر أرفف متعددة دون تدهور الإشارة.[^10]

عرض x2 أصلي: كان سابقاً وضع تراجع متدهور، تعمل روابط x2 الآن بأداء كامل. يتيح هذا تكوينات توزيع أعلى حيث تخدم العديد من الاتصالات ذات عرض النطاق المنخفض نقاط نهاية أكثر.[^11]

تتضافر هذه الميزات لتمكين "تجميع الذاكرة متعدد الأرفف"—قدرة يستهدفها اتحاد CXL صراحة للنشر الإنتاجي في أواخر 2026-2027.[^12]


حالات استخدام CXL للبنية التحتية للذكاء الاصطناعي

تفريغ KV Cache لاستدلال النماذج اللغوية الكبيرة

حالة الاستخدام الأكثر تأثيراً على المدى القريب: تفريغ KV cache من ذاكرة VRAM لوحدة معالجة الرسوميات إلى الذاكرة المتصلة عبر CXL.

المشكلة: يولد استدلال النماذج اللغوية الكبيرة بسياقات طويلة ذاكرات KV cache ضخمة. يمكن أن يتطلب نموذج بـ 70 مليار معلمة مع سياق 128K وحجم دفعة 32 أكثر من 150 جيجابايت فقط لـ KV cache.[^13] يتجاوز هذا ذاكرة VRAM لـ H100، مما يفرض تخفيضات مكلفة في حجم الدفعة أو استخدام وحدات معالجة رسوميات متعددة.

حل CXL: تخزين KV cache في ذاكرة CXL المجمعة مع الاحتفاظ بالطبقات النشطة في ذاكرة VRAM لوحدة معالجة الرسوميات. عرضت XConn وMemVerge هذا في SC25 وOCP 2025:[^14]

  • وحدتا H100 GPU (80 جيجابايت لكل منهما) تشغلان OPT-6.7B
  • تفريغ KV cache إلى مجموعة ذاكرة CXL مشتركة
  • تسريع 3.8x مقارنة بـ 200G RDMA
  • تسريع 6.5x مقارنة بـ 100G RDMA
  • تحسين أكثر من 5x مقارنة بـ KV cache القائم على SSD

تؤكد الأبحاث الأكاديمية الفرصة. يحقق PNM-KV (المعالجة القريبة من الذاكرة لـ KV cache) تحسيناً في الإنتاجية يصل إلى 21.9x عن طريق تفريغ اختيار صفحة الرموز إلى المسرعات داخل ذاكرة CXL.[^15]

توسيع الذاكرة للتدريب

تستفيد أحمال عمل التدريب من سعة الذاكرة الموسعة لـ:

  • أحجام دفعات أكبر: المزيد من العينات لكل تكرار دون تراكم التدرجات
  • تقليل نقاط التفتيش للتنشيط: تخزين المزيد من التنشيطات في الذاكرة مقابل إعادة الحساب
  • حالة المحسن: يتطلب محسن Adam ضعف المعلمات للزخم/التباين

يتيح توسيع ذاكرة CXL تكوينات تدريب كانت تتطلب سابقاً توزيعاً متعدد العقد للتشغيل على عقد فردية، مما يقلل من حمل الاتصال.

الأحمال العلمية والحوسبة عالية الأداء

يستخدم مشروع Crete من PNNL مجموعات CXL لمشاركة الذاكرة عالية الإنتاجية عبر عقد الحوسبة في المحاكاة العلمية.[^16] تشمل حالات الاستخدام:

  • الديناميكا الجزيئية مع قوائم جوار كبيرة
  • تحليلات الرسوم البيانية على مجموعات بيانات بتريليون حافة
  • قواعد البيانات في الذاكرة التي تتجاوز سعة خادم واحد

مشهد الربط البيني

يتطلب فهم موقع CXL إدراك أن هذه التقنيات تخدم أغراضاً مختلفة:

المعيار الغرض الأساسي الأفضل لـ
CXL تماسك الذاكرة + التجميع توسيع ذاكرة CPU، مجموعات الذاكرة المشتركة
NVLink توسيع GPU إلى GPU اتصال GPU داخل العقدة
UALink ربط المسرعات بديل معيار مفتوح لـ NVLink
Ultra Ethernet شبكات التوسع متعدد الأرفف، أكثر من 10,000 نقطة نهاية

يعمل CXL على PCIe SerDes: معدل خطأ أقل، زمن استجابة أقل، لكن عرض نطاق ترددي أقل من SerDes على طراز Ethernet لـ NVLink/UALink.[^17] يقدم NVLink 5 سرعة 1.8 TB/s لكل GPU—متجاوزاً بكثير 512 GB/s لكل منفذ x16 في CXL 4.0.[^18]

التقنيات تكمل بعضها بدلاً من التنافس:

  • داخل عقدة GPU: يربط NVLink وحدات GPU
  • بين العقد: UALink أو InfiniBand/Ethernet
  • توسيع الذاكرة: يضيف CXL سعة لوحدات CPU والمسرعات
  • مجموعات الذاكرة على مستوى النسيج: تتيح محولات CXL المشاركة عبر المضيفين

تقترح Panmnesia بنيات "CXL-over-XLink" التي تدمج الثلاثة، مع الإبلاغ عن تدريب AI أسرع بـ 5.3x وتقليل زمن استجابة الاستدلال بـ 6x مقارنة بخطوط الأساس PCIe/RDMA.[^19]

إطار اتخاذ القرار: متى تستخدم ماذا

السيناريو الربط البيني الموصى به المبرر
تدريب متعدد GPU داخل الخادم NVLink أعلى عرض نطاق ترددي، أدنى زمن استجابة
كبسولة استدلال متعدد GPU (غير NVIDIA) UALink معيار مفتوح، عرض نطاق ترددي عالي
توسيع الذاكرة خارج VRAM CXL تماسك ذاكرة التخزين المؤقت، زمن استجابة مماثل لـ DRAM
مجموعة GPU متعددة الأرفف InfiniBand أو Ultra Ethernet مصمم للتوسع
مجموعة ذاكرة مشتركة عبر الخوادم محولات CXL تجميع الذاكرة مع التماسك
الصين/الأسواق المقيدة فكر في UB-Mesh يتجنب تبعيات الملكية الفكرية الغربية

منظومة CXL: الموردون والمنتجات

موسعات الذاكرة

يشحن مصنعو DRAM الثلاثة الكبار جميعهم موسعات ذاكرة CXL:

المورد المنتج السعة الواجهة الحالة
Samsung CMM-D 256 GB CXL 2.0 إنتاج ضخم 2025[^20]
SK Hynix CMM-DDR5 128 GB CXL 2.0 إنتاج ضخم أواخر 2024[^21]
Micron CZ120 256 GB CXL 2.0 عينات[^22]
SK Hynix CMS 512 GB CXL (مع دعم الحوسبة) تم الإعلان عنه[^23]

يضيف CMS (حل الذاكرة الحسابية) من SK Hynix قدرات حوسبة مباشرة في وحدة الذاكرة—تطبيق مبكر للمعالجة القريبة من الذاكرة لـ CXL.

موردو المحولات

تتيح محولات CXL تجميع الذاكرة عبر مضيفين متعددين:

المورد المنتج الجيل الحالة الميزة الرئيسية
XConn XC50256 CXL 2.0 متوفر للشحن محول 256 مساراً، الأول في السوق[^24]
XConn Apollo CXL 2.0 متوفر للشحن عروض تجميع الذاكرة في SC25[^25]
Panmnesia Fabric Switch CXL 3.2 عينات نوفمبر 2025 أول تطبيق PBR[^26]
Astera Labs Leo CXL 2.0 متوفر للشحن وحدة تحكم ذاكرة ذكية[^27]
Microchip SMC 2000 CXL 2.0 متوفر للشحن وحدة تحكم توسيع الذاكرة[^28]

يمثل محول CXL 3.2 Fabric من Panmnesia قفزة جيلية: أول سيليكون يطبق التوجيه القائم على المنافذ لبنيات النسيج الحقيقية مع ما يصل إلى 4,096 عقدة.[^29]

موردو وحدات التحكم

تترجم وحدات تحكم ذاكرة CXL بين بروتوكول CXL وDRAM:

المورد الدور المنتجات الرئيسية
Marvell وحدة تحكم وحدات تحكم Structera CXL[^30]
Montage وحدة تحكم شرائح مخزن ذاكرة CXL
Astera Labs وحدة تحكم وحدة تحكم ذاكرة Leo الذكية
Microchip وحدة تحكم سلسلة SMC 2000

أكملت Structera من Marvell اختبار التوافق مع جميع موردي الذاكرة الثلاثة الكبار (Samsung وMicron وSK Hynix) على منصات Intel وAMD.[^31]


دليل تخطيط النشر

الجدول الزمني

الفترة جيل CXL القدرة المتوقعة التوصية
الآن - الربع الثاني 2026 CXL 2.0 توسيع الذاكرة، تجميع أساسي تقييم الإنتاج
الربع الثالث 2026 - الربع الرابع 2026 CXL 3.0/3.1 النسيج، نظير إلى نظير، 4K عقدة تبني مبكر للذكاء الاصطناعي
2027+ CXL 4.0 تجميع متعدد الأرفف، 1.5 TB/s يبدأ التخطيط الآن

تتوقع ABI Research حلول CXL 3.0/3.1 مع دعم برمجي كافٍ للاعتماد التجاري بحلول 2027.[^32]

ما يجب تقييمه الآن

فوري (2025): 1. اختبار موسعات ذاكرة CXL 2.0 على خوادم Intel Sapphire Rapids أو AMD EPYC Genoa الحالية 2. تقييم محولات XConn أو Astera Labs لتجميع الذاكرة

[تم اقتطاع المحتوى للترجمة]

طلب عرض سعر_

أخبرنا عن مشروعك وسنرد خلال 72 ساعة.

> TRANSMISSION_COMPLETE

تم استلام الطلب_

شكراً لاستفسارك. سيقوم فريقنا بمراجعة طلبك والرد خلال 72 ساعة.

QUEUED FOR PROCESSING