คู่มือวางแผน Infrastructure CXL 4.0: Memory Pooling สำหรับ AI ขนาดใหญ่
13 ธันวาคม 2025
อัปเดตธันวาคม 2025: CXL Consortium เปิดตัว CXL 4.0 เมื่อวันที่ 18 พฤศจิกายน 2025 เพิ่มแบนด์วิดท์เป็นสองเท่าเป็น 128 GT/s ผ่าน PCIe 7.0 และเปิดตัว bundled ports สำหรับการเชื่อมต่อ 1.5 TB/s คู่มือนี้ครอบคลุมการวางแผนการติดตั้งสำหรับองค์กรที่เตรียมพร้อมที่จะใช้ memory pooling แบบ CXL ใน AI infrastructure
สรุปสำคัญ
CXL 4.0 ทำให้ memory pooling ในขนาดที่ไม่เคยมีมาก่อนเป็นไปได้ ช่วยให้ AI inference workloads เข้าถึงหน่วยความจำที่ใช้ร่วมกันมากกว่า 100 เทราไบต์พร้อม cache coherency ข้าม multiple racks specification ของ bundled ports รวมการเชื่อมต่อทางกายภาพหลายตัวเป็น logical attachments เดียวที่ส่งแบนด์วิดท์ 1.5 TB/s สำหรับผู้วางแผน infrastructure การตัดสินใจสำคัญประกอบด้วยการเข้าใจว่าเมื่อไหร่ควรนำ CXL มาใช้ (2026-2027 สำหรับการใช้งานจริง) ผลิตภัณฑ์ใดที่ควรประเมินตอนนี้ (CXL 2.0/3.0 switches กำลังจัดส่ง) และ CXL เสริมมากกว่าทดแทน NVLink และ UALink คู่มือนี้ให้ความลึกทางเทคนิคและกรอบการตัดสินใจที่จำเป็นสำหรับการวางแผนการติดตั้ง CXL
ปัญหา Memory Wall
โมเดลภาษาขนาดใหญ่พบข้อจำกัดพื้นฐาน: ความจุ GPU memory AI inference workloads สมัยใหม่เกิน 80-120 GB ต่อ GPU เป็นประจำ และ key-value (KV) cache เพิ่มขึ้นตามความยาว context[^1] คำขอ inference เดียวกับ 128K context window สามารถใช้หน่วยความจำหลายสิบ gigabytes เพียงสำหรับ KV cache storage เท่านั้น
ปัญหาทวีความรุนแรงในระดับขนาดใหญ่ น้ำหนักโมเดลสำหรับ frontier LLMs ใช้หลายร้อย gigabytes ความต้องการ KV cache เพิ่มขึ้นเชิงเส้นกับทั้ง batch size และ sequence length GPU VRAM ยังคงอยู่ที่ 80GB (H100) หรือ 192GB (B200)[^2]
โซลูชันแบบดั้งเดิมไม่เพียงพอ:
| วิธีการ | ข้อจำกัด |
|---|---|
| เพิ่ม GPU มากขึ้น | ต้นทุนเพิ่มขึ้นเชิงเส้น หน่วยความจำยังแยกต่อ GPU |
| NVMe offloading | ~100 μs latency ช้ากว่า DRAM 100 เท่า |
| RDMA-based sharing | ยังคง 10-20 μs latency networking ซับซ้อน |
| GPU memory ขนาดใหญ่กว่า | มีข้อจำกัดด้านอุปทาน แพง |
CXL เปลี่ยนสมการนี้โดยทำให้ memory pooling ด้วย latency คล้าย DRAM (200-500 ns) ทั่ว data center เป็นไปได้[^3]
CXL 4.0 เจาะลึกเทคนิค
วิวัฒนาการจาก CXL 1.0 ถึง 4.0
CXL พัฒนาอย่างรวดเร็วตั้งแต่เปิดตัวในปี 2019 แต่ละรุ่นขยายความสามารถ:
| รุ่น | เปิดตัว | PCIe Base | ความเร็ว | ความก้าวหน้าสำคัญ |
|---|---|---|---|---|
| CXL 1.0/1.1 | 2019/2020 | PCIe 5.0 | 32 GT/s | Basic coherent memory attach |
| CXL 2.0 | 2022 | PCIe 5.0 | 32 GT/s | Switching, memory pooling, multi-device |
| CXL 3.0/3.1 | 2023/2024 | PCIe 6.0 | 64 GT/s | Fabric support, peer-to-peer, 4,096 nodes |
| CXL 4.0 | พ.ย. 2025 | PCIe 7.0 | 128 GT/s | Bundled ports, multi-rack, enhanced RAS |
CXL 2.0 แนะนำแนวคิดพื้นฐานของ memory pooling อุปกรณ์ Type 3 memory หลายตัวเชื่อมต่อกับ switch ก่อตั้ง shared pool ที่ switch จัดสรรทรัพยากรแบบไดนามิกให้กับ hosts ต่างๆ[^4] สิ่งนี้ทำให้การปรับปรุงการใช้งานหน่วยความจำจาก 50-60% โดยทั่วไปเป็น 85%+ ทั่วทั้ง cluster
CXL 3.0 เพิ่มความสามารถ fabric สนับสนุน multi-level switching และ nodes สูงถึง 4,096 nodes ด้วย port-based routing (PBR)[^5] การเปลี่ยนเป็น 256-byte FLITs และ 64 GT/s ของ PCIe 6.0 เพิ่มแบนด์วิดท์ที่มีอยู่เป็นสองเท่า
CXL 4.0 เพิ่มแบนด์วิดท์อีกครั้งเป็นสองเท่าพร้อมแนะนำคุณสมบัติที่สำคัญสำหรับการติดตั้ง multi-rack AI
สถาปัตยกรรม Bundled Ports
คุณสมบัติที่สำคัญที่สุดของ CXL 4.0 สำหรับ high-performance computing: bundled ports รวม CXL device ports ทางกายภาพหลายตัวเป็น logical entity เดียว[^6]
วิธีการทำงานของ bundled ports:
- Host และ Type 1/2 device รวม physical ports หลายตัว
- System software เห็น device เดียวแม้มีการเชื่อมต่อทางกายภาพหลายตัว
- แบนด์วิดท์รวมกันทั่วทุก bundled ports
- เพิ่มประสิทธิภาพสำหรับ 256-byte FLIT mode ขจัด legacy overhead
การคำนวณแบนด์วิดท์:
| การกำหนดค่า | ทิศทาง | แบนด์วิดท์ |
|---|---|---|
| Single x16 port @ 128 GT/s | Unidirectional | 256 GB/s |
| Single x16 port @ 128 GT/s | Bidirectional | 512 GB/s |
| 3 bundled x16 ports @ 128 GT/s | Unidirectional | 768 GB/s |
| 3 bundled x16 ports @ 128 GT/s | Bidirectional | 1,536 GB/s |
สำหรับบริบท หน่วยความจำ HBM3e บน H200 ส่งแบนด์วิดท์ 4.8 TB/s[^7] การเชื่อมต่อ bundled CXL 4.0 ที่ 1.5 TB/s แสดงประมาณ 30% ของแบนด์วิดท์นั้น—เพียงพอสำหรับ use cases การขยายหน่วยความจำหลายกรณีที่ความจุสำคัญกว่าแบนด์วิดท์สูงสุด
รากฐาน PCIe 7.0
CXL 4.0 สร้างบนการปรับปรุง physical layer ของ PCIe 7.0:[^8]
- อัตราการถ่ายโอน 128 GT/s: สองเท่าของ 64 GT/s ของ PCIe 6.0
- การส่งสัญญาณ PAM4: รูปแบบการเข้ารหัสเดียวกับ PCIe 6.0
- FEC ที่ปรับปรุงแล้ว: Forward error correction สำหรับความสมบูรณ์ของสัญญาณ
- การสนับสนุนแสง: ทำให้การเชื่อมต่อระยะไกลเป็นไปได้
specification รักษารูปแบบ 256-byte FLIT จาก CXL 3.x พร้อมเพิ่มตัวแปรที่เพิ่มประสิทธิภาพ latency สำหรับการดำเนินการที่ sensitive ต่อเวลา[^9]
ความสามารถ Multi-Rack Fabric
CXL 4.0 ขยายระยะผ่านสองกลไก:
รองรับ retimers สี่ตัว: รุ่นก่อนหน้าอนุญาต retimers สองตัว retimers สี่ตัวทำให้การเชื่อมต่อทางกายภาพที่ยาวกว่าข้าม multiple racks โดยไม่มีการเสื่อมสัญญาณ[^10]
Native x2 width: ก่อนหน้านี้เป็น degraded fallback mode ตอนนี้ x2 links ทำงานด้วยประสิทธิภาพเต็ม สิ่งนี้ทำให้การกำหนดค่า fan-out สูงที่การเชื่อมต่อแบนด์วิดท์ต่ำหลายตัวให้บริการ endpoints มากขึ้น[^11]
คุณสมบัติเหล่านี้รวมกันเพื่อทำให้ "multi-rack memory pooling" เป็นไปได้—ความสามารถที่ CXL Consortium มุ่งเป้าอย่างชัดเจนสำหรับการติดตั้งการใช้งานจริงปลาย 2026-2027[^12]
Use Cases ของ CXL สำหรับ AI Infrastructure
KV Cache Offloading สำหรับ LLM Inference
use case ระยะใกล้ที่มีผลกระทบสูงสุด: offloading KV cache จาก GPU VRAM ไปยัง CXL-attached memory
ปัญหา: LLM inference กับ contexts ยาวสร้าง KV caches มหาศาล โมเดล 70B parameter กับ 128K context และ batch size 32 สามารถต้องการ 150+ GB เพียงสำหรับ KV cache[^13] สิ่งนี้เกิน H100 VRAM บังคับให้ลด batch size หรือใช้ GPU หลายตัวที่แพง
โซลูชัน CXL: จัดเก็บ KV cache ใน pooled CXL memory ในขณะที่เก็บ hot layers ใน GPU VRAM XConn และ MemVerge แสดงให้เห็นสิ่งนี้ที่ SC25 และ OCP 2025:[^14]
- GPU H100 สองตัว (80GB แต่ละตัว) ใช้ OPT-6.7B
- KV cache offloaded ไป shared CXL memory pool
- ความเร็วเพิ่มขึ้น 3.8x เทียบกับ 200G RDMA
- ความเร็วเพิ่มขึ้น 6.5x เทียบกับ 100G RDMA
- การปรับปรุง >5x เทียบกับ SSD-based KV cache
การวิจัยจากสถาบันการศึกษายืนยันโอกาส PNM-KV (Processing-Near-Memory for KV cache) บรรลุการปรับปรุง throughput สูงถึง 21.9x โดย offloading token page selection ไปยัง accelerators ภายใน CXL memory[^15]
การขยายหน่วยความจำสำหรับ Training
Training workloads ได้รับประโยชน์จากการขยายความจุหน่วยความจำสำหรับ:
- Batch sizes ขนาดใหญ่กว่า: ตัวอย่างมากขึ้นต่อ iteration โดยไม่มี gradient accumulation
- การลด Activation checkpointing: จัดเก็บ activations มากขึ้นในหน่วยความจำเทียบกับ recomputation
- Optimizer state: Adam optimizer ต้องการ 2x parameters สำหรับ momentum/variance
การขยาย CXL memory ทำให้การกำหนดค่า training ที่ก่อนหน้านี้ต้องการ multi-node distribution สามารถทำงานบน single nodes ลดค่าใช้จ่าย communication overhead
Scientific และ HPC Workloads
โปรเจค Crete ของ PNNL ใช้ CXL pools สำหรับการแบ่งปัน high-throughput memory ข้าม compute nodes ในการจำลอง scientific[^16] Use cases รวม:
- Molecular dynamics กับ neighbor lists ขนาดใหญ่
- Graph analytics บน trillion-edge datasets
- In-memory databases เกินความจุ single-server
ภูมิทัศน์ Interconnect
CXL เทียบกับ NVLink เทียบกับ UALink
การเข้าใจที่ CXL เหมาะสมต้องรับรู้ว่าเทคโนโลยีเหล่านี้มีจุดประสงค์ต่างกัน:
| มาตรฐาน | จุดประสงค์หลัก | เหมาะสำหรับ |
|---|---|---|
| CXL | Memory coherency + pooling | CPU-memory expansion, shared memory pools |
| NVLink | GPU-to-GPU scaling | Within-node GPU communication |
| UALink | Accelerator interconnect | Open standard alternative ถึง NVLink |
| Ultra Ethernet | Scale-out networking | Multi-rack, 10,000+ endpoints |
CXL ทำงานบน PCIe SerDes: อัตราข้อผิดพลาดต่ำกว่า latency ต่ำกว่า แต่แบนด์วิดท์ต่ำกว่า Ethernet-style SerDes ของ NVLink/UALink[^17] NVLink 5 ส่ง 1.8 TB/s ต่อ GPU—เกิน 512 GB/s ต่อ x16 port ของ CXL 4.0 มาก[^18]
เทคโนโลยีเสริมมากกว่าแข่งขัน:
- ภายใน GPU node: NVLink เชื่อมต่อ GPUs
- ระหว่าง nodes: UALink หรือ InfiniBand/Ethernet
- การขยายหน่วยความจำ: CXL เพิ่มความจุให้กับ CPUs และ accelerators
- Fabric-wide memory pools: CXL switches ทำให้การแบ่งปันข้าม hosts เป็นไปได้
Panmnesia เสนอสถาปัตยกรรม "CXL-over-XLink" ที่รวมทั้งสามอย่าง รายงาน AI training ที่เร็วขึ้น 5.3x และ inference latency ลดลง 6x เทียบกับ PCIe/RDMA baselines[^19]
กรอบการตัดสินใจ: เมื่อไหร่ใช้อะไร
| สถานการณ์ | Interconnect ที่แนะนำ | เหตุผล |
|---|---|---|
| Multi-GPU training ภายใน server | NVLink | แบนด์วิดท์สูงสุด latency ต่ำสุด |
| Multi-GPU inference pod (ไม่ใช่ NVIDIA) | UALink | มาตรฐานเปิด แบนด์วิดท์สูง |
| ขยายหน่วยความจำเกิน VRAM | CXL | Cache coherency, latency คล้าย DRAM |
| Multi-rack GPU cluster | InfiniBand หรือ Ultra Ethernet | ออกแบบสำหรับ scale-out |
| Shared memory pool ข้าม servers | CXL switches | Memory pooling ด้วย coherency |
| ตลาดจีน/ที่มีข้อจำกัด | พิจารณา UB-Mesh | หลีกเลี่ยงการพึ่งพา IP ตะวันตก |
CXL Ecosystem: Vendors และผลิตภัณฑ์
Memory Expanders
ผู้ผลิต DRAM หลักทั้งสามรายจัดส่ง CXL memory expanders:
| Vendor | ผลิตภัณฑ์ | ความจุ | Interface | สถานะ |
|---|---|---|---|---|
| Samsung | CMM-D | 256 GB | CXL 2.0 | ผลิตมวลชน 2025[^20] |
| SK Hynix | CMM-DDR5 | 128 GB | CXL 2.0 | ผลิตมวลชนปลาย 2024[^21] |
| Micron | CZ120 | 256 GB | CXL 2.0 | Sampling[^22] |
| SK Hynix | CMS | 512 GB | CXL (compute-enabled) | ประกาศแล้ว[^23] |
CMS (Computational Memory Solution) ของ SK Hynix เพิ่มความสามารถ compute โดยตรงใน memory module—การใช้งานเบื้องต้นของ processing-near-memory สำหรับ CXL
Switch Vendors
CXL switches ทำให้ memory pooling ข้าม hosts หลายตัวเป็นไปได้:
| Vendor | ผลิตภัณฑ์ | รุ่น | สถานะ | คุณสมบัติสำคัญ |
|---|---|---|---|---|
| XConn | XC50256 | CXL 2.0 | กำลังจัดส่ง | 256-lane switch, แรกสู่ตลาด[^24] |
| XConn | Apollo | CXL 2.0 | กำลังจัดส่ง | การสาธิต Memory pooling ที่ SC25[^25] |
| Panmnesia | Fabric Switch | CXL 3.2 | Sampling พ.ย. 2025 | การใช้งาน PBR แรก[^26] |
| Astera Labs | Leo | CXL 2.0 | กำลังจัดส่ง | Smart memory controller[^27] |
| Microchip | SMC 2000 | CXL 2.0 | กำลังจัดส่ง | Memory expansion controller[^28] |
CXL 3.2 Fabric Switch ของ Panmnesia แสดง generation leap: silicon แรกที่ใช้ port-based routing สำหรับสถาปัตยกรรม fabric จริงกับ nodes สูงถึง 4,096[^29]
Controller Vendors
CXL memory controllers แปลระหว่าง CXL protocol และ DRAM:
| Vendor | บทบาท | ผลิตภัณฑ์สำคัญ |
|---|---|---|
| Marvell | Controller | Structera CXL controllers[^30] |
| Montage | Controller | CXL memory buffer chips |
| Astera Labs | Controller | Leo smart memory controller |
| Microchip | Controller | SMC 2000 series |
Structera ของ Marvell ผ่านการทดสอบ interoperability กับผู้จัดหาหน่วยความจำหลักทั้งสามราย (Samsung, Micron, SK Hynix) บนแพลตฟอร์ม Intel และ AMD ทั้งคู่[^31]
คู่มือวางแผนการติดตั้ง
กำหนดการ
| ช่วงเวลา | CXL Generation | ความสามารถที่คาดหวัง | คำแนะนำ |
|---|---|---|---|
| ตอนนี้-Q2 2026 | CXL 2.0 | Memory expansion, basic pooling | การประเมินการใช้งานจริง |
| Q3 2026-Q4 2026 | CXL 3.0/3.1 | Fabric, peer-to-peer, 4K nodes | การนำมาใช้เร็วสำหรับ AI |
| 2027+ | CXL 4.0 | Multi-rack pooling, 1.5 TB/s | การวางแผนเริ่มตอนนี้ |
ABI Research คาดหวังโซลูชัน CXL 3.0/3.1 ด้วยการสนับสนุนซอฟต์แวร์ที่เพียงพอสำหรับการนำมาใช้เชิงพาณิชย์ภายในปี 2027[^32]
สิ่งที่ควรประเมินตอนนี้
ทันที (2025): 1. ทดสอบ CXL 2.0 memory expanders บน Intel Sapphire Rapids หรือ AMD EPYC Genoa servers ที่มีอยู่ 2. ประเมิน XConn หรือ Astera Labs switches สำหรับ memory p