คู่มือวางแผนโครงสร้างพื้นฐาน CXL 4.0: Memory Pooling สำหรับ AI ระดับองค์กร

คู่มือการติดตั้ง CXL 4.0 ฉบับสมบูรณ์ ครอบคลุม bundled ports, multi-rack memory pooling, KV cache offloading, ระบบนิเวศผู้ผลิต และไทม์ไลน์การวางแผนปี 2026-2027

คู่มือวางแผนโครงสร้างพื้นฐาน CXL 4.0: Memory Pooling สำหรับ AI ระดับองค์กร

คู่มือวางแผนโครงสร้างพื้นฐาน CXL 4.0: Memory Pooling สำหรับ AI ระดับองค์กร

13 ธันวาคม 2025

อัปเดตธันวาคม 2025: CXL Consortium เปิดตัว CXL 4.0 เมื่อวันที่ 18 พฤศจิกายน 2025 โดยเพิ่มแบนด์วิดท์เป็นสองเท่าที่ 128 GT/s ผ่าน PCIe 7.0 และเปิดตัว bundled ports สำหรับการเชื่อมต่อ 1.5 TB/s คู่มือนี้ครอบคลุมการวางแผนการติดตั้งสำหรับองค์กรที่เตรียมนำ memory pooling แบบ CXL มาใช้ในโครงสร้างพื้นฐาน AI


สรุปย่อ

CXL 4.0 เปิดโอกาสให้ memory pooling ทำงานในระดับที่ไม่เคยมีมาก่อน ช่วยให้ AI inference workloads เข้าถึงหน่วยความจำร่วมขนาดกว่า 100 เทราไบต์พร้อม cache coherency ข้ามหลาย rack ฟีเจอร์ bundled ports ของสเปกนี้รวมการเชื่อมต่อทางกายภาพหลายเส้นเข้าเป็นการเชื่อมต่อเชิงตรรกะเดียวที่ให้แบนด์วิดท์ 1.5 TB/s สำหรับผู้วางแผนโครงสร้างพื้นฐาน การตัดสินใจสำคัญเกี่ยวข้องกับการเข้าใจว่าควรนำ CXL มาใช้เมื่อใด (2026-2027 สำหรับ production) ผลิตภัณฑ์ใดควรประเมินตอนนี้ (CXL 2.0/3.0 switches เริ่มจัดส่งแล้ว) และ CXL เสริม NVLink และ UALink อย่างไรแทนที่จะแทนที่ คู่มือนี้ให้ความลึกทางเทคนิคและกรอบการตัดสินใจที่จำเป็นสำหรับการวางแผนติดตั้ง CXL


ปัญหา Memory Wall

โมเดลภาษาขนาดใหญ่พบข้อจำกัดพื้นฐาน: ความจุหน่วยความจำ GPU AI inference workloads สมัยใหม่มักต้องการมากกว่า 80-120 GB ต่อ GPU และ key-value (KV) cache เติบโตตามความยาว context[^1] คำขอ inference เดียวที่มี context window 128K สามารถใช้หน่วยความจำหลายสิบกิกะไบต์เพียงเพื่อจัดเก็บ KV cache

ปัญหารุนแรงขึ้นเมื่อขยายขนาด Model weights สำหรับ LLMs ระดับแนวหน้าใช้หน่วยความจำหลายร้อยกิกะไบต์ ความต้องการ KV cache เติบโตเชิงเส้นตรงทั้งกับ batch size และ sequence length GPU VRAM ยังคงอยู่ที่ 80GB (H100) หรือ 192GB (B200)[^2]

วิธีแก้ปัญหาแบบดั้งเดิมไม่เพียงพอ:

แนวทาง ข้อจำกัด
เพิ่ม GPU ต้นทุนเพิ่มเชิงเส้น หน่วยความจำยังคงแยกต่อ GPU
NVMe offloading latency ~100 μs ช้ากว่า DRAM 100 เท่า
RDMA-based sharing ยังคงมี latency 10-20 μs เครือข่ายซับซ้อน
หน่วยความจำ GPU ขนาดใหญ่ขึ้น อุปทานจำกัด ราคาแพง

CXL เปลี่ยนสมการนี้โดยเปิดใช้ memory pooling ด้วย latency ระดับ DRAM (200-500 ns) ทั่วทั้ง data center[^3]


เจาะลึกเทคนิค CXL 4.0

วิวัฒนาการจาก CXL 1.0 ถึง 4.0

CXL พัฒนาอย่างรวดเร็วตั้งแต่เปิดตัวในปี 2019 แต่ละรุ่นขยายความสามารถ:

รุ่น ปีเปิดตัว PCIe พื้นฐาน ความเร็ว ความก้าวหน้าสำคัญ
CXL 1.0/1.1 2019/2020 PCIe 5.0 32 GT/s Basic coherent memory attach
CXL 2.0 2022 PCIe 5.0 32 GT/s Switching, memory pooling, multi-device
CXL 3.0/3.1 2023/2024 PCIe 6.0 64 GT/s Fabric support, peer-to-peer, 4,096 nodes
CXL 4.0 พ.ย. 2025 PCIe 7.0 128 GT/s Bundled ports, multi-rack, enhanced RAS

CXL 2.0 แนะนำแนวคิดพื้นฐานของ memory pooling อุปกรณ์ Type 3 memory หลายตัวเชื่อมต่อกับ switch สร้าง pool ร่วมที่ switch จัดสรรทรัพยากรแบบไดนามิกให้ hosts ต่างๆ[^4] ซึ่งช่วยปรับปรุงการใช้งานหน่วยความจำจากปกติ 50-60% เป็น 85%+ ทั่วทั้ง cluster

CXL 3.0 เพิ่มความสามารถ fabric รองรับ multi-level switching และสูงสุด 4,096 nodes ด้วย port-based routing (PBR)[^5] การเปลี่ยนไปใช้ 256-byte FLITs และ 64 GT/s ของ PCIe 6.0 เพิ่มแบนด์วิดท์เป็นสองเท่า

CXL 4.0 เพิ่มแบนด์วิดท์เป็นสองเท่าอีกครั้งพร้อมเปิดตัวฟีเจอร์สำคัญสำหรับการติดตั้ง AI แบบ multi-rack

สถาปัตยกรรม Bundled Ports

ฟีเจอร์ที่สำคัญที่สุดของ CXL 4.0 สำหรับ high-performance computing: bundled ports รวม CXL device ports ทางกายภาพหลายพอร์ตเป็นเอนทิตีเชิงตรรกะเดียว[^6]

การทำงานของ bundled ports:

  1. Host และอุปกรณ์ Type 1/2 รวมพอร์ตทางกายภาพหลายพอร์ต
  2. System software เห็นเป็นอุปกรณ์เดียวแม้มีการเชื่อมต่อทางกายภาพหลายเส้น
  3. แบนด์วิดท์รวมกันข้าม bundled ports ทั้งหมด
  4. ปรับให้เหมาะสมสำหรับ 256-byte FLIT mode ลดภาระ overhead แบบเดิม

การคำนวณแบนด์วิดท์:

การกำหนดค่า ทิศทาง แบนด์วิดท์
พอร์ต x16 เดียว @ 128 GT/s ทางเดียว 256 GB/s
พอร์ต x16 เดียว @ 128 GT/s สองทาง 512 GB/s
3 bundled x16 ports @ 128 GT/s ทางเดียว 768 GB/s
3 bundled x16 ports @ 128 GT/s สองทาง 1,536 GB/s

เพื่อเปรียบเทียบ หน่วยความจำ HBM3e บน H200 ให้แบนด์วิดท์ 4.8 TB/s[^7] การเชื่อมต่อ CXL 4.0 แบบ bundled ที่ 1.5 TB/s คิดเป็นประมาณ 30% ของแบนด์วิดท์นั้น—เพียงพอสำหรับกรณีใช้งาน memory expansion หลายรูปแบบที่ความจุสำคัญกว่าแบนด์วิดท์สูงสุด

พื้นฐาน PCIe 7.0

CXL 4.0 สร้างบนการปรับปรุง physical layer ของ PCIe 7.0:[^8]

  • Transfer rate 128 GT/s: สองเท่าของ 64 GT/s ใน PCIe 6.0
  • PAM4 signaling: รูปแบบ encoding เดียวกับ PCIe 6.0
  • FEC ที่ปรับปรุงแล้ว: Forward error correction สำหรับ signal integrity
  • รองรับ optical: เปิดใช้การเชื่อมต่อระยะไกลขึ้น

สเปกยังคงใช้รูปแบบ 256-byte FLIT จาก CXL 3.x พร้อมเพิ่ม variant ที่ปรับให้เหมาะสมด้าน latency สำหรับการทำงานที่ไวต่อเวลา[^9]

ความสามารถ Multi-Rack Fabric

CXL 4.0 ขยายระยะทางผ่านสองกลไก:

รองรับ retimers สี่ตัว: รุ่นก่อนหน้าอนุญาตสอง retimers สี่ retimers เปิดใช้การเชื่อมต่อทางกายภาพที่ยาวขึ้นครอบคลุมหลาย rack โดยไม่มีการเสื่อมสัญญาณ[^10]

Native x2 width: ก่อนหน้านี้เป็น degraded fallback mode แต่ตอนนี้ x2 links ทำงานด้วยประสิทธิภาพเต็ม ซึ่งเปิดใช้การกำหนดค่า fan-out สูงขึ้นที่การเชื่อมต่อแบนด์วิดท์ต่ำจำนวนมากให้บริการ endpoints มากขึ้น[^11]

ฟีเจอร์เหล่านี้รวมกันเพื่อเปิดใช้ "multi-rack memory pooling"—ความสามารถที่ CXL Consortium กำหนดเป้าหมายสำหรับการติดตั้ง production ปลายปี 2026-2027 อย่างชัดเจน[^12]


กรณีใช้งาน CXL สำหรับโครงสร้างพื้นฐาน AI

KV Cache Offloading สำหรับ LLM Inference

กรณีใช้งานระยะใกล้ที่มีผลกระทบสูงสุด: offloading KV cache จาก GPU VRAM ไปยังหน่วยความจำที่เชื่อมต่อผ่าน CXL

ปัญหา: LLM inference ที่มี contexts ยาวสร้าง KV caches ขนาดใหญ่ โมเดล 70B parameters ที่มี 128K context และ batch size 32 อาจต้องการ 150+ GB เพียงสำหรับ KV cache[^13] ซึ่งเกินความจุ VRAM ของ H100 บังคับให้ลด batch size ที่มีต้นทุนสูงหรือใช้หลาย GPUs

โซลูชัน CXL: จัดเก็บ KV cache ใน pooled CXL memory ขณะที่เก็บ hot layers ใน GPU VRAM XConn และ MemVerge สาธิตสิ่งนี้ที่ SC25 และ OCP 2025:[^14]

  • H100 GPUs สองตัว (80GB แต่ละตัว) รัน OPT-6.7B
  • KV cache offloaded ไปยัง shared CXL memory pool
  • เร็วขึ้น 3.8 เท่า เทียบกับ 200G RDMA
  • เร็วขึ้น 6.5 เท่า เทียบกับ 100G RDMA
  • ปรับปรุง >5 เท่า เทียบกับ SSD-based KV cache

งานวิจัยจากสถาบันการศึกษายืนยันโอกาสนี้ PNM-KV (Processing-Near-Memory for KV cache) บรรลุการปรับปรุง throughput สูงสุด 21.9 เท่าโดย offloading token page selection ไปยัง accelerators ภายใน CXL memory[^15]

Memory Expansion สำหรับ Training

Training workloads ได้รับประโยชน์จากความจุหน่วยความจำที่ขยายสำหรับ:

  • Batch sizes ใหญ่ขึ้น: samples มากขึ้นต่อ iteration โดยไม่ต้อง gradient accumulation
  • ลด activation checkpointing: จัดเก็บ activations มากขึ้นในหน่วยความจำเทียบกับการคำนวณซ้ำ
  • Optimizer state: Adam optimizer ต้องการ 2x parameters สำหรับ momentum/variance

CXL memory expansion เปิดใช้การกำหนดค่า training ที่เดิมต้องการ multi-node distribution ให้ทำงานบน single nodes ลดค่าใช้จ่ายการสื่อสาร

Scientific และ HPC Workloads

โปรเจกต์ Crete ของ PNNL ใช้ CXL pools สำหรับ high-throughput memory sharing ข้าม compute nodes ใน scientific simulations[^16] กรณีใช้งานรวมถึง:

  • Molecular dynamics กับ neighbor lists ขนาดใหญ่
  • Graph analytics บน datasets ขนาดล้านล้าน edges
  • In-memory databases ที่เกินความจุ single-server

ภูมิทัศน์ Interconnect

การเข้าใจว่า CXL เหมาะกับอะไรต้องตระหนักว่าเทคโนโลยีเหล่านี้ทำหน้าที่ต่างกัน:

มาตรฐาน วัตถุประสงค์หลัก เหมาะสำหรับ
CXL Memory coherency + pooling CPU-memory expansion, shared memory pools
NVLink GPU-to-GPU scaling การสื่อสาร GPU ภายใน node
UALink Accelerator interconnect มาตรฐานเปิดทางเลือกแทน NVLink
Ultra Ethernet Scale-out networking Multi-rack, 10,000+ endpoints

CXL ทำงานบน PCIe SerDes: error rate ต่ำกว่า latency ต่ำกว่า แต่แบนด์วิดท์ต่ำกว่า Ethernet-style SerDes ของ NVLink/UALink[^17] NVLink 5 ให้ 1.8 TB/s ต่อ GPU—เกินกว่า 512 GB/s ต่อ x16 port ของ CXL 4.0 มาก[^18]

เทคโนโลยีเหล่านี้เสริมกันแทนที่จะแข่งขัน:

  • ภายใน GPU node: NVLink เชื่อมต่อ GPUs
  • ระหว่าง nodes: UALink หรือ InfiniBand/Ethernet
  • Memory expansion: CXL เพิ่มความจุให้ CPUs และ accelerators
  • Fabric-wide memory pools: CXL switches เปิดใช้การแชร์ข้าม hosts

Panmnesia เสนอสถาปัตยกรรม "CXL-over-XLink" ที่รวมทั้งสาม รายงาน AI training เร็วขึ้น 5.3 เท่าและลด inference latency 6 เท่าเทียบกับ PCIe/RDMA baselines[^19]

กรอบการตัดสินใจ: ใช้อะไรเมื่อไหร่

สถานการณ์ Interconnect ที่แนะนำ เหตุผล
Multi-GPU training ภายใน server NVLink แบนด์วิดท์สูงสุด latency ต่ำสุด
Multi-GPU inference pod (ไม่ใช่ NVIDIA) UALink มาตรฐานเปิด แบนด์วิดท์สูง
ขยายหน่วยความจำเกิน VRAM CXL Cache coherency, latency ระดับ DRAM
Multi-rack GPU cluster InfiniBand หรือ Ultra Ethernet ออกแบบสำหรับ scale-out
Shared memory pool ข้าม servers CXL switches Memory pooling พร้อม coherency
จีน/ตลาดที่มีข้อจำกัด พิจารณา UB-Mesh หลีกเลี่ยงการพึ่งพา IP ตะวันตก

ระบบนิเวศ CXL: ผู้ผลิตและผลิตภัณฑ์

Memory Expanders

ผู้ผลิต DRAM รายใหญ่สามรายทั้งหมดจัดส่ง CXL memory expanders:

ผู้ผลิต ผลิตภัณฑ์ ความจุ Interface สถานะ
Samsung CMM-D 256 GB CXL 2.0 Mass production 2025[^20]
SK Hynix CMM-DDR5 128 GB CXL 2.0 Mass production ปลาย 2024[^21]
Micron CZ120 256 GB CXL 2.0 Sampling[^22]
SK Hynix CMS 512 GB CXL (compute-enabled) ประกาศแล้ว[^23]

CMS (Computational Memory Solution) ของ SK Hynix เพิ่มความสามารถ compute โดยตรงในโมดูลหน่วยความจำ—การนำ processing-near-memory สำหรับ CXL มาใช้ในระยะแรก

Switch Vendors

CXL switches เปิดใช้ memory pooling ข้าม hosts หลายตัว:

ผู้ผลิต ผลิตภัณฑ์ Generation สถานะ ฟีเจอร์สำคัญ
XConn XC50256 CXL 2.0 จัดส่งแล้ว 256-lane switch รายแรกในตลาด[^24]
XConn Apollo CXL 2.0 จัดส่งแล้ว สาธิต memory pooling ที่ SC25[^25]
Panmnesia Fabric Switch CXL 3.2 Sampling พ.ย. 2025 PBR implementation แรก[^26]
Astera Labs Leo CXL 2.0 จัดส่งแล้ว Smart memory controller[^27]
Microchip SMC 2000 CXL 2.0 จัดส่งแล้ว Memory expansion controller[^28]

CXL 3.2 Fabric Switch ของ Panmnesia แสดงถึงการก้าวกระโดดของรุ่น: silicon ตัวแรกที่ implement port-based routing สำหรับ fabric architectures ที่แท้จริงรองรับสูงสุด 4,096 nodes[^29]

Controller Vendors

CXL memory controllers แปลงระหว่าง CXL protocol และ DRAM:

ผู้ผลิต บทบาท ผลิตภัณฑ์หลัก
Marvell Controller Structera CXL controllers[^30]
Montage Controller CXL memory buffer chips
Astera Labs Controller Leo smart memory controller
Microchip Controller SMC 2000 series

Structera ของ Marvell ผ่านการทดสอบ interoperability กับผู้ผลิตหน่วยความจำรายใหญ่ทั้งสามราย (Samsung, Micron, SK Hynix) บนทั้งแพลตฟอร์ม Intel และ AMD[^31]


คู่มือวางแผนการติดตั้ง

ไทม์ไลน์

ช่วงเวลา CXL Generation ความสามารถที่คาดหวัง คำแนะนำ
ปัจจุบัน-Q2 2026 CXL 2.0 Memory expansion, basic pooling ประเมินสำหรับ production
Q3 2026-Q4 2026 CXL 3.0/3.1 Fabric, peer-to-peer, 4K nodes Early adoption สำหรับ AI
2027+ CXL 4.0 Multi-rack pooling, 1.5 TB/s เริ่มวางแผนตั้งแต่ตอนนี้

ABI Research คาดการณ์โซลูชัน CXL 3.0/3.1 พร้อม software support เพียงพอสำหรับการนำมาใช้เชิงพาณิชย์ภายในปี 2027[^32]

สิ่งที่ควรประเมินตอนนี้

ทันที (2025): 1. ทดสอบ CXL 2.0 memory expanders บน servers Intel Sapphire Rapids หรือ AMD EPYC Genoa ที่มีอยู่ 2. ประเมิน XConn หรือ Astera Labs switches สำหรับ memory p

[เนื้อหาถูกตัดสำหรับการแปล]


ขอใบเสนอราคา_

แจ้งรายละเอียดโครงการของคุณ เราจะตอบกลับภายใน 72 ชั่วโมง

> TRANSMISSION_COMPLETE

ได้รับคำขอแล้ว_

ขอบคุณสำหรับคำสอบถาม ทีมงานจะตรวจสอบคำขอและติดต่อกลับภายใน 72 ชั่วโมง

QUEUED FOR PROCESSING