คู่มือวางแผน Infrastructure CXL 4.0: Memory Pooling สำหรับ AI ขนาดใหญ่

คู่มือการติดตั้ง CXL 4.0 ฉบับสมบูรณ์ ครอบคลุม bundled ports, multi-rack memory pooling, KV cache offloading, vendor ecosystem และแผนการวางแผน 2026-2027

คู่มือวางแผน Infrastructure CXL 4.0: Memory Pooling สำหรับ AI ขนาดใหญ่

คู่มือวางแผน Infrastructure CXL 4.0: Memory Pooling สำหรับ AI ขนาดใหญ่

13 ธันวาคม 2025

อัปเดตธันวาคม 2025: CXL Consortium เปิดตัว CXL 4.0 เมื่อวันที่ 18 พฤศจิกายน 2025 เพิ่มแบนด์วิดท์เป็นสองเท่าเป็น 128 GT/s ผ่าน PCIe 7.0 และเปิดตัว bundled ports สำหรับการเชื่อมต่อ 1.5 TB/s คู่มือนี้ครอบคลุมการวางแผนการติดตั้งสำหรับองค์กรที่เตรียมพร้อมที่จะใช้ memory pooling แบบ CXL ใน AI infrastructure


สรุปสำคัญ

CXL 4.0 ทำให้ memory pooling ในขนาดที่ไม่เคยมีมาก่อนเป็นไปได้ ช่วยให้ AI inference workloads เข้าถึงหน่วยความจำที่ใช้ร่วมกันมากกว่า 100 เทราไบต์พร้อม cache coherency ข้าม multiple racks specification ของ bundled ports รวมการเชื่อมต่อทางกายภาพหลายตัวเป็น logical attachments เดียวที่ส่งแบนด์วิดท์ 1.5 TB/s สำหรับผู้วางแผน infrastructure การตัดสินใจสำคัญประกอบด้วยการเข้าใจว่าเมื่อไหร่ควรนำ CXL มาใช้ (2026-2027 สำหรับการใช้งานจริง) ผลิตภัณฑ์ใดที่ควรประเมินตอนนี้ (CXL 2.0/3.0 switches กำลังจัดส่ง) และ CXL เสริมมากกว่าทดแทน NVLink และ UALink คู่มือนี้ให้ความลึกทางเทคนิคและกรอบการตัดสินใจที่จำเป็นสำหรับการวางแผนการติดตั้ง CXL


ปัญหา Memory Wall

โมเดลภาษาขนาดใหญ่พบข้อจำกัดพื้นฐาน: ความจุ GPU memory AI inference workloads สมัยใหม่เกิน 80-120 GB ต่อ GPU เป็นประจำ และ key-value (KV) cache เพิ่มขึ้นตามความยาว context[^1] คำขอ inference เดียวกับ 128K context window สามารถใช้หน่วยความจำหลายสิบ gigabytes เพียงสำหรับ KV cache storage เท่านั้น

ปัญหาทวีความรุนแรงในระดับขนาดใหญ่ น้ำหนักโมเดลสำหรับ frontier LLMs ใช้หลายร้อย gigabytes ความต้องการ KV cache เพิ่มขึ้นเชิงเส้นกับทั้ง batch size และ sequence length GPU VRAM ยังคงอยู่ที่ 80GB (H100) หรือ 192GB (B200)[^2]

โซลูชันแบบดั้งเดิมไม่เพียงพอ:

วิธีการ ข้อจำกัด
เพิ่ม GPU มากขึ้น ต้นทุนเพิ่มขึ้นเชิงเส้น หน่วยความจำยังแยกต่อ GPU
NVMe offloading ~100 μs latency ช้ากว่า DRAM 100 เท่า
RDMA-based sharing ยังคง 10-20 μs latency networking ซับซ้อน
GPU memory ขนาดใหญ่กว่า มีข้อจำกัดด้านอุปทาน แพง

CXL เปลี่ยนสมการนี้โดยทำให้ memory pooling ด้วย latency คล้าย DRAM (200-500 ns) ทั่ว data center เป็นไปได้[^3]


CXL 4.0 เจาะลึกเทคนิค

วิวัฒนาการจาก CXL 1.0 ถึง 4.0

CXL พัฒนาอย่างรวดเร็วตั้งแต่เปิดตัวในปี 2019 แต่ละรุ่นขยายความสามารถ:

รุ่น เปิดตัว PCIe Base ความเร็ว ความก้าวหน้าสำคัญ
CXL 1.0/1.1 2019/2020 PCIe 5.0 32 GT/s Basic coherent memory attach
CXL 2.0 2022 PCIe 5.0 32 GT/s Switching, memory pooling, multi-device
CXL 3.0/3.1 2023/2024 PCIe 6.0 64 GT/s Fabric support, peer-to-peer, 4,096 nodes
CXL 4.0 พ.ย. 2025 PCIe 7.0 128 GT/s Bundled ports, multi-rack, enhanced RAS

CXL 2.0 แนะนำแนวคิดพื้นฐานของ memory pooling อุปกรณ์ Type 3 memory หลายตัวเชื่อมต่อกับ switch ก่อตั้ง shared pool ที่ switch จัดสรรทรัพยากรแบบไดนามิกให้กับ hosts ต่างๆ[^4] สิ่งนี้ทำให้การปรับปรุงการใช้งานหน่วยความจำจาก 50-60% โดยทั่วไปเป็น 85%+ ทั่วทั้ง cluster

CXL 3.0 เพิ่มความสามารถ fabric สนับสนุน multi-level switching และ nodes สูงถึง 4,096 nodes ด้วย port-based routing (PBR)[^5] การเปลี่ยนเป็น 256-byte FLITs และ 64 GT/s ของ PCIe 6.0 เพิ่มแบนด์วิดท์ที่มีอยู่เป็นสองเท่า

CXL 4.0 เพิ่มแบนด์วิดท์อีกครั้งเป็นสองเท่าพร้อมแนะนำคุณสมบัติที่สำคัญสำหรับการติดตั้ง multi-rack AI

สถาปัตยกรรม Bundled Ports

คุณสมบัติที่สำคัญที่สุดของ CXL 4.0 สำหรับ high-performance computing: bundled ports รวม CXL device ports ทางกายภาพหลายตัวเป็น logical entity เดียว[^6]

วิธีการทำงานของ bundled ports:

  1. Host และ Type 1/2 device รวม physical ports หลายตัว
  2. System software เห็น device เดียวแม้มีการเชื่อมต่อทางกายภาพหลายตัว
  3. แบนด์วิดท์รวมกันทั่วทุก bundled ports
  4. เพิ่มประสิทธิภาพสำหรับ 256-byte FLIT mode ขจัด legacy overhead

การคำนวณแบนด์วิดท์:

การกำหนดค่า ทิศทาง แบนด์วิดท์
Single x16 port @ 128 GT/s Unidirectional 256 GB/s
Single x16 port @ 128 GT/s Bidirectional 512 GB/s
3 bundled x16 ports @ 128 GT/s Unidirectional 768 GB/s
3 bundled x16 ports @ 128 GT/s Bidirectional 1,536 GB/s

สำหรับบริบท หน่วยความจำ HBM3e บน H200 ส่งแบนด์วิดท์ 4.8 TB/s[^7] การเชื่อมต่อ bundled CXL 4.0 ที่ 1.5 TB/s แสดงประมาณ 30% ของแบนด์วิดท์นั้น—เพียงพอสำหรับ use cases การขยายหน่วยความจำหลายกรณีที่ความจุสำคัญกว่าแบนด์วิดท์สูงสุด

รากฐาน PCIe 7.0

CXL 4.0 สร้างบนการปรับปรุง physical layer ของ PCIe 7.0:[^8]

  • อัตราการถ่ายโอน 128 GT/s: สองเท่าของ 64 GT/s ของ PCIe 6.0
  • การส่งสัญญาณ PAM4: รูปแบบการเข้ารหัสเดียวกับ PCIe 6.0
  • FEC ที่ปรับปรุงแล้ว: Forward error correction สำหรับความสมบูรณ์ของสัญญาณ
  • การสนับสนุนแสง: ทำให้การเชื่อมต่อระยะไกลเป็นไปได้

specification รักษารูปแบบ 256-byte FLIT จาก CXL 3.x พร้อมเพิ่มตัวแปรที่เพิ่มประสิทธิภาพ latency สำหรับการดำเนินการที่ sensitive ต่อเวลา[^9]

ความสามารถ Multi-Rack Fabric

CXL 4.0 ขยายระยะผ่านสองกลไก:

รองรับ retimers สี่ตัว: รุ่นก่อนหน้าอนุญาต retimers สองตัว retimers สี่ตัวทำให้การเชื่อมต่อทางกายภาพที่ยาวกว่าข้าม multiple racks โดยไม่มีการเสื่อมสัญญาณ[^10]

Native x2 width: ก่อนหน้านี้เป็น degraded fallback mode ตอนนี้ x2 links ทำงานด้วยประสิทธิภาพเต็ม สิ่งนี้ทำให้การกำหนดค่า fan-out สูงที่การเชื่อมต่อแบนด์วิดท์ต่ำหลายตัวให้บริการ endpoints มากขึ้น[^11]

คุณสมบัติเหล่านี้รวมกันเพื่อทำให้ "multi-rack memory pooling" เป็นไปได้—ความสามารถที่ CXL Consortium มุ่งเป้าอย่างชัดเจนสำหรับการติดตั้งการใช้งานจริงปลาย 2026-2027[^12]


Use Cases ของ CXL สำหรับ AI Infrastructure

KV Cache Offloading สำหรับ LLM Inference

use case ระยะใกล้ที่มีผลกระทบสูงสุด: offloading KV cache จาก GPU VRAM ไปยัง CXL-attached memory

ปัญหา: LLM inference กับ contexts ยาวสร้าง KV caches มหาศาล โมเดล 70B parameter กับ 128K context และ batch size 32 สามารถต้องการ 150+ GB เพียงสำหรับ KV cache[^13] สิ่งนี้เกิน H100 VRAM บังคับให้ลด batch size หรือใช้ GPU หลายตัวที่แพง

โซลูชัน CXL: จัดเก็บ KV cache ใน pooled CXL memory ในขณะที่เก็บ hot layers ใน GPU VRAM XConn และ MemVerge แสดงให้เห็นสิ่งนี้ที่ SC25 และ OCP 2025:[^14]

  • GPU H100 สองตัว (80GB แต่ละตัว) ใช้ OPT-6.7B
  • KV cache offloaded ไป shared CXL memory pool
  • ความเร็วเพิ่มขึ้น 3.8x เทียบกับ 200G RDMA
  • ความเร็วเพิ่มขึ้น 6.5x เทียบกับ 100G RDMA
  • การปรับปรุง >5x เทียบกับ SSD-based KV cache

การวิจัยจากสถาบันการศึกษายืนยันโอกาส PNM-KV (Processing-Near-Memory for KV cache) บรรลุการปรับปรุง throughput สูงถึง 21.9x โดย offloading token page selection ไปยัง accelerators ภายใน CXL memory[^15]

การขยายหน่วยความจำสำหรับ Training

Training workloads ได้รับประโยชน์จากการขยายความจุหน่วยความจำสำหรับ:

  • Batch sizes ขนาดใหญ่กว่า: ตัวอย่างมากขึ้นต่อ iteration โดยไม่มี gradient accumulation
  • การลด Activation checkpointing: จัดเก็บ activations มากขึ้นในหน่วยความจำเทียบกับ recomputation
  • Optimizer state: Adam optimizer ต้องการ 2x parameters สำหรับ momentum/variance

การขยาย CXL memory ทำให้การกำหนดค่า training ที่ก่อนหน้านี้ต้องการ multi-node distribution สามารถทำงานบน single nodes ลดค่าใช้จ่าย communication overhead

Scientific และ HPC Workloads

โปรเจค Crete ของ PNNL ใช้ CXL pools สำหรับการแบ่งปัน high-throughput memory ข้าม compute nodes ในการจำลอง scientific[^16] Use cases รวม:

  • Molecular dynamics กับ neighbor lists ขนาดใหญ่
  • Graph analytics บน trillion-edge datasets
  • In-memory databases เกินความจุ single-server

ภูมิทัศน์ Interconnect

การเข้าใจที่ CXL เหมาะสมต้องรับรู้ว่าเทคโนโลยีเหล่านี้มีจุดประสงค์ต่างกัน:

มาตรฐาน จุดประสงค์หลัก เหมาะสำหรับ
CXL Memory coherency + pooling CPU-memory expansion, shared memory pools
NVLink GPU-to-GPU scaling Within-node GPU communication
UALink Accelerator interconnect Open standard alternative ถึง NVLink
Ultra Ethernet Scale-out networking Multi-rack, 10,000+ endpoints

CXL ทำงานบน PCIe SerDes: อัตราข้อผิดพลาดต่ำกว่า latency ต่ำกว่า แต่แบนด์วิดท์ต่ำกว่า Ethernet-style SerDes ของ NVLink/UALink[^17] NVLink 5 ส่ง 1.8 TB/s ต่อ GPU—เกิน 512 GB/s ต่อ x16 port ของ CXL 4.0 มาก[^18]

เทคโนโลยีเสริมมากกว่าแข่งขัน:

  • ภายใน GPU node: NVLink เชื่อมต่อ GPUs
  • ระหว่าง nodes: UALink หรือ InfiniBand/Ethernet
  • การขยายหน่วยความจำ: CXL เพิ่มความจุให้กับ CPUs และ accelerators
  • Fabric-wide memory pools: CXL switches ทำให้การแบ่งปันข้าม hosts เป็นไปได้

Panmnesia เสนอสถาปัตยกรรม "CXL-over-XLink" ที่รวมทั้งสามอย่าง รายงาน AI training ที่เร็วขึ้น 5.3x และ inference latency ลดลง 6x เทียบกับ PCIe/RDMA baselines[^19]

กรอบการตัดสินใจ: เมื่อไหร่ใช้อะไร

สถานการณ์ Interconnect ที่แนะนำ เหตุผล
Multi-GPU training ภายใน server NVLink แบนด์วิดท์สูงสุด latency ต่ำสุด
Multi-GPU inference pod (ไม่ใช่ NVIDIA) UALink มาตรฐานเปิด แบนด์วิดท์สูง
ขยายหน่วยความจำเกิน VRAM CXL Cache coherency, latency คล้าย DRAM
Multi-rack GPU cluster InfiniBand หรือ Ultra Ethernet ออกแบบสำหรับ scale-out
Shared memory pool ข้าม servers CXL switches Memory pooling ด้วย coherency
ตลาดจีน/ที่มีข้อจำกัด พิจารณา UB-Mesh หลีกเลี่ยงการพึ่งพา IP ตะวันตก

CXL Ecosystem: Vendors และผลิตภัณฑ์

Memory Expanders

ผู้ผลิต DRAM หลักทั้งสามรายจัดส่ง CXL memory expanders:

Vendor ผลิตภัณฑ์ ความจุ Interface สถานะ
Samsung CMM-D 256 GB CXL 2.0 ผลิตมวลชน 2025[^20]
SK Hynix CMM-DDR5 128 GB CXL 2.0 ผลิตมวลชนปลาย 2024[^21]
Micron CZ120 256 GB CXL 2.0 Sampling[^22]
SK Hynix CMS 512 GB CXL (compute-enabled) ประกาศแล้ว[^23]

CMS (Computational Memory Solution) ของ SK Hynix เพิ่มความสามารถ compute โดยตรงใน memory module—การใช้งานเบื้องต้นของ processing-near-memory สำหรับ CXL

Switch Vendors

CXL switches ทำให้ memory pooling ข้าม hosts หลายตัวเป็นไปได้:

Vendor ผลิตภัณฑ์ รุ่น สถานะ คุณสมบัติสำคัญ
XConn XC50256 CXL 2.0 กำลังจัดส่ง 256-lane switch, แรกสู่ตลาด[^24]
XConn Apollo CXL 2.0 กำลังจัดส่ง การสาธิต Memory pooling ที่ SC25[^25]
Panmnesia Fabric Switch CXL 3.2 Sampling พ.ย. 2025 การใช้งาน PBR แรก[^26]
Astera Labs Leo CXL 2.0 กำลังจัดส่ง Smart memory controller[^27]
Microchip SMC 2000 CXL 2.0 กำลังจัดส่ง Memory expansion controller[^28]

CXL 3.2 Fabric Switch ของ Panmnesia แสดง generation leap: silicon แรกที่ใช้ port-based routing สำหรับสถาปัตยกรรม fabric จริงกับ nodes สูงถึง 4,096[^29]

Controller Vendors

CXL memory controllers แปลระหว่าง CXL protocol และ DRAM:

Vendor บทบาท ผลิตภัณฑ์สำคัญ
Marvell Controller Structera CXL controllers[^30]
Montage Controller CXL memory buffer chips
Astera Labs Controller Leo smart memory controller
Microchip Controller SMC 2000 series

Structera ของ Marvell ผ่านการทดสอบ interoperability กับผู้จัดหาหน่วยความจำหลักทั้งสามราย (Samsung, Micron, SK Hynix) บนแพลตฟอร์ม Intel และ AMD ทั้งคู่[^31]


คู่มือวางแผนการติดตั้ง

กำหนดการ

ช่วงเวลา CXL Generation ความสามารถที่คาดหวัง คำแนะนำ
ตอนนี้-Q2 2026 CXL 2.0 Memory expansion, basic pooling การประเมินการใช้งานจริง
Q3 2026-Q4 2026 CXL 3.0/3.1 Fabric, peer-to-peer, 4K nodes การนำมาใช้เร็วสำหรับ AI
2027+ CXL 4.0 Multi-rack pooling, 1.5 TB/s การวางแผนเริ่มตอนนี้

ABI Research คาดหวังโซลูชัน CXL 3.0/3.1 ด้วยการสนับสนุนซอฟต์แวร์ที่เพียงพอสำหรับการนำมาใช้เชิงพาณิชย์ภายในปี 2027[^32]

สิ่งที่ควรประเมินตอนนี้

ทันที (2025): 1. ทดสอบ CXL 2.0 memory expanders บน Intel Sapphire Rapids หรือ AMD EPYC Genoa servers ที่มีอยู่ 2. ประเมิน XConn หรือ Astera Labs switches สำหรับ memory p

ขอใบเสนอราคา_

แจ้งรายละเอียดโครงการของคุณ เราจะตอบกลับภายใน 72 ชั่วโมง

> TRANSMISSION_COMPLETE

ได้รับคำขอแล้ว_

ขอบคุณสำหรับคำสอบถาม ทีมงานจะตรวจสอบคำขอและติดต่อกลับภายใน 72 ชั่วโมง

QUEUED FOR PROCESSING