คู่มือวางแผนโครงสร้างพื้นฐาน CXL 4.0: Memory Pooling สำหรับ AI ระดับองค์กร

คู่มือการติดตั้ง CXL 4.0 ฉบับสมบูรณ์ ครอบคลุม bundled ports, multi-rack memory pooling, KV cache offloading, ระบบนิเวศผู้ผลิต และไทม์ไลน์การวางแผนปี 2026-2027

Blake Crosley

Mar 29, 2026 6 min read Disclaimer

คู่มือวางแผนโครงสร้างพื้นฐาน CXL 4.0: Memory Pooling สำหรับ AI ระดับองค์กร

13 ธันวาคม 2025

อัปเดตธันวาคม 2025: CXL Consortium เปิดตัว CXL 4.0 เมื่อวันที่ 18 พฤศจิกายน 2025 โดยเพิ่มแบนด์วิดท์เป็นสองเท่าที่ 128 GT/s ผ่าน PCIe 7.0 และเปิดตัว bundled ports สำหรับการเชื่อมต่อ 1.5 TB/s คู่มือนี้ครอบคลุมการวางแผนการติดตั้งสำหรับองค์กรที่เตรียมนำ memory pooling แบบ CXL มาใช้ในโครงสร้างพื้นฐาน AI

สรุปย่อ

CXL 4.0 เปิดโอกาสให้ memory pooling ทำงานในระดับที่ไม่เคยมีมาก่อน ช่วยให้ AI inference workloads เข้าถึงหน่วยความจำร่วมขนาดกว่า 100 เทราไบต์พร้อม cache coherency ข้ามหลาย rack ฟีเจอร์ bundled ports ของสเปกนี้รวมการเชื่อมต่อทางกายภาพหลายเส้นเข้าเป็นการเชื่อมต่อเชิงตรรกะเดียวที่ให้แบนด์วิดท์ 1.5 TB/s สำหรับผู้วางแผนโครงสร้างพื้นฐาน การตัดสินใจสำคัญเกี่ยวข้องกับการเข้าใจว่าควรนำ CXL มาใช้เมื่อใด (2026-2027 สำหรับ production) ผลิตภัณฑ์ใดควรประเมินตอนนี้ (CXL 2.0/3.0 switches เริ่มจัดส่งแล้ว) และ CXL เสริม NVLink และ UALink อย่างไรแทนที่จะแทนที่ คู่มือนี้ให้ความลึกทางเทคนิคและกรอบการตัดสินใจที่จำเป็นสำหรับการวางแผนติดตั้ง CXL

ปัญหา Memory Wall

โมเดลภาษาขนาดใหญ่พบข้อจำกัดพื้นฐาน: ความจุหน่วยความจำ GPU AI inference workloads สมัยใหม่มักต้องการมากกว่า 80-120 GB ต่อ GPU และ key-value (KV) cache เติบโตตามความยาว context[^1] คำขอ inference เดียวที่มี context window 128K สามารถใช้หน่วยความจำหลายสิบกิกะไบต์เพียงเพื่อจัดเก็บ KV cache

ปัญหารุนแรงขึ้นเมื่อขยายขนาด Model weights สำหรับ LLMs ระดับแนวหน้าใช้หน่วยความจำหลายร้อยกิกะไบต์ ความต้องการ KV cache เติบโตเชิงเส้นตรงทั้งกับ batch size และ sequence length GPU VRAM ยังคงอยู่ที่ 80GB (H100) หรือ 192GB (B200)[^2]

วิธีแก้ปัญหาแบบดั้งเดิมไม่เพียงพอ:

แนวทาง	ข้อจำกัด
เพิ่ม GPU	ต้นทุนเพิ่มเชิงเส้น หน่วยความจำยังคงแยกต่อ GPU
NVMe offloading	latency ~100 μs ช้ากว่า DRAM 100 เท่า
RDMA-based sharing	ยังคงมี latency 10-20 μs เครือข่ายซับซ้อน
หน่วยความจำ GPU ขนาดใหญ่ขึ้น	อุปทานจำกัด ราคาแพง

CXL เปลี่ยนสมการนี้โดยเปิดใช้ memory pooling ด้วย latency ระดับ DRAM (200-500 ns) ทั่วทั้ง data center[^3]

เจาะลึกเทคนิค CXL 4.0

วิวัฒนาการจาก CXL 1.0 ถึง 4.0

CXL พัฒนาอย่างรวดเร็วตั้งแต่เปิดตัวในปี 2019 แต่ละรุ่นขยายความสามารถ:

รุ่น	ปีเปิดตัว	PCIe พื้นฐาน	ความเร็ว	ความก้าวหน้าสำคัญ
CXL 1.0/1.1	2019/2020	PCIe 5.0	32 GT/s	Basic coherent memory attach
CXL 2.0	2022	PCIe 5.0	32 GT/s	Switching, memory pooling, multi-device
CXL 3.0/3.1	2023/2024	PCIe 6.0	64 GT/s	Fabric support, peer-to-peer, 4,096 nodes
CXL 4.0	พ.ย. 2025	PCIe 7.0	128 GT/s	Bundled ports, multi-rack, enhanced RAS

CXL 2.0 แนะนำแนวคิดพื้นฐานของ memory pooling อุปกรณ์ Type 3 memory หลายตัวเชื่อมต่อกับ switch สร้าง pool ร่วมที่ switch จัดสรรทรัพยากรแบบไดนามิกให้ hosts ต่างๆ[^4] ซึ่งช่วยปรับปรุงการใช้งานหน่วยความจำจากปกติ 50-60% เป็น 85%+ ทั่วทั้ง cluster

CXL 3.0 เพิ่มความสามารถ fabric รองรับ multi-level switching และสูงสุด 4,096 nodes ด้วย port-based routing (PBR)[^5] การเปลี่ยนไปใช้ 256-byte FLITs และ 64 GT/s ของ PCIe 6.0 เพิ่มแบนด์วิดท์เป็นสองเท่า

CXL 4.0 เพิ่มแบนด์วิดท์เป็นสองเท่าอีกครั้งพร้อมเปิดตัวฟีเจอร์สำคัญสำหรับการติดตั้ง AI แบบ multi-rack

สถาปัตยกรรม Bundled Ports

ฟีเจอร์ที่สำคัญที่สุดของ CXL 4.0 สำหรับ high-performance computing: bundled ports รวม CXL device ports ทางกายภาพหลายพอร์ตเป็นเอนทิตีเชิงตรรกะเดียว[^6]

การทำงานของ bundled ports:

Host และอุปกรณ์ Type 1/2 รวมพอร์ตทางกายภาพหลายพอร์ต
System software เห็นเป็นอุปกรณ์เดียวแม้มีการเชื่อมต่อทางกายภาพหลายเส้น
แบนด์วิดท์รวมกันข้าม bundled ports ทั้งหมด
ปรับให้เหมาะสมสำหรับ 256-byte FLIT mode ลดภาระ overhead แบบเดิม

การคำนวณแบนด์วิดท์:

การกำหนดค่า	ทิศทาง	แบนด์วิดท์
พอร์ต x16 เดียว @ 128 GT/s	ทางเดียว	256 GB/s
พอร์ต x16 เดียว @ 128 GT/s	สองทาง	512 GB/s
3 bundled x16 ports @ 128 GT/s	ทางเดียว	768 GB/s
3 bundled x16 ports @ 128 GT/s	สองทาง	1,536 GB/s

เพื่อเปรียบเทียบ หน่วยความจำ HBM3e บน H200 ให้แบนด์วิดท์ 4.8 TB/s[^7] การเชื่อมต่อ CXL 4.0 แบบ bundled ที่ 1.5 TB/s คิดเป็นประมาณ 30% ของแบนด์วิดท์นั้น—เพียงพอสำหรับกรณีใช้งาน memory expansion หลายรูปแบบที่ความจุสำคัญกว่าแบนด์วิดท์สูงสุด

พื้นฐาน PCIe 7.0

CXL 4.0 สร้างบนการปรับปรุง physical layer ของ PCIe 7.0:[^8]

Transfer rate 128 GT/s: สองเท่าของ 64 GT/s ใน PCIe 6.0
PAM4 signaling: รูปแบบ encoding เดียวกับ PCIe 6.0
FEC ที่ปรับปรุงแล้ว: Forward error correction สำหรับ signal integrity
รองรับ optical: เปิดใช้การเชื่อมต่อระยะไกลขึ้น

สเปกยังคงใช้รูปแบบ 256-byte FLIT จาก CXL 3.x พร้อมเพิ่ม variant ที่ปรับให้เหมาะสมด้าน latency สำหรับการทำงานที่ไวต่อเวลา[^9]

ความสามารถ Multi-Rack Fabric

CXL 4.0 ขยายระยะทางผ่านสองกลไก:

รองรับ retimers สี่ตัว: รุ่นก่อนหน้าอนุญาตสอง retimers สี่ retimers เปิดใช้การเชื่อมต่อทางกายภาพที่ยาวขึ้นครอบคลุมหลาย rack โดยไม่มีการเสื่อมสัญญาณ[^10]

Native x2 width: ก่อนหน้านี้เป็น degraded fallback mode แต่ตอนนี้ x2 links ทำงานด้วยประสิทธิภาพเต็ม ซึ่งเปิดใช้การกำหนดค่า fan-out สูงขึ้นที่การเชื่อมต่อแบนด์วิดท์ต่ำจำนวนมากให้บริการ endpoints มากขึ้น[^11]

ฟีเจอร์เหล่านี้รวมกันเพื่อเปิดใช้ "multi-rack memory pooling"—ความสามารถที่ CXL Consortium กำหนดเป้าหมายสำหรับการติดตั้ง production ปลายปี 2026-2027 อย่างชัดเจน[^12]

กรณีใช้งาน CXL สำหรับโครงสร้างพื้นฐาน AI

KV Cache Offloading สำหรับ LLM Inference

กรณีใช้งานระยะใกล้ที่มีผลกระทบสูงสุด: offloading KV cache จาก GPU VRAM ไปยังหน่วยความจำที่เชื่อมต่อผ่าน CXL

ปัญหา: LLM inference ที่มี contexts ยาวสร้าง KV caches ขนาดใหญ่ โมเดล 70B parameters ที่มี 128K context และ batch size 32 อาจต้องการ 150+ GB เพียงสำหรับ KV cache[^13] ซึ่งเกินความจุ VRAM ของ H100 บังคับให้ลด batch size ที่มีต้นทุนสูงหรือใช้หลาย GPUs

โซลูชัน CXL: จัดเก็บ KV cache ใน pooled CXL memory ขณะที่เก็บ hot layers ใน GPU VRAM XConn และ MemVerge สาธิตสิ่งนี้ที่ SC25 และ OCP 2025:[^14]

H100 GPUs สองตัว (80GB แต่ละตัว) รัน OPT-6.7B
KV cache offloaded ไปยัง shared CXL memory pool
เร็วขึ้น 3.8 เท่า เทียบกับ 200G RDMA
เร็วขึ้น 6.5 เท่า เทียบกับ 100G RDMA
ปรับปรุง >5 เท่า เทียบกับ SSD-based KV cache

งานวิจัยจากสถาบันการศึกษายืนยันโอกาสนี้ PNM-KV (Processing-Near-Memory for KV cache) บรรลุการปรับปรุง throughput สูงสุด 21.9 เท่าโดย offloading token page selection ไปยัง accelerators ภายใน CXL memory[^15]

Memory Expansion สำหรับ Training

Training workloads ได้รับประโยชน์จากความจุหน่วยความจำที่ขยายสำหรับ:

Batch sizes ใหญ่ขึ้น: samples มากขึ้นต่อ iteration โดยไม่ต้อง gradient accumulation
ลด activation checkpointing: จัดเก็บ activations มากขึ้นในหน่วยความจำเทียบกับการคำนวณซ้ำ
Optimizer state: Adam optimizer ต้องการ 2x parameters สำหรับ momentum/variance

CXL memory expansion เปิดใช้การกำหนดค่า training ที่เดิมต้องการ multi-node distribution ให้ทำงานบน single nodes ลดค่าใช้จ่ายการสื่อสาร

Scientific และ HPC Workloads

โปรเจกต์ Crete ของ PNNL ใช้ CXL pools สำหรับ high-throughput memory sharing ข้าม compute nodes ใน scientific simulations[^16] กรณีใช้งานรวมถึง:

Molecular dynamics กับ neighbor lists ขนาดใหญ่
Graph analytics บน datasets ขนาดล้านล้าน edges
In-memory databases ที่เกินความจุ single-server

ภูมิทัศน์ Interconnect

CXL vs NVLink vs UALink

การเข้าใจว่า CXL เหมาะกับอะไรต้องตระหนักว่าเทคโนโลยีเหล่านี้ทำหน้าที่ต่างกัน:

มาตรฐาน	วัตถุประสงค์หลัก	เหมาะสำหรับ
CXL	Memory coherency + pooling	CPU-memory expansion, shared memory pools
NVLink	GPU-to-GPU scaling	การสื่อสาร GPU ภายใน node
UALink	Accelerator interconnect	มาตรฐานเปิดทางเลือกแทน NVLink
Ultra Ethernet	Scale-out networking	Multi-rack, 10,000+ endpoints

CXL ทำงานบน PCIe SerDes: error rate ต่ำกว่า latency ต่ำกว่า แต่แบนด์วิดท์ต่ำกว่า Ethernet-style SerDes ของ NVLink/UALink[^17] NVLink 5 ให้ 1.8 TB/s ต่อ GPU—เกินกว่า 512 GB/s ต่อ x16 port ของ CXL 4.0 มาก[^18]

เทคโนโลยีเหล่านี้เสริมกันแทนที่จะแข่งขัน:

ภายใน GPU node: NVLink เชื่อมต่อ GPUs
ระหว่าง nodes: UALink หรือ InfiniBand/Ethernet
Memory expansion: CXL เพิ่มความจุให้ CPUs และ accelerators
Fabric-wide memory pools: CXL switches เปิดใช้การแชร์ข้าม hosts

Panmnesia เสนอสถาปัตยกรรม "CXL-over-XLink" ที่รวมทั้งสาม รายงาน AI training เร็วขึ้น 5.3 เท่าและลด inference latency 6 เท่าเทียบกับ PCIe/RDMA baselines[^19]

กรอบการตัดสินใจ: ใช้อะไรเมื่อไหร่

สถานการณ์	Interconnect ที่แนะนำ	เหตุผล
Multi-GPU training ภายใน server	NVLink	แบนด์วิดท์สูงสุด latency ต่ำสุด
Multi-GPU inference pod (ไม่ใช่ NVIDIA)	UALink	มาตรฐานเปิด แบนด์วิดท์สูง
ขยายหน่วยความจำเกิน VRAM	CXL	Cache coherency, latency ระดับ DRAM
Multi-rack GPU cluster	InfiniBand หรือ Ultra Ethernet	ออกแบบสำหรับ scale-out
Shared memory pool ข้าม servers	CXL switches	Memory pooling พร้อม coherency
จีน/ตลาดที่มีข้อจำกัด	พิจารณา UB-Mesh	หลีกเลี่ยงการพึ่งพา IP ตะวันตก

ระบบนิเวศ CXL: ผู้ผลิตและผลิตภัณฑ์

Memory Expanders

ผู้ผลิต DRAM รายใหญ่สามรายทั้งหมดจัดส่ง CXL memory expanders:

ผู้ผลิต	ผลิตภัณฑ์	ความจุ	Interface	สถานะ
Samsung	CMM-D	256 GB	CXL 2.0	Mass production 2025[^20]
SK Hynix	CMM-DDR5	128 GB	CXL 2.0	Mass production ปลาย 2024[^21]
Micron	CZ120	256 GB	CXL 2.0	Sampling[^22]
SK Hynix	CMS	512 GB	CXL (compute-enabled)	ประกาศแล้ว[^23]

CMS (Computational Memory Solution) ของ SK Hynix เพิ่มความสามารถ compute โดยตรงในโมดูลหน่วยความจำ—การนำ processing-near-memory สำหรับ CXL มาใช้ในระยะแรก

Switch Vendors

CXL switches เปิดใช้ memory pooling ข้าม hosts หลายตัว:

ผู้ผลิต	ผลิตภัณฑ์	Generation	สถานะ	ฟีเจอร์สำคัญ
XConn	XC50256	CXL 2.0	จัดส่งแล้ว	256-lane switch รายแรกในตลาด[^24]
XConn	Apollo	CXL 2.0	จัดส่งแล้ว	สาธิต memory pooling ที่ SC25[^25]
Panmnesia	Fabric Switch	CXL 3.2	Sampling พ.ย. 2025	PBR implementation แรก[^26]
Astera Labs	Leo	CXL 2.0	จัดส่งแล้ว	Smart memory controller[^27]
Microchip	SMC 2000	CXL 2.0	จัดส่งแล้ว	Memory expansion controller[^28]

CXL 3.2 Fabric Switch ของ Panmnesia แสดงถึงการก้าวกระโดดของรุ่น: silicon ตัวแรกที่ implement port-based routing สำหรับ fabric architectures ที่แท้จริงรองรับสูงสุด 4,096 nodes[^29]

Controller Vendors

CXL memory controllers แปลงระหว่าง CXL protocol และ DRAM:

ผู้ผลิต	บทบาท	ผลิตภัณฑ์หลัก
Marvell	Controller	Structera CXL controllers[^30]
Montage	Controller	CXL memory buffer chips
Astera Labs	Controller	Leo smart memory controller
Microchip	Controller	SMC 2000 series

Structera ของ Marvell ผ่านการทดสอบ interoperability กับผู้ผลิตหน่วยความจำรายใหญ่ทั้งสามราย (Samsung, Micron, SK Hynix) บนทั้งแพลตฟอร์ม Intel และ AMD[^31]

คู่มือวางแผนการติดตั้ง

ไทม์ไลน์

ช่วงเวลา	CXL Generation	ความสามารถที่คาดหวัง	คำแนะนำ
ปัจจุบัน-Q2 2026	CXL 2.0	Memory expansion, basic pooling	ประเมินสำหรับ production
Q3 2026-Q4 2026	CXL 3.0/3.1	Fabric, peer-to-peer, 4K nodes	Early adoption สำหรับ AI
2027+	CXL 4.0	Multi-rack pooling, 1.5 TB/s	เริ่มวางแผนตั้งแต่ตอนนี้

ABI Research คาดการณ์โซลูชัน CXL 3.0/3.1 พร้อม software support เพียงพอสำหรับการนำมาใช้เชิงพาณิชย์ภายในปี 2027[^32]

สิ่งที่ควรประเมินตอนนี้

ทันที (2025): 1. ทดสอบ CXL 2.0 memory expanders บน servers Intel Sapphire Rapids หรือ AMD EPYC Genoa ที่มีอยู่ 2. ประเมิน XConn หรือ Astera Labs switches สำหรับ memory p

[เนื้อหาถูกตัดสำหรับการแปล]

ข้อจำกัดความรับผิดชอบ: เนื้อหานี้มีวัตถุประสงค์เพื่อให้ข้อมูลเท่านั้น และไม่ถือเป็นคำแนะนำจากผู้เชี่ยวชาญ ข้อมูลอาจไม่สะท้อนถึงการพัฒนาล่าสุดในอุตสาหกรรม ผลลัพธ์ที่อธิบายเป็นเพียงตัวอย่างและขึ้นอยู่กับสถานการณ์เฉพาะ สำหรับคำแนะนำที่เหมาะกับความต้องการของคุณ ติดต่อเรา.

คู่มือวางแผนโครงสร้างพื้นฐาน CXL 4.0: Memory Pooling สำหรับ AI ระดับองค์กร

สรุปย่อ

ปัญหา Memory Wall

เจาะลึกเทคนิค CXL 4.0

วิวัฒนาการจาก CXL 1.0 ถึง 4.0

สถาปัตยกรรม Bundled Ports

พื้นฐาน PCIe 7.0

ความสามารถ Multi-Rack Fabric

กรณีใช้งาน CXL สำหรับโครงสร้างพื้นฐาน AI

KV Cache Offloading สำหรับ LLM Inference

Memory Expansion สำหรับ Training

Scientific และ HPC Workloads

ภูมิทัศน์ Interconnect

CXL vs NVLink vs UALink

กรอบการตัดสินใจ: ใช้อะไรเมื่อไหร่

ระบบนิเวศ CXL: ผู้ผลิตและผลิตภัณฑ์

Memory Expanders

Switch Vendors

Controller Vendors

คู่มือวางแผนการติดตั้ง

ไทม์ไลน์

สิ่งที่ควรประเมินตอนนี้

You Might Also Like

การลงทุนโครงสร้างพื้นฐาน AI มูลค่า 27,000 ล้านดอลลาร์ของสิงค...

มาเลเซียและไทย: ศูนย์กลางดาต้าเซ็นเตอร์ AI ที่กำลังเติบโตในเ...

Backup และ Recovery สำหรับ AI: การปกป้องข้อมูลการฝึกในระดับ ...

ขอใบเสนอราคา_

ได้รับคำขอแล้ว_