คู่มือวางแผน Infrastructure CXL 4.0: Memory Pooling สำหรับ AI ขนาดใหญ่

คู่มือการติดตั้ง CXL 4.0 ฉบับสมบูรณ์ ครอบคลุม bundled ports, multi-rack memory pooling, KV cache offloading, vendor ecosystem และแผนการวางแผน 2026-2027

Madison Kersh

Apr 27, 2026 6 min read Disclaimer

คู่มือวางแผน Infrastructure CXL 4.0: Memory Pooling สำหรับ AI ขนาดใหญ่

13 ธันวาคม 2025

อัปเดตธันวาคม 2025: CXL Consortium เปิดตัว CXL 4.0 เมื่อวันที่ 18 พฤศจิกายน 2025 เพิ่มแบนด์วิดท์เป็นสองเท่าเป็น 128 GT/s ผ่าน PCIe 7.0 และเปิดตัว bundled ports สำหรับการเชื่อมต่อ 1.5 TB/s คู่มือนี้ครอบคลุมการวางแผนการติดตั้งสำหรับองค์กรที่เตรียมพร้อมที่จะใช้ memory pooling แบบ CXL ใน AI infrastructure

สรุปสำคัญ

CXL 4.0 ทำให้ memory pooling ในขนาดที่ไม่เคยมีมาก่อนเป็นไปได้ ช่วยให้ AI inference workloads เข้าถึงหน่วยความจำที่ใช้ร่วมกันมากกว่า 100 เทราไบต์พร้อม cache coherency ข้าม multiple racks specification ของ bundled ports รวมการเชื่อมต่อทางกายภาพหลายตัวเป็น logical attachments เดียวที่ส่งแบนด์วิดท์ 1.5 TB/s สำหรับผู้วางแผน infrastructure การตัดสินใจสำคัญประกอบด้วยการเข้าใจว่าเมื่อไหร่ควรนำ CXL มาใช้ (2026-2027 สำหรับการใช้งานจริง) ผลิตภัณฑ์ใดที่ควรประเมินตอนนี้ (CXL 2.0/3.0 switches กำลังจัดส่ง) และ CXL เสริมมากกว่าทดแทน NVLink และ UALink คู่มือนี้ให้ความลึกทางเทคนิคและกรอบการตัดสินใจที่จำเป็นสำหรับการวางแผนการติดตั้ง CXL

ปัญหา Memory Wall

โมเดลภาษาขนาดใหญ่พบข้อจำกัดพื้นฐาน: ความจุ GPU memory AI inference workloads สมัยใหม่เกิน 80-120 GB ต่อ GPU เป็นประจำ และ key-value (KV) cache เพิ่มขึ้นตามความยาว context[^1] คำขอ inference เดียวกับ 128K context window สามารถใช้หน่วยความจำหลายสิบ gigabytes เพียงสำหรับ KV cache storage เท่านั้น

ปัญหาทวีความรุนแรงในระดับขนาดใหญ่ น้ำหนักโมเดลสำหรับ frontier LLMs ใช้หลายร้อย gigabytes ความต้องการ KV cache เพิ่มขึ้นเชิงเส้นกับทั้ง batch size และ sequence length GPU VRAM ยังคงอยู่ที่ 80GB (H100) หรือ 192GB (B200)[^2]

โซลูชันแบบดั้งเดิมไม่เพียงพอ:

วิธีการ	ข้อจำกัด
เพิ่ม GPU มากขึ้น	ต้นทุนเพิ่มขึ้นเชิงเส้น หน่วยความจำยังแยกต่อ GPU
NVMe offloading	~100 μs latency ช้ากว่า DRAM 100 เท่า
RDMA-based sharing	ยังคง 10-20 μs latency networking ซับซ้อน
GPU memory ขนาดใหญ่กว่า	มีข้อจำกัดด้านอุปทาน แพง

CXL เปลี่ยนสมการนี้โดยทำให้ memory pooling ด้วย latency คล้าย DRAM (200-500 ns) ทั่ว data center เป็นไปได้[^3]

CXL 4.0 เจาะลึกเทคนิค

วิวัฒนาการจาก CXL 1.0 ถึง 4.0

CXL พัฒนาอย่างรวดเร็วตั้งแต่เปิดตัวในปี 2019 แต่ละรุ่นขยายความสามารถ:

รุ่น	เปิดตัว	PCIe Base	ความเร็ว	ความก้าวหน้าสำคัญ
CXL 1.0/1.1	2019/2020	PCIe 5.0	32 GT/s	Basic coherent memory attach
CXL 2.0	2022	PCIe 5.0	32 GT/s	Switching, memory pooling, multi-device
CXL 3.0/3.1	2023/2024	PCIe 6.0	64 GT/s	Fabric support, peer-to-peer, 4,096 nodes
CXL 4.0	พ.ย. 2025	PCIe 7.0	128 GT/s	Bundled ports, multi-rack, enhanced RAS

CXL 2.0 แนะนำแนวคิดพื้นฐานของ memory pooling อุปกรณ์ Type 3 memory หลายตัวเชื่อมต่อกับ switch ก่อตั้ง shared pool ที่ switch จัดสรรทรัพยากรแบบไดนามิกให้กับ hosts ต่างๆ[^4] สิ่งนี้ทำให้การปรับปรุงการใช้งานหน่วยความจำจาก 50-60% โดยทั่วไปเป็น 85%+ ทั่วทั้ง cluster

CXL 3.0 เพิ่มความสามารถ fabric สนับสนุน multi-level switching และ nodes สูงถึง 4,096 nodes ด้วย port-based routing (PBR)[^5] การเปลี่ยนเป็น 256-byte FLITs และ 64 GT/s ของ PCIe 6.0 เพิ่มแบนด์วิดท์ที่มีอยู่เป็นสองเท่า

CXL 4.0 เพิ่มแบนด์วิดท์อีกครั้งเป็นสองเท่าพร้อมแนะนำคุณสมบัติที่สำคัญสำหรับการติดตั้ง multi-rack AI

สถาปัตยกรรม Bundled Ports

คุณสมบัติที่สำคัญที่สุดของ CXL 4.0 สำหรับ high-performance computing: bundled ports รวม CXL device ports ทางกายภาพหลายตัวเป็น logical entity เดียว[^6]

วิธีการทำงานของ bundled ports:

Host และ Type 1/2 device รวม physical ports หลายตัว
System software เห็น device เดียวแม้มีการเชื่อมต่อทางกายภาพหลายตัว
แบนด์วิดท์รวมกันทั่วทุก bundled ports
เพิ่มประสิทธิภาพสำหรับ 256-byte FLIT mode ขจัด legacy overhead

การคำนวณแบนด์วิดท์:

การกำหนดค่า	ทิศทาง	แบนด์วิดท์
Single x16 port @ 128 GT/s	Unidirectional	256 GB/s
Single x16 port @ 128 GT/s	Bidirectional	512 GB/s
3 bundled x16 ports @ 128 GT/s	Unidirectional	768 GB/s
3 bundled x16 ports @ 128 GT/s	Bidirectional	1,536 GB/s

สำหรับบริบท หน่วยความจำ HBM3e บน H200 ส่งแบนด์วิดท์ 4.8 TB/s[^7] การเชื่อมต่อ bundled CXL 4.0 ที่ 1.5 TB/s แสดงประมาณ 30% ของแบนด์วิดท์นั้น—เพียงพอสำหรับ use cases การขยายหน่วยความจำหลายกรณีที่ความจุสำคัญกว่าแบนด์วิดท์สูงสุด

รากฐาน PCIe 7.0

CXL 4.0 สร้างบนการปรับปรุง physical layer ของ PCIe 7.0:[^8]

อัตราการถ่ายโอน 128 GT/s: สองเท่าของ 64 GT/s ของ PCIe 6.0
การส่งสัญญาณ PAM4: รูปแบบการเข้ารหัสเดียวกับ PCIe 6.0
FEC ที่ปรับปรุงแล้ว: Forward error correction สำหรับความสมบูรณ์ของสัญญาณ
การสนับสนุนแสง: ทำให้การเชื่อมต่อระยะไกลเป็นไปได้

specification รักษารูปแบบ 256-byte FLIT จาก CXL 3.x พร้อมเพิ่มตัวแปรที่เพิ่มประสิทธิภาพ latency สำหรับการดำเนินการที่ sensitive ต่อเวลา[^9]

ความสามารถ Multi-Rack Fabric

CXL 4.0 ขยายระยะผ่านสองกลไก:

รองรับ retimers สี่ตัว: รุ่นก่อนหน้าอนุญาต retimers สองตัว retimers สี่ตัวทำให้การเชื่อมต่อทางกายภาพที่ยาวกว่าข้าม multiple racks โดยไม่มีการเสื่อมสัญญาณ[^10]

Native x2 width: ก่อนหน้านี้เป็น degraded fallback mode ตอนนี้ x2 links ทำงานด้วยประสิทธิภาพเต็ม สิ่งนี้ทำให้การกำหนดค่า fan-out สูงที่การเชื่อมต่อแบนด์วิดท์ต่ำหลายตัวให้บริการ endpoints มากขึ้น[^11]

คุณสมบัติเหล่านี้รวมกันเพื่อทำให้ "multi-rack memory pooling" เป็นไปได้—ความสามารถที่ CXL Consortium มุ่งเป้าอย่างชัดเจนสำหรับการติดตั้งการใช้งานจริงปลาย 2026-2027[^12]

Use Cases ของ CXL สำหรับ AI Infrastructure

KV Cache Offloading สำหรับ LLM Inference

use case ระยะใกล้ที่มีผลกระทบสูงสุด: offloading KV cache จาก GPU VRAM ไปยัง CXL-attached memory

ปัญหา: LLM inference กับ contexts ยาวสร้าง KV caches มหาศาล โมเดล 70B parameter กับ 128K context และ batch size 32 สามารถต้องการ 150+ GB เพียงสำหรับ KV cache[^13] สิ่งนี้เกิน H100 VRAM บังคับให้ลด batch size หรือใช้ GPU หลายตัวที่แพง

โซลูชัน CXL: จัดเก็บ KV cache ใน pooled CXL memory ในขณะที่เก็บ hot layers ใน GPU VRAM XConn และ MemVerge แสดงให้เห็นสิ่งนี้ที่ SC25 และ OCP 2025:[^14]

GPU H100 สองตัว (80GB แต่ละตัว) ใช้ OPT-6.7B
KV cache offloaded ไป shared CXL memory pool
ความเร็วเพิ่มขึ้น 3.8x เทียบกับ 200G RDMA
ความเร็วเพิ่มขึ้น 6.5x เทียบกับ 100G RDMA
การปรับปรุง >5x เทียบกับ SSD-based KV cache

การวิจัยจากสถาบันการศึกษายืนยันโอกาส PNM-KV (Processing-Near-Memory for KV cache) บรรลุการปรับปรุง throughput สูงถึง 21.9x โดย offloading token page selection ไปยัง accelerators ภายใน CXL memory[^15]

การขยายหน่วยความจำสำหรับ Training

Training workloads ได้รับประโยชน์จากการขยายความจุหน่วยความจำสำหรับ:

Batch sizes ขนาดใหญ่กว่า: ตัวอย่างมากขึ้นต่อ iteration โดยไม่มี gradient accumulation
การลด Activation checkpointing: จัดเก็บ activations มากขึ้นในหน่วยความจำเทียบกับ recomputation
Optimizer state: Adam optimizer ต้องการ 2x parameters สำหรับ momentum/variance

การขยาย CXL memory ทำให้การกำหนดค่า training ที่ก่อนหน้านี้ต้องการ multi-node distribution สามารถทำงานบน single nodes ลดค่าใช้จ่าย communication overhead

Scientific และ HPC Workloads

โปรเจค Crete ของ PNNL ใช้ CXL pools สำหรับการแบ่งปัน high-throughput memory ข้าม compute nodes ในการจำลอง scientific[^16] Use cases รวม:

Molecular dynamics กับ neighbor lists ขนาดใหญ่
Graph analytics บน trillion-edge datasets
In-memory databases เกินความจุ single-server

ภูมิทัศน์ Interconnect

CXL เทียบกับ NVLink เทียบกับ UALink

การเข้าใจที่ CXL เหมาะสมต้องรับรู้ว่าเทคโนโลยีเหล่านี้มีจุดประสงค์ต่างกัน:

มาตรฐาน	จุดประสงค์หลัก	เหมาะสำหรับ
CXL	Memory coherency + pooling	CPU-memory expansion, shared memory pools
NVLink	GPU-to-GPU scaling	Within-node GPU communication
UALink	Accelerator interconnect	Open standard alternative ถึง NVLink
Ultra Ethernet	Scale-out networking	Multi-rack, 10,000+ endpoints

CXL ทำงานบน PCIe SerDes: อัตราข้อผิดพลาดต่ำกว่า latency ต่ำกว่า แต่แบนด์วิดท์ต่ำกว่า Ethernet-style SerDes ของ NVLink/UALink[^17] NVLink 5 ส่ง 1.8 TB/s ต่อ GPU—เกิน 512 GB/s ต่อ x16 port ของ CXL 4.0 มาก[^18]

เทคโนโลยีเสริมมากกว่าแข่งขัน:

ภายใน GPU node: NVLink เชื่อมต่อ GPUs
ระหว่าง nodes: UALink หรือ InfiniBand/Ethernet
การขยายหน่วยความจำ: CXL เพิ่มความจุให้กับ CPUs และ accelerators
Fabric-wide memory pools: CXL switches ทำให้การแบ่งปันข้าม hosts เป็นไปได้

Panmnesia เสนอสถาปัตยกรรม "CXL-over-XLink" ที่รวมทั้งสามอย่าง รายงาน AI training ที่เร็วขึ้น 5.3x และ inference latency ลดลง 6x เทียบกับ PCIe/RDMA baselines[^19]

กรอบการตัดสินใจ: เมื่อไหร่ใช้อะไร

สถานการณ์	Interconnect ที่แนะนำ	เหตุผล
Multi-GPU training ภายใน server	NVLink	แบนด์วิดท์สูงสุด latency ต่ำสุด
Multi-GPU inference pod (ไม่ใช่ NVIDIA)	UALink	มาตรฐานเปิด แบนด์วิดท์สูง
ขยายหน่วยความจำเกิน VRAM	CXL	Cache coherency, latency คล้าย DRAM
Multi-rack GPU cluster	InfiniBand หรือ Ultra Ethernet	ออกแบบสำหรับ scale-out
Shared memory pool ข้าม servers	CXL switches	Memory pooling ด้วย coherency
ตลาดจีน/ที่มีข้อจำกัด	พิจารณา UB-Mesh	หลีกเลี่ยงการพึ่งพา IP ตะวันตก

CXL Ecosystem: Vendors และผลิตภัณฑ์

Memory Expanders

ผู้ผลิต DRAM หลักทั้งสามรายจัดส่ง CXL memory expanders:

Vendor	ผลิตภัณฑ์	ความจุ	Interface	สถานะ
Samsung	CMM-D	256 GB	CXL 2.0	ผลิตมวลชน 2025[^20]
SK Hynix	CMM-DDR5	128 GB	CXL 2.0	ผลิตมวลชนปลาย 2024[^21]
Micron	CZ120	256 GB	CXL 2.0	Sampling[^22]
SK Hynix	CMS	512 GB	CXL (compute-enabled)	ประกาศแล้ว[^23]

CMS (Computational Memory Solution) ของ SK Hynix เพิ่มความสามารถ compute โดยตรงใน memory module—การใช้งานเบื้องต้นของ processing-near-memory สำหรับ CXL

Switch Vendors

CXL switches ทำให้ memory pooling ข้าม hosts หลายตัวเป็นไปได้:

Vendor	ผลิตภัณฑ์	รุ่น	สถานะ	คุณสมบัติสำคัญ
XConn	XC50256	CXL 2.0	กำลังจัดส่ง	256-lane switch, แรกสู่ตลาด[^24]
XConn	Apollo	CXL 2.0	กำลังจัดส่ง	การสาธิต Memory pooling ที่ SC25[^25]
Panmnesia	Fabric Switch	CXL 3.2	Sampling พ.ย. 2025	การใช้งาน PBR แรก[^26]
Astera Labs	Leo	CXL 2.0	กำลังจัดส่ง	Smart memory controller[^27]
Microchip	SMC 2000	CXL 2.0	กำลังจัดส่ง	Memory expansion controller[^28]

CXL 3.2 Fabric Switch ของ Panmnesia แสดง generation leap: silicon แรกที่ใช้ port-based routing สำหรับสถาปัตยกรรม fabric จริงกับ nodes สูงถึง 4,096[^29]

Controller Vendors

CXL memory controllers แปลระหว่าง CXL protocol และ DRAM:

Vendor	บทบาท	ผลิตภัณฑ์สำคัญ
Marvell	Controller	Structera CXL controllers[^30]
Montage	Controller	CXL memory buffer chips
Astera Labs	Controller	Leo smart memory controller
Microchip	Controller	SMC 2000 series

Structera ของ Marvell ผ่านการทดสอบ interoperability กับผู้จัดหาหน่วยความจำหลักทั้งสามราย (Samsung, Micron, SK Hynix) บนแพลตฟอร์ม Intel และ AMD ทั้งคู่[^31]

คู่มือวางแผนการติดตั้ง

กำหนดการ

ช่วงเวลา	CXL Generation	ความสามารถที่คาดหวัง	คำแนะนำ
ตอนนี้-Q2 2026	CXL 2.0	Memory expansion, basic pooling	การประเมินการใช้งานจริง
Q3 2026-Q4 2026	CXL 3.0/3.1	Fabric, peer-to-peer, 4K nodes	การนำมาใช้เร็วสำหรับ AI
2027+	CXL 4.0	Multi-rack pooling, 1.5 TB/s	การวางแผนเริ่มตอนนี้

ABI Research คาดหวังโซลูชัน CXL 3.0/3.1 ด้วยการสนับสนุนซอฟต์แวร์ที่เพียงพอสำหรับการนำมาใช้เชิงพาณิชย์ภายในปี 2027[^32]

สิ่งที่ควรประเมินตอนนี้

ทันที (2025): 1. ทดสอบ CXL 2.0 memory expanders บน Intel Sapphire Rapids หรือ AMD EPYC Genoa servers ที่มีอยู่ 2. ประเมิน XConn หรือ Astera Labs switches สำหรับ memory p

ข้อจำกัดความรับผิดชอบ: เนื้อหานี้มีวัตถุประสงค์เพื่อให้ข้อมูลเท่านั้น และไม่ถือเป็นคำแนะนำจากผู้เชี่ยวชาญ ข้อมูลอาจไม่สะท้อนถึงการพัฒนาล่าสุดในอุตสาหกรรม ผลลัพธ์ที่อธิบายเป็นเพียงตัวอย่างและขึ้นอยู่กับสถานการณ์เฉพาะ สำหรับคำแนะนำที่เหมาะกับความต้องการของคุณ ติดต่อเรา.

คู่มือวางแผน Infrastructure CXL 4.0: Memory Pooling สำหรับ AI ขนาดใหญ่

สรุปสำคัญ

ปัญหา Memory Wall

CXL 4.0 เจาะลึกเทคนิค

วิวัฒนาการจาก CXL 1.0 ถึง 4.0

สถาปัตยกรรม Bundled Ports

รากฐาน PCIe 7.0

ความสามารถ Multi-Rack Fabric

Use Cases ของ CXL สำหรับ AI Infrastructure

KV Cache Offloading สำหรับ LLM Inference

การขยายหน่วยความจำสำหรับ Training

Scientific และ HPC Workloads

ภูมิทัศน์ Interconnect

CXL เทียบกับ NVLink เทียบกับ UALink

กรอบการตัดสินใจ: เมื่อไหร่ใช้อะไร

CXL Ecosystem: Vendors และผลิตภัณฑ์

Memory Expanders

Switch Vendors

Controller Vendors

คู่มือวางแผนการติดตั้ง

กำหนดการ

สิ่งที่ควรประเมินตอนนี้

You Might Also Like

AI Workload Scheduling: การเพิ่มประสิทธิภาพการใช้งาน GPU ข้า...

AI Infrastructure Security Operations: ข้อกำหนด SOC สำหรับ G...

การลงทุนโครงสร้างพื้นฐาน AI มูลค่า $600B: ค่าใช้จ่ายทุน หนี้...

ขอใบเสนอราคา_

ได้รับคำขอแล้ว_