Hướng Dẫn Lập Kế Hoạch Hạ Tầng CXL 4.0: Memory Pooling Cho AI Quy Mô Lớn

Hướng dẫn triển khai CXL 4.0 toàn diện bao gồm bundled ports, memory pooling đa rack, KV cache offloading, hệ sinh thái nhà cung cấp, và kế hoạch thời gian 2026-2027.

Madison Kersh

Apr 27, 2026 10 min read Disclaimer

Hướng Dẫn Lập Kế Hoạch Hạ Tầng CXL 4.0: Memory Pooling Cho AI Quy Mô Lớn

13 tháng 12, 2025

Cập nhật tháng 12/2025: CXL Consortium đã phát hành CXL 4.0 vào ngày 18 tháng 11, 2025, tăng gấp đôi băng thông lên 128 GT/s thông qua PCIe 7.0 và giới thiệu bundled ports cho kết nối 1.5 TB/s. Hướng dẫn này bao gồm lập kế hoạch triển khai cho các tổ chức đang chuẩn bị triển khai memory pooling dựa trên CXL trong hạ tầng AI của họ.

TL;DR

CXL 4.0 cho phép memory pooling ở quy mô chưa từng có, giúp các workload AI inference truy cập hơn 100 terabyte bộ nhớ chia sẻ với cache coherency trên nhiều rack. Bundled ports của đặc tả này tổng hợp nhiều kết nối vật lý thành các attachment logic đơn lẻ cung cấp băng thông 1.5 TB/s. Đối với các nhà lập kế hoạch hạ tầng, các quyết định chính bao gồm hiểu khi nào nên áp dụng CXL (2026-2027 cho production), sản phẩm nào cần đánh giá ngay (CXL 2.0/3.0 switches đang shipping), và CXL bổ sung thay vì thay thế NVLink và UALink như thế nào. Hướng dẫn này cung cấp độ sâu kỹ thuật và framework quyết định cần thiết để lập kế hoạch triển khai CXL.

Vấn Đề Memory Wall

Các mô hình ngôn ngữ lớn gặp phải ràng buộc cơ bản: dung lượng bộ nhớ GPU. Các workload AI inference hiện đại thường xuyên vượt quá 80-120 GB mỗi GPU, và key-value (KV) cache tăng theo độ dài context.[^1] Một inference request đơn lẻ với cửa sổ context 128K có thể tiêu thụ hàng chục gigabyte chỉ cho việc lưu trữ KV cache.

Vấn đề trở nên nghiêm trọng hơn ở quy mô lớn. Trọng số mô hình cho các LLM tiền phong tiêu thụ hàng trăm gigabyte. Yêu cầu KV cache tăng tuyến tính theo cả kích thước batch và độ dài sequence. GPU VRAM vẫn cố định ở 80GB (H100) hoặc 192GB (B200).[^2]

Các giải pháp truyền thống không đáp ứng được:

Phương pháp	Hạn chế
Thêm nhiều GPU	Tăng chi phí tuyến tính, bộ nhớ vẫn bị cô lập trên mỗi GPU
NVMe offloading	Độ trễ ~100 μs, chậm hơn 100 lần so với DRAM
Chia sẻ dựa trên RDMA	Vẫn có độ trễ 10-20 μs, mạng phức tạp
Bộ nhớ GPU lớn hơn	Hạn chế nguồn cung, đắt đỏ

CXL thay đổi phương trình này bằng cách cho phép memory pooling với độ trễ giống DRAM (200-500 ns) trên toàn data center.[^3]

CXL 4.0 Phân Tích Kỹ Thuật Sâu

Phát Triển Từ CXL 1.0 Đến 4.0

CXL đã phát triển nhanh chóng kể từ khi ra mắt năm 2019. Mỗi thế hệ mở rộng khả năng:

Thế hệ	Phát hành	PCIe Base	Tốc độ	Tiến bộ chính
CXL 1.0/1.1	2019/2020	PCIe 5.0	32 GT/s	Coherent memory attach cơ bản
CXL 2.0	2022	PCIe 5.0	32 GT/s	Switching, memory pooling, multi-device
CXL 3.0/3.1	2023/2024	PCIe 6.0	64 GT/s	Hỗ trợ fabric, peer-to-peer, 4,096 nodes
CXL 4.0	Nov 2025	PCIe 7.0	128 GT/s	Bundled ports, multi-rack, RAS cải tiến

CXL 2.0 đã giới thiệu khái niệm cơ bản về memory pooling. Nhiều thiết bị memory Type 3 kết nối với switch, tạo thành pool chia sẻ mà switch phân bổ động tài nguyên cho các host khác nhau.[^4] Điều này cho phép cải thiện việc sử dụng bộ nhớ từ mức thông thường 50-60% lên 85%+ trên toàn cluster.

CXL 3.0 bổ sung khả năng fabric hỗ trợ switching đa cấp và lên đến 4,096 nodes với port-based routing (PBR).[^5] Việc chuyển sang 256-byte FLIT và 64 GT/s của PCIe 6.0 đã tăng gấp đôi băng thông có sẵn.

CXL 4.0 lại tăng gấp đôi băng thông đồng thời giới thiệu các tính năng quan trọng cho việc triển khai AI đa rack.

Kiến Trúc Bundled Ports

Tính năng quan trọng nhất của CXL 4.0 cho high-performance computing: bundled ports tổng hợp nhiều physical CXL device ports thành một thực thể logic duy nhất.[^6]

Cách hoạt động của bundled ports:

Host và thiết bị Type 1/2 kết hợp nhiều physical ports
System software thấy một thiết bị duy nhất mặc dù có nhiều kết nối vật lý
Băng thông tổng hợp trên tất cả bundled ports
Tối ưu hóa cho chế độ 256-byte FLIT, loại bỏ overhead legacy

Tính toán băng thông:

Cấu hình	Hướng	Băng thông
Cổng x16 đơn @ 128 GT/s	Một chiều	256 GB/s
Cổng x16 đơn @ 128 GT/s	Hai chiều	512 GB/s
3 cổng x16 bundled @ 128 GT/s	Một chiều	768 GB/s
3 cổng x16 bundled @ 128 GT/s	Hai chiều	1,536 GB/s

Để tham khảo, bộ nhớ HBM3e trên H200 cung cấp băng thông 4.8 TB/s.[^7] Kết nối CXL 4.0 bundled ở 1.5 TB/s đại diện cho khoảng 30% băng thông đó—đủ cho nhiều use case mở rộng bộ nhớ nơi dung lượng quan trọng hơn băng thông đỉnh.

Nền Tảng PCIe 7.0

CXL 4.0 được xây dựng trên các cải tiến physical layer của PCIe 7.0:[^8]

Tốc độ transfer 128 GT/s: Gấp đôi 64 GT/s của PCIe 6.0
Tín hiệu PAM4: Cùng scheme encoding như PCIe 6.0
FEC cải tiến: Forward error correction cho tính toàn vẹn tín hiệu
Hỗ trợ optical: Cho phép kết nối tầm xa hơn

Đặc tả giữ lại định dạng 256-byte FLIT từ CXL 3.x đồng thời bổ sung biến thể tối ưu hóa độ trễ cho các thao tác nhạy cảm về thời gian.[^9]

Khả Năng Fabric Đa Rack

CXL 4.0 mở rộng phạm vi thông qua hai cơ chế:

Hỗ trợ bốn retimers: Các thế hệ trước cho phép hai retimers. Bốn retimers cho phép kết nối vật lý dài hơn trải qua nhiều rack mà không bị suy giảm tín hiệu.[^10]

Native x2 width: Trước đây là chế độ fallback bị suy giảm, các liên kết x2 hiện hoạt động với hiệu suất đầy đủ. Điều này cho phép cấu hình fan-out cao hơn nơi nhiều kết nối băng thông thấp hơn phục vụ nhiều endpoints hơn.[^11]

Các tính năng này kết hợp để cho phép "multi-rack memory pooling"—một khả năng mà CXL Consortium nhắm mục tiêu rõ ràng cho việc triển khai production cuối 2026-2027.[^12]

Use Cases CXL Cho Hạ Tầng AI

KV Cache Offloading Cho LLM Inference

Use case tác động cao nhất trong ngắn hạn: offloading KV cache từ GPU VRAM sang bộ nhớ gắn CXL.

Vấn đề: LLM inference với context dài tạo ra KV cache khổng lồ. Mô hình 70B parameter với context 128K và batch size 32 có thể yêu cầu hơn 150 GB chỉ cho KV cache.[^13] Điều này vượt quá VRAM của H100, buộc phải giảm batch size đắt đỏ hoặc sử dụng nhiều GPU.

Giải pháp CXL: Lưu trữ KV cache trong pooled CXL memory trong khi giữ các hot layers trong GPU VRAM. XConn và MemVerge đã demo điều này tại SC25 và OCP 2025:[^14]

Hai GPU H100 (80GB mỗi cái) chạy OPT-6.7B
KV cache được offload sang shared CXL memory pool
Tăng tốc 3.8x so với 200G RDMA
Tăng tốc 6.5x so với 100G RDMA
Cải thiện >5x so với KV cache dựa trên SSD

Nghiên cứu từ học viện xác nhận cơ hội này. PNM-KV (Processing-Near-Memory for KV cache) đạt được cải thiện throughput lên đến 21.9x bằng cách offload token page selection sang accelerators trong CXL memory.[^15]

Mở Rộng Bộ Nhớ Cho Training

Các workload training được hưởng lợi từ dung lượng bộ nhớ mở rộng cho:

Batch sizes lớn hơn: Nhiều sample hơn mỗi iteration mà không cần gradient accumulation
Giảm activation checkpointing: Lưu trữ nhiều activations trong bộ nhớ hơn so với recomputation
Optimizer state: Adam optimizer yêu cầu 2x parameters cho momentum/variance

Mở rộng bộ nhớ CXL cho phép các cấu hình training trước đây yêu cầu phân phối multi-node chạy trên các nodes đơn lẻ, giảm overhead giao tiếp.

Workloads Khoa Học và HPC

Dự án Crete của PNNL sử dụng CXL pools cho chia sẻ bộ nhớ high-throughput trên các compute nodes trong mô phỏng khoa học.[^16] Các use cases bao gồm:

Molecular dynamics với neighbor lists lớn
Graph analytics trên datasets trillion-edge
In-memory databases vượt quá khả năng single-server

Bối Cảnh Interconnect

CXL vs NVLink vs UALink

Hiểu CXL phù hợp ở đâu đòi hỏi nhận ra rằng các công nghệ này phục vụ mục đích khác nhau:

Tiêu chuẩn	Mục đích chính	Tốt nhất cho
CXL	Memory coherency + pooling	Mở rộng CPU-memory, shared memory pools
NVLink	GPU-to-GPU scaling	Giao tiếp GPU trong node
UALink	Accelerator interconnect	Tiêu chuẩn mở thay thế NVLink
Ultra Ethernet	Scale-out networking	Multi-rack, 10,000+ endpoints

CXL chạy trên PCIe SerDes: tỷ lệ lỗi thấp hơn, độ trễ thấp hơn, nhưng băng thông thấp hơn so với Ethernet-style SerDes của NVLink/UALink.[^17] NVLink 5 cung cấp 1.8 TB/s mỗi GPU—vượt xa 512 GB/s mỗi cổng x16 của CXL 4.0.[^18]

Các công nghệ bổ sung thay vì cạnh tranh:

Trong GPU node: NVLink kết nối các GPU
Giữa các nodes: UALink hoặc InfiniBand/Ethernet
Mở rộng bộ nhớ: CXL thêm dung lượng cho CPUs và accelerators
Fabric-wide memory pools: CXL switches cho phép chia sẻ trên các hosts

Panmnesia đề xuất kiến trúc "CXL-over-XLink" tích hợp cả ba, báo cáo AI training nhanh hơn 5.3x và giảm độ trễ inference 6x so với baselines PCIe/RDMA.[^19]

Framework Quyết Định: Khi Nào Sử Dụng Gì

Tình huống	Interconnect được khuyến nghị	Lý do
Multi-GPU training trong server	NVLink	Băng thông cao nhất, độ trễ thấp nhất
Multi-GPU inference pod (non-NVIDIA)	UALink	Tiêu chuẩn mở, băng thông cao
Mở rộng bộ nhớ vượt VRAM	CXL	Cache coherency, độ trễ giống DRAM
Multi-rack GPU cluster	InfiniBand hoặc Ultra Ethernet	Thiết kế cho scale-out
Shared memory pool trên servers	CXL switches	Memory pooling với coherency
Thị trường Trung Quốc/hạn chế	Xem xét UB-Mesh	Tránh phụ thuộc IP phương Tây

Hệ Sinh Thái CXL: Vendors và Sản Phẩm

Memory Expanders

Ba nhà sản xuất DRAM chính đều shipping CXL memory expanders:

Vendor	Sản phẩm	Dung lượng	Interface	Trạng thái
Samsung	CMM-D	256 GB	CXL 2.0	Sản xuất hàng loạt 2025[^20]
SK Hynix	CMM-DDR5	128 GB	CXL 2.0	Sản xuất hàng loạt cuối 2024[^21]
Micron	CZ120	256 GB	CXL 2.0	Sampling[^22]
SK Hynix	CMS	512 GB	CXL (compute-enabled)	Đã công bố[^23]

CMS (Computational Memory Solution) của SK Hynix thêm khả năng compute trực tiếp trong memory module—triển khai sớm processing-near-memory cho CXL.

Switch Vendors

CXL switches cho phép memory pooling trên nhiều hosts:

Vendor	Sản phẩm	Thế hệ	Trạng thái	Tính năng chính
XConn	XC50256	CXL 2.0	Đang shipping	256-lane switch, đầu tiên ra thị trường[^24]
XConn	Apollo	CXL 2.0	Đang shipping	Demo memory pooling tại SC25[^25]
Panmnesia	Fabric Switch	CXL 3.2	Sampling Nov 2025	Triển khai PBR đầu tiên[^26]
Astera Labs	Leo	CXL 2.0	Đang shipping	Smart memory controller[^27]
Microchip	SMC 2000	CXL 2.0	Đang shipping	Memory expansion controller[^28]

CXL 3.2 Fabric Switch của Panmnesia đại diện cho bước nhảy thế hệ: silicon đầu tiên triển khai port-based routing cho kiến trúc fabric thực sự với lên đến 4,096 nodes.[^29]

Controller Vendors

CXL memory controllers chuyển đổi giữa CXL protocol và DRAM:

Vendor	Vai trò	Sản phẩm chính
Marvell	Controller	Structera CXL controllers[^30]
Montage	Controller	CXL memory buffer chips
Astera Labs	Controller	Leo smart memory controller
Microchip	Controller	SMC 2000 series

Structera của Marvell đã hoàn thành thử nghiệm interoperability với cả ba nhà cung cấp bộ nhớ chính (Samsung, Micron, SK Hynix) trên cả nền tảng Intel và AMD.[^31]

Hướng Dẫn Lập Kế Hoạch Triển Khai

Timeline

Giai đoạn	Thế hệ CXL	Khả năng dự kiến	Khuyến nghị
Hiện tại-Q2 2026	CXL 2.0	Memory expansion, pooling cơ bản	Đánh giá production
Q3 2026-Q4 2026	CXL 3.0/3.1	Fabric, peer-to-peer, 4K nodes	Early adoption cho AI
2027+	CXL 4.0	Multi-rack pooling, 1.5 TB/s	Lập kế hoạch bắt đầu ngay

ABI Research kỳ vọng các giải pháp CXL 3.0/3.1 với hỗ trợ phần mềm đầy đủ để áp dụng thương mại vào 2027.[^32]

Gì Cần Đánh Giá Ngay

Ngay lập tức (2025): 1. Test CXL 2.0 memory expanders trên servers Intel Sapphire Rapids hoặc AMD EPYC Genoa hiện có 2. Đánh giá XConn hoặc Astera Labs switches cho memory p

Hướng Dẫn Lập Kế Hoạch Hạ Tầng CXL 4.0: Memory Pooling Cho AI Quy Mô Lớn

TL;DR

Vấn Đề Memory Wall

CXL 4.0 Phân Tích Kỹ Thuật Sâu

Phát Triển Từ CXL 1.0 Đến 4.0

Kiến Trúc Bundled Ports

Nền Tảng PCIe 7.0

Khả Năng Fabric Đa Rack

Use Cases CXL Cho Hạ Tầng AI

KV Cache Offloading Cho LLM Inference

Mở Rộng Bộ Nhớ Cho Training

Workloads Khoa Học và HPC

Bối Cảnh Interconnect

CXL vs NVLink vs UALink

Framework Quyết Định: Khi Nào Sử Dụng Gì

Hệ Sinh Thái CXL: Vendors và Sản Phẩm

Memory Expanders

Switch Vendors

Controller Vendors

Hướng Dẫn Lập Kế Hoạch Triển Khai

Timeline

Gì Cần Đánh Giá Ngay

You Might Also Like

Lập Lịch Khối Lượng Công Việc AI: Tối Ưu Hóa Sử Dụng GPU Trê...

Vận hành Bảo mật Hạ tầng AI: Yêu cầu SOC cho Cụm GPU

Kế Hoạch Xây Dựng Hạ Tầng AI 600 Tỷ USD: CapEx của Hyperscal...

Yêu cầu báo giá_

Đã Nhận Yêu cầu_