Hướng dẫn Quy hoạch Hạ tầng CXL 4.0: Memory Pooling cho AI ở Quy mô Lớn

Hướng dẫn triển khai CXL 4.0 toàn diện bao gồm bundled ports, memory pooling đa rack, KV cache offloading, hệ sinh thái nhà cung cấp và lộ trình quy hoạch 2026-2027.

Blake Crosley

Mar 29, 2026 11 min read Disclaimer

Hướng dẫn Quy hoạch Hạ tầng CXL 4.0: Memory Pooling cho AI ở Quy mô Lớn

Ngày 13 tháng 12 năm 2025

Cập nhật tháng 12/2025: CXL Consortium đã phát hành CXL 4.0 vào ngày 18 tháng 11 năm 2025, tăng gấp đôi băng thông lên 128 GT/s thông qua PCIe 7.0 và giới thiệu bundled ports cho kết nối 1.5 TB/s. Hướng dẫn này đề cập đến việc lập kế hoạch triển khai cho các tổ chức đang chuẩn bị triển khai memory pooling dựa trên CXL trong hạ tầng AI của họ.

Tóm tắt

CXL 4.0 cho phép memory pooling ở quy mô chưa từng có, cho phép các workload AI inference truy cập hơn 100 terabyte bộ nhớ chia sẻ với cache coherency trên nhiều rack. Bundled ports của specification này tổng hợp nhiều kết nối vật lý thành các điểm gắn kết logic đơn lẻ cung cấp băng thông 1.5 TB/s. Đối với các nhà quy hoạch hạ tầng, các quyết định quan trọng liên quan đến việc hiểu khi nào nên áp dụng CXL (2026-2027 cho production), sản phẩm nào cần đánh giá ngay (switch CXL 2.0/3.0 đã sẵn sàng), và CXL bổ sung chứ không thay thế NVLink và UALink như thế nào. Hướng dẫn này cung cấp chiều sâu kỹ thuật và framework quyết định cần thiết để lập kế hoạch triển khai CXL.

Vấn đề Memory Wall

Các mô hình ngôn ngữ lớn gặp phải một ràng buộc cơ bản: dung lượng bộ nhớ GPU. Các workload AI inference hiện đại thường xuyên vượt quá 80-120 GB mỗi GPU, và key-value (KV) cache tăng theo độ dài context.[^1] Một yêu cầu inference đơn lẻ với cửa sổ context 128K có thể tiêu thụ hàng chục gigabyte chỉ để lưu trữ KV cache.

Vấn đề trở nên nghiêm trọng hơn ở quy mô lớn. Model weights cho các LLM tiên tiến tiêu thụ hàng trăm gigabyte. Yêu cầu KV cache tăng tuyến tính với cả batch size và sequence length. GPU VRAM vẫn cố định ở 80GB (H100) hoặc 192GB (B200).[^2]

Các giải pháp truyền thống không đáp ứng được:

Cách tiếp cận	Hạn chế
Thêm GPU	Chi phí tăng tuyến tính, bộ nhớ vẫn bị cô lập theo từng GPU
NVMe offloading	Độ trễ ~100 μs, chậm hơn 100 lần so với DRAM
Chia sẻ dựa trên RDMA	Vẫn có độ trễ 10-20 μs, networking phức tạp
Bộ nhớ GPU lớn hơn	Khan hiếm nguồn cung, đắt đỏ

CXL thay đổi phương trình này bằng cách cho phép memory pooling với độ trễ như DRAM (200-500 ns) trên toàn data center.[^3]

Phân tích Kỹ thuật CXL 4.0

Sự phát triển từ CXL 1.0 đến 4.0

CXL đã phát triển nhanh chóng kể từ khi ra mắt năm 2019. Mỗi thế hệ mở rộng khả năng:

Thế hệ	Phát hành	Nền tảng PCIe	Tốc độ	Tiến bộ chính
CXL 1.0/1.1	2019/2020	PCIe 5.0	32 GT/s	Gắn kết bộ nhớ coherent cơ bản
CXL 2.0	2022	PCIe 5.0	32 GT/s	Switching, memory pooling, đa thiết bị
CXL 3.0/3.1	2023/2024	PCIe 6.0	64 GT/s	Hỗ trợ fabric, peer-to-peer, 4,096 node
CXL 4.0	Tháng 11/2025	PCIe 7.0	128 GT/s	Bundled ports, đa rack, RAS nâng cao

CXL 2.0 giới thiệu khái niệm nền tảng về memory pooling. Nhiều thiết bị bộ nhớ Type 3 kết nối với một switch, tạo thành một pool chia sẻ mà từ đó switch phân bổ động tài nguyên cho các host khác nhau.[^4] Điều này cho phép cải thiện hiệu suất sử dụng bộ nhớ từ mức điển hình 50-60% lên hơn 85% trên toàn cluster.

CXL 3.0 bổ sung khả năng fabric hỗ trợ switching đa cấp và lên đến 4,096 node với port-based routing (PBR).[^5] Việc chuyển sang 256-byte FLITs và tốc độ 64 GT/s của PCIe 6.0 đã tăng gấp đôi băng thông khả dụng.

CXL 4.0 tiếp tục tăng gấp đôi băng thông đồng thời giới thiệu các tính năng quan trọng cho triển khai AI đa rack.

Kiến trúc Bundled Ports

Tính năng quan trọng nhất của CXL 4.0 cho high-performance computing: bundled ports tổng hợp nhiều port thiết bị CXL vật lý thành một thực thể logic đơn lẻ.[^6]

Cách bundled ports hoạt động:

Một host và thiết bị Type 1/2 kết hợp nhiều port vật lý
Phần mềm hệ thống nhìn thấy một thiết bị duy nhất mặc dù có nhiều kết nối vật lý
Băng thông được tổng hợp qua tất cả các bundled ports
Tối ưu hóa cho chế độ 256-byte FLIT, loại bỏ overhead legacy

Tính toán băng thông:

Cấu hình	Hướng	Băng thông
Port x16 đơn @ 128 GT/s	Một chiều	256 GB/s
Port x16 đơn @ 128 GT/s	Hai chiều	512 GB/s
3 bundled ports x16 @ 128 GT/s	Một chiều	768 GB/s
3 bundled ports x16 @ 128 GT/s	Hai chiều	1,536 GB/s

Để so sánh, bộ nhớ HBM3e trên H200 cung cấp băng thông 4.8 TB/s.[^7] Một kết nối CXL 4.0 bundled ở mức 1.5 TB/s tương đương khoảng 30% băng thông đó—đủ cho nhiều trường hợp sử dụng mở rộng bộ nhớ nơi dung lượng quan trọng hơn băng thông đỉnh.

Nền tảng PCIe 7.0

CXL 4.0 được xây dựng trên các cải tiến lớp vật lý của PCIe 7.0:[^8]

Tốc độ truyền 128 GT/s: Gấp đôi 64 GT/s của PCIe 6.0
Tín hiệu PAM4: Cùng sơ đồ mã hóa như PCIe 6.0
FEC cải tiến: Sửa lỗi trước để đảm bảo tính toàn vẹn tín hiệu
Hỗ trợ quang học: Cho phép kết nối tầm xa hơn

Specification giữ lại định dạng 256-byte FLIT từ CXL 3.x đồng thời bổ sung một biến thể tối ưu độ trễ cho các hoạt động nhạy cảm về thời gian.[^9]

Khả năng Fabric Đa Rack

CXL 4.0 mở rộng phạm vi thông qua hai cơ chế:

Hỗ trợ bốn retimer: Các thế hệ trước cho phép hai retimer. Bốn retimer cho phép kết nối vật lý dài hơn trải dài nhiều rack mà không bị suy giảm tín hiệu.[^10]

Độ rộng x2 native: Trước đây là chế độ fallback suy giảm, các link x2 giờ hoạt động ở hiệu suất đầy đủ. Điều này cho phép cấu hình fan-out cao hơn nơi nhiều kết nối băng thông thấp hơn phục vụ nhiều endpoint hơn.[^11]

Các tính năng này kết hợp để cho phép "memory pooling đa rack"—một khả năng mà CXL Consortium nhắm đến rõ ràng cho triển khai production vào cuối 2026-2027.[^12]

Các trường hợp sử dụng CXL cho Hạ tầng AI

KV Cache Offloading cho LLM Inference

Trường hợp sử dụng có tác động cao nhất trong ngắn hạn: offloading KV cache từ GPU VRAM sang bộ nhớ gắn CXL.

Vấn đề: LLM inference với context dài tạo ra KV cache khổng lồ. Một mô hình 70B tham số với context 128K và batch size 32 có thể yêu cầu hơn 150 GB chỉ riêng cho KV cache.[^13] Điều này vượt quá VRAM của H100, buộc phải giảm batch size tốn kém hoặc sử dụng nhiều GPU.

Giải pháp CXL: Lưu trữ KV cache trong bộ nhớ CXL pooled trong khi giữ các layer hot trong GPU VRAM. XConn và MemVerge đã trình diễn điều này tại SC25 và OCP 2025:[^14]

Hai GPU H100 (80GB mỗi cái) chạy OPT-6.7B
KV cache được offload sang memory pool CXL chia sẻ
Tăng tốc 3.8x so với 200G RDMA
Tăng tốc 6.5x so với 100G RDMA
Cải thiện >5x so với KV cache dựa trên SSD

Nghiên cứu từ học thuật xác nhận cơ hội này. PNM-KV (Processing-Near-Memory cho KV cache) đạt được cải thiện throughput lên đến 21.9x bằng cách offload việc lựa chọn token page sang các accelerator trong bộ nhớ CXL.[^15]

Mở rộng Bộ nhớ cho Training

Các workload training được hưởng lợi từ dung lượng bộ nhớ mở rộng cho:

Batch size lớn hơn: Nhiều sample hơn mỗi iteration mà không cần gradient accumulation
Giảm activation checkpointing: Lưu trữ nhiều activation hơn trong bộ nhớ thay vì tính toán lại
Trạng thái optimizer: Adam optimizer yêu cầu 2x tham số cho momentum/variance

Mở rộng bộ nhớ CXL cho phép các cấu hình training trước đây yêu cầu phân phối đa node chạy trên các node đơn, giảm overhead giao tiếp.

Các Workload Khoa học và HPC

Dự án Crete của PNNL sử dụng các pool CXL để chia sẻ bộ nhớ throughput cao giữa các node tính toán trong các mô phỏng khoa học.[^16] Các trường hợp sử dụng bao gồm:

Động lực học phân tử với danh sách neighbor lớn
Phân tích đồ thị trên các dataset trillion-edge
Cơ sở dữ liệu trong bộ nhớ vượt quá dung lượng server đơn

Bối cảnh Interconnect

CXL vs NVLink vs UALink

Để hiểu CXL phù hợp ở đâu cần nhận ra rằng các công nghệ này phục vụ các mục đích khác nhau:

Tiêu chuẩn	Mục đích chính	Phù hợp nhất cho
CXL	Memory coherency + pooling	Mở rộng bộ nhớ CPU, memory pool chia sẻ
NVLink	Mở rộng GPU-to-GPU	Giao tiếp GPU trong node
UALink	Interconnect accelerator	Tiêu chuẩn mở thay thế NVLink
Ultra Ethernet	Networking scale-out	Đa rack, hơn 10,000 endpoint

CXL chạy trên PCIe SerDes: tỷ lệ lỗi thấp hơn, độ trễ thấp hơn, nhưng băng thông thấp hơn so với SerDes kiểu Ethernet của NVLink/UALink.[^17] NVLink 5 cung cấp 1.8 TB/s mỗi GPU—vượt xa 512 GB/s mỗi port x16 của CXL 4.0.[^18]

Các công nghệ bổ sung cho nhau thay vì cạnh tranh:

Trong một node GPU: NVLink kết nối các GPU
Giữa các node: UALink hoặc InfiniBand/Ethernet
Mở rộng bộ nhớ: CXL thêm dung lượng cho CPU và accelerator
Memory pool toàn fabric: Switch CXL cho phép chia sẻ giữa các host

Panmnesia đề xuất kiến trúc "CXL-over-XLink" tích hợp cả ba, báo cáo training AI nhanh hơn 5.3x và giảm độ trễ inference 6x so với baseline PCIe/RDMA.[^19]

Framework Quyết định: Khi nào Sử dụng Cái gì

Tình huống	Interconnect Khuyến nghị	Lý do
Training đa GPU trong server	NVLink	Băng thông cao nhất, độ trễ thấp nhất
Pod inference đa GPU (không phải NVIDIA)	UALink	Tiêu chuẩn mở, băng thông cao
Mở rộng bộ nhớ vượt VRAM	CXL	Cache coherency, độ trễ như DRAM
Cluster GPU đa rack	InfiniBand hoặc Ultra Ethernet	Thiết kế cho scale-out
Memory pool chia sẻ giữa các server	Switch CXL	Memory pooling với coherency
Trung Quốc/thị trường bị hạn chế	Cân nhắc UB-Mesh	Tránh phụ thuộc IP phương Tây

Hệ sinh thái CXL: Nhà cung cấp và Sản phẩm

Memory Expander

Ba nhà sản xuất DRAM lớn đều cung cấp CXL memory expander:

Nhà cung cấp	Sản phẩm	Dung lượng	Giao diện	Trạng thái
Samsung	CMM-D	256 GB	CXL 2.0	Sản xuất hàng loạt 2025[^20]
SK Hynix	CMM-DDR5	128 GB	CXL 2.0	Sản xuất hàng loạt cuối 2024[^21]
Micron	CZ120	256 GB	CXL 2.0	Đang sampling[^22]
SK Hynix	CMS	512 GB	CXL (có khả năng tính toán)	Đã công bố[^23]

CMS (Computational Memory Solution) của SK Hynix bổ sung khả năng tính toán trực tiếp trong module bộ nhớ—một triển khai sớm của processing-near-memory cho CXL.

Nhà cung cấp Switch

Switch CXL cho phép memory pooling trên nhiều host:

Nhà cung cấp	Sản phẩm	Thế hệ	Trạng thái	Tính năng chính
XConn	XC50256	CXL 2.0	Đang giao hàng	Switch 256-lane, đầu tiên ra thị trường[^24]
XConn	Apollo	CXL 2.0	Đang giao hàng	Trình diễn memory pooling tại SC25[^25]
Panmnesia	Fabric Switch	CXL 3.2	Sampling tháng 11/2025	Triển khai PBR đầu tiên[^26]
Astera Labs	Leo	CXL 2.0	Đang giao hàng	Smart memory controller[^27]
Microchip	SMC 2000	CXL 2.0	Đang giao hàng	Memory expansion controller[^28]

Fabric Switch CXL 3.2 của Panmnesia đại diện cho một bước nhảy thế hệ: silicon đầu tiên triển khai port-based routing cho các kiến trúc fabric thực sự với lên đến 4,096 node.[^29]

Nhà cung cấp Controller

CXL memory controller chuyển đổi giữa giao thức CXL và DRAM:

Nhà cung cấp	Vai trò	Sản phẩm chính
Marvell	Controller	Structera CXL controller[^30]
Montage	Controller	CXL memory buffer chip
Astera Labs	Controller	Leo smart memory controller
Microchip	Controller	SMC 2000 series

Structera của Marvell đã hoàn thành kiểm tra khả năng tương tác với cả ba nhà cung cấp bộ nhớ lớn (Samsung, Micron, SK Hynix) trên cả nền tảng Intel và AMD.[^31]

Hướng dẫn Lập kế hoạch Triển khai

Lộ trình

Giai đoạn	Thế hệ CXL	Khả năng Dự kiến	Khuyến nghị
Hiện tại-Q2 2026	CXL 2.0	Mở rộng bộ nhớ, pooling cơ bản	Đánh giá production
Q3 2026-Q4 2026	CXL 3.0/3.1	Fabric, peer-to-peer, 4K node	Áp dụng sớm cho AI
2027+	CXL 4.0	Pooling đa rack, 1.5 TB/s	Bắt đầu lập kế hoạch ngay

ABI Research dự kiến các giải pháp CXL 3.0/3.1 với hỗ trợ phần mềm đủ cho áp dụng thương mại vào năm 2027.[^32]

Những gì Cần Đánh giá Ngay

Ngay lập tức (2025): 1. Kiểm tra CXL 2.0 memory expander trên các server Intel Sapphire Rapids hoặc AMD EPYC Genoa hiện có 2. Đánh giá switch XConn hoặc Astera Labs cho memory p

[Nội dung bị cắt ngắn để dịch]

Hướng dẫn Quy hoạch Hạ tầng CXL 4.0: Memory Pooling cho AI ở Quy mô Lớn

Tóm tắt

Vấn đề Memory Wall

Phân tích Kỹ thuật CXL 4.0

Sự phát triển từ CXL 1.0 đến 4.0

Kiến trúc Bundled Ports

Nền tảng PCIe 7.0

Khả năng Fabric Đa Rack

Các trường hợp sử dụng CXL cho Hạ tầng AI

KV Cache Offloading cho LLM Inference

Mở rộng Bộ nhớ cho Training

Các Workload Khoa học và HPC

Bối cảnh Interconnect

CXL vs NVLink vs UALink

Framework Quyết định: Khi nào Sử dụng Cái gì

Hệ sinh thái CXL: Nhà cung cấp và Sản phẩm

Memory Expander

Nhà cung cấp Switch

Nhà cung cấp Controller

Hướng dẫn Lập kế hoạch Triển khai

Lộ trình

Những gì Cần Đánh giá Ngay

You Might Also Like

Malaysia và Thái Lan: Các Trung Tâm Dữ Liệu AI Mới Nổi tại Đ...

Bùng Nổ Hạ Tầng AI 27 Tỷ USD của Singapore: Cơ Hội cho Triển...

Sao lưu và Khôi phục cho AI: Bảo vệ Dữ liệu Huấn luyện Quy m...

Yêu cầu báo giá_

Đã Nhận Yêu cầu_