Mở rộng Bộ nhớ CXL: Phá vỡ Rào cản Bộ nhớ trong Trung tâm Dữ liệu AI

Microsoft ra mắt các phiên bản đám mây trang bị CXL đầu tiên vào tháng 11/2025. Đặc tả CXL 4.0 tăng gấp đôi băng thông lên 128GT/s. Thị trường CXL dự kiến đạt 15 tỷ USD vào năm 2028 (hơn 12 tỷ USD DRAM sau CXL). KV cache hỗ trợ CXL cải thiện thông lượng 21,9 lần, giảm năng lượng tiêu thụ mỗi token 60 lần.

Blake Crosley

Feb 01, 2026 13 min read Disclaimer

Mở rộng Bộ nhớ CXL: Phá vỡ Rào cản Bộ nhớ trong Trung tâm Dữ liệu AI

Cập nhật ngày 11 tháng 12 năm 2025

Cập nhật tháng 12/2025: Microsoft ra mắt các phiên bản đám mây trang bị CXL đầu tiên vào tháng 11/2025. Đặc tả CXL 4.0 tăng gấp đôi băng thông lên 128GT/s. Thị trường CXL dự kiến đạt 15 tỷ USD vào năm 2028 (hơn 12 tỷ USD DRAM sau CXL). KV cache hỗ trợ CXL cải thiện thông lượng 21,9 lần, giảm năng lượng tiêu thụ mỗi token 60 lần. Memory pool CXL thương mại đạt 100TiB vào năm 2025.

Tắc nghẽn bộ nhớ đang giết chết hiệu suất AI. Các mô hình ngôn ngữ lớn thường xuyên vượt quá 80 đến 120GB cho mỗi GPU chỉ riêng KV cache, làm quá tải ngay cả những bộ tăng tốc trang bị HBM đắt tiền nhất.¹ Công nghệ mở rộng bộ nhớ Compute Express Link (CXL) giải quyết trực tiếp cuộc khủng hoảng dung lượng bộ nhớ bằng cách cho phép máy chủ truy cập các memory pool vượt quá giới hạn DRAM gắn trực tiếp với CPU. Với việc Microsoft ra mắt các phiên bản đám mây trang bị CXL đầu tiên trong ngành vào tháng 11/2025 và đặc tả CXL 4.0 tăng gấp đôi băng thông lên 128GT/s, kiến trúc bộ nhớ phân tán đang chuyển từ khái niệm nghiên cứu sang thực tế sản xuất.²

Thị trường phản ánh tính cấp bách này. Dự báo doanh thu thị trường CXL đạt 15 tỷ USD vào năm 2028, với DRAM sau CXL dự kiến chiếm hơn 12 tỷ USD trong tổng số đó.³ Đối với các tổ chức triển khai cơ sở hạ tầng AI quy mô lớn, việc hiểu rõ khả năng mở rộng bộ nhớ CXL quyết định liệu hệ thống có thể xử lý khối lượng công việc thế hệ tiếp theo mà không cần nâng cấp phần cứng liên tục hay không.

Cách mở rộng bộ nhớ CXL thực sự hoạt động

CXL hoạt động như một giao thức kết nối cache-coherent chạy trên các lớp vật lý PCIe tiêu chuẩn. Công nghệ này duy trì tính nhất quán hoàn toàn giữa cache CPU và các thiết bị bộ nhớ bên ngoài, cho phép ứng dụng truy cập bộ nhớ gắn CXL với cùng mô hình lập trình như DRAM cục bộ.⁴ Ba loại giao thức phụ xử lý các tương tác thiết bị khác nhau: CXL.io quản lý các giao dịch kiểu PCIe, CXL.cache cho phép thiết bị cache bộ nhớ host, và CXL.mem cho phép host truy cập bộ nhớ gắn với thiết bị.⁵

Các thiết bị mở rộng bộ nhớ, được chỉ định là CXL Type-3, kết nối các module DDR5 với máy chủ thông qua các khe PCIe hoặc định dạng EDSFF. Các bộ điều khiển CXL hiện đại thêm khoảng 70 nano giây độ trễ so với DRAM gắn trực tiếp.⁶ Mặc dù đáng kể, độ trễ bộ nhớ CXL nhanh hơn 20 đến 50 lần so với lưu trữ NVMe, lấp đầy một tầng hiệu suất quan trọng giữa bộ nhớ host nhanh và truy cập đĩa chậm.⁷

Sự phát triển đặc tả diễn ra nhanh chóng. CXL 2.0 giới thiệu memory pooling, cho phép nhiều host truy cập các thiết bị bộ nhớ chung với các phân bổ riêng biệt.⁸ CXL 3.0 cho phép bộ nhớ chia sẻ thực sự, nơi nhiều host đồng thời truy cập cùng một phân đoạn bộ nhớ với các chế độ xem dữ liệu nhất quán.⁹ Bản phát hành CXL 4.0 vào tháng 11/2025 đã tăng gấp đôi băng thông từ 64GT/s lên 128GT/s trong khi vẫn duy trì định dạng FLIT 256 byte, cho phép băng thông hai chiều tổng cộng lên đến 1,536TB/s trên các liên kết x16 thông qua tính năng bundled ports mới.¹⁰

Memory pooling chuyển đổi kinh tế máy chủ

Kiến trúc máy chủ truyền thống buộc người vận hành phải đưa ra những đánh đổi khó khăn. Yêu cầu bộ nhớ thay đổi đáng kể giữa các khối lượng công việc, nhưng máy chủ được xuất xưởng với cấu hình DRAM cố định. Bộ nhớ trung bình chiếm khoảng 30% giá trị máy chủ vào năm 2022 và dự báo đẩy con số đó lên trên 40% vào năm 2025.¹¹ Các tổ chức thường xuyên cung cấp dư thừa bộ nhớ để xử lý tải cao điểm, để lại DRAM đắt tiền không được sử dụng trong các giai đoạn sử dụng trung bình.

CXL memory pooling thay đổi căn bản phương trình này. Nhiều máy chủ chia sẻ quyền truy cập vào các memory pool tập trung, phân bổ động dung lượng dựa trên nhu cầu khối lượng công việc theo thời gian thực. Microsoft phát hiện rằng việc áp dụng memory pooling dựa trên CXL có thể cắt giảm tổng bộ nhớ cần thiết khoảng 10%, mang lại mức giảm 5% chi phí máy chủ tổng thể.¹² SMART Modular Technologies ước tính rằng việc ghép cặp DIMM rẻ hơn với card bổ sung CXL mang lại tiết kiệm lên đến 40% cho cấu hình bộ nhớ 1TB so với việc nâng cấp lên CPU hỗ trợ nhiều RAM hơn.¹³

Các hệ thống hybrid DRAM-CXL đạt 95-100% thông lượng của các thiết lập DRAM thuần túy trong khi cắt giảm chi phí bộ nhớ 50% thông qua nén và pooling hiệu quả.¹⁴ Trường hợp kinh tế củng cố khi giá DRAM vẫn cao do nhu cầu HBM tiêu thụ công suất sản xuất DRAM. Chi phí DRAM tăng đẩy các doanh nghiệp hướng tới phần mềm hiệu quả bộ nhớ và các giải pháp mở rộng dựa trên CXL như các lựa chọn thay thế cho việc nâng cấp bộ nhớ đắt tiền.¹⁵

Khối lượng công việc suy luận AI thúc đẩy việc áp dụng CXL

Suy luận mô hình ngôn ngữ lớn tạo ra nhu cầu cấp bách nhất cho dung lượng bộ nhớ mở rộng. Yêu cầu lưu trữ KV cache tăng tuyến tính với độ dài ngữ cảnh, và các mô hình hiện đại hỗ trợ ngữ cảnh hàng triệu token tạo ra kích thước cache vượt quá hoàn toàn bộ nhớ GPU. Nghiên cứu chứng minh rằng quản lý KV cache hỗ trợ CXL cung cấp cải thiện thông lượng lên đến 21,9 lần, năng lượng mỗi token thấp hơn 60 lần, và hiệu quả chi phí tổng thể tốt hơn 7,3 lần so với các triển khai cơ sở.¹⁶

XConn Technologies và MemVerge đã trình diễn tại Supercomputing 2025 cách các khối lượng công việc suy luận AI có thể offload và chia sẻ động các tài nguyên KV cache khổng lồ qua GPU và CPU. Bản demo đạt được cải thiện hiệu suất hơn 5 lần so với caching dựa trên SSD hoặc offloading KV cache dựa trên RDMA.¹⁷ So với các lựa chọn thay thế dựa trên mạng, memory pool CXL đạt tốc độ nhanh hơn 3,8 lần so với 200G RDMA và nhanh hơn 6,5 lần so với 100G RDMA cho các khối lượng công việc suy luận.¹⁸

Memory pool CXL thương mại đạt 100TiB đã có sẵn vào năm 2025, với các triển khai lớn hơn được lên kế hoạch cho năm 2026.¹⁹ Astera Labs đã trình diễn tại OCP Global Summit 2025 cách Leo CXL Smart Memory Controller loại bỏ các nút thắt cổ chai cơ sở hạ tầng AI, đạt được 3 lần số phiên bản LLM đồng thời với thông lượng cao hơn và độ trễ thấp hơn 3 lần với CXL.²⁰ SK Hynix trưng bày một máy AI tập trung bộ nhớ kết nối nhiều máy chủ và GPU không cần mạng truyền thống, hỗ trợ các tác vụ suy luận phân tán thông qua công nghệ pooled memory CXL.²¹

Ngoài suy luận, mở rộng bộ nhớ CXL mang lại lợi ích cho các hệ thống khuyến nghị, cơ sở dữ liệu trong bộ nhớ, và phân tích đồ thị. Hệ thống bộ nhớ phân tán dựa trên CXL H3 Falcon của Micron cung cấp cải thiện hiệu suất lên đến 20 lần cho cơ sở dữ liệu đồ thị.²² Bộ điều khiển Leo CXL kết hợp với bộ xử lý AMD EPYC thế hệ 5 cung cấp cải thiện hiệu suất 70% cho các mô hình khuyến nghị học sâu.²³

Bối cảnh bộ điều khiển CXL

Ba nhà cung cấp thống trị sản xuất bộ điều khiển bộ nhớ CXL: Astera Labs, Montage Technology, và Microchip. Các bộ điều khiển của họ cung cấp năng lượng cho các module bộ nhớ từ mọi nhà sản xuất DRAM lớn.

Astera Labs dẫn đầu thị trường với Leo CXL Smart Memory Controller hỗ trợ CXL 2.0 với dung lượng bộ nhớ lên đến 2TB cho mỗi bộ điều khiển.²⁴ Leo triển khai các giao thức CXL.mem, CXL.cache và CXL.io, thực hiện xen kẽ phần cứng để trình bày bộ nhớ tổng hợp cho hệ điều hành, và cung cấp các tính năng RAS thông qua bộ quản lý COSMOS.²⁵ Các card bổ sung A-Series cho phép triển khai plug-and-play, trong khi các triển khai E-Series và P-Series hỗ trợ tích hợp tùy chỉnh. Bản xem trước bộ nhớ CXL của Microsoft Azure vào tháng 11/2025 sử dụng bộ điều khiển Leo, đánh dấu triển khai đám mây công cộng đầu tiên trong ngành của bộ nhớ gắn CXL.²⁶

Montage Technology đã xuất xưởng CXL Memory eXpander Controller (MXC) đầu tiên trên thế giới và hiện đang cung cấp bộ điều khiển cho Samsung, SK Hynix, và các nhà sản xuất bộ nhớ lớn khác.²⁷ Bộ điều khiển CXL 3.1 của công ty vào tháng 9/2025 (M88MX6852) đạt tốc độ truyền dữ liệu lên đến 64GT/s trên cấu hình x8, tích hợp DDR5 kênh đôi ở tốc độ 8000MT/s, và chỉ thêm 70ns độ trễ.²⁸ Gói 25mm x 25mm hỗ trợ cả định dạng EDSFF E3.S và card bổ sung PCIe.²⁹ Samsung và SK Hynix đều đã vượt qua kiểm tra tuân thủ CXL 2.0 sử dụng chip MXC của Montage.³⁰

Microchip tham gia CXL với bộ điều khiển SMC 1000 8x25G hỗ trợ các ứng dụng mở rộng và pooling bộ nhớ. Công ty tích hợp khả năng CXL vào danh mục kết nối bộ nhớ rộng hơn cùng với chip buffer bộ nhớ và bộ điều khiển SPD hub.

Sản phẩm module bộ nhớ từ các nhà cung cấp lớn

Dòng CMM-D (CXL Memory Module - DDR5) của Samsung đại diện cho dòng sản phẩm CXL sản xuất của công ty. CMM-D 2.0 cung cấp dung lượng 128GB và 256GB với băng thông lên đến 36GB/s, tuân thủ CXL 2.0, và hỗ trợ PCIe Gen 5.³¹ Samsung định vị CMM-D như bổ sung cho DIMM cục bộ hiện có, tuyên bố mở rộng dung lượng bộ nhớ lên đến 50% và tăng băng thông lên đến 100% trong khi giảm tổng chi phí sở hữu.³² Mẫu khách hàng được xuất xưởng vào năm 2025, với các biến thể CXL 3.1 nhắm mục tiêu cuối năm.³³

SK Hynix đã trình diễn nhiều sản phẩm bộ nhớ CXL tại Supercomputing 2025. CMM-DDR5 kết hợp với bộ điều khiển Montage để mở rộng dung lượng bộ nhớ, trong khi CMM-Ax (CXL Memory Module Accelerator) tích hợp khả năng tính toán trực tiếp vào bộ nhớ.³⁴ Petasus AI Cloud của SK Telecom đã triển khai CMM-Ax, trình diễn các ứng dụng cơ sở hạ tầng AI thực tế.³⁵ SK Hynix chuẩn bị sản xuất bộ điều khiển CXL độc quyền cho CXL 3.0 và 3.1, giảm sự phụ thuộc vào silicon bên thứ ba.³⁶

Micron ra mắt các module mở rộng bộ nhớ dựa trên CXL 2.0 sử dụng dung lượng DDR5 96GB.³⁷ Công ty định vị bộ nhớ CXL như công nghệ quan trọng để thu hẹp khoảng cách với Samsung và SK Hynix trong phân khúc bộ nhớ máy chủ lợi nhuận cao. Hệ thống H3 Falcon của Micron kết hợp bộ nhớ phân tán dựa trên CXL với hệ thống tệp FAMFS được Linux hỗ trợ để tăng tốc cơ sở dữ liệu đồ thị.³⁸

Hỗ trợ nền tảng máy chủ từ Intel và AMD

Bộ xử lý AMD EPYC Genoa ra mắt năm 2022 với hỗ trợ thiết bị CXL Type-3 gốc, cho AMD lợi thế đi trước nhiều năm so với Intel.³⁹ Bộ xử lý EPYC 9005 Turin hiện tại duy trì khả năng tương thích CXL trên toàn bộ dòng sản phẩm. Các benchmark hiệu suất chứng minh những cải thiện đáng kể: Bộ điều khiển Leo CXL với AMD EPYC thế hệ 5 cung cấp cải thiện hiệu suất 70% cho các mô hình khuyến nghị và cho phép kiến trúc bộ nhớ hybrid đạt 95-100% hiệu suất DRAM gốc.⁴⁰

Hành trình CXL của Intel chông gai hơn. Xeon Scalable thế hệ 4 "Sapphire Rapids" ra mắt mà không có hỗ trợ thiết bị CXL Type-3 mặc dù đã triển khai giao thức CXL cơ sở.⁴¹ Hỗ trợ Type-3 chính thức đến với thế hệ 5 "Emerald Rapids" khoảng một năm trước. Bộ xử lý Intel Xeon 6 bao gồm CXL Flat Memory Mode, một khả năng độc đáo tăng cường tính linh hoạt tỷ lệ compute-to-memory mà không hy sinh hiệu suất.⁴² Microsoft đặc biệt nhấn mạnh khả năng Flat Memory Mode khi công bố bản xem trước CXL của Azure.⁴³

Máy chủ Lenovo ThinkSystem V4 với bộ xử lý Intel Xeon 6 hỗ trợ bộ nhớ CXL 2.0 ở định dạng E3.S 2T.⁴⁴ Các nhà lãnh đạo ngành bao gồm Dell Technologies, HPE, ASUS, và Inventec xây dựng nền tảng phù hợp với CXL 3.0, chuẩn bị cho việc áp dụng hệ sinh thái rộng hơn.⁴⁵ Dự báo DRAM sau CXL đạt khoảng 10% DRAM máy chủ vào năm 2029.⁴⁶

CXL 4.0 vạch ra tương lai đa rack

Bản phát hành đặc tả CXL 4.0 vào tháng 11/2025 thiết lập nền tảng cho kiến trúc trung tâm dữ liệu phân tán thực sự. Tăng gấp đôi băng thông lên 128GT/s thông qua các lớp vật lý PCIe 7.0 giải quyết các lo ngại về hiệu suất đã hạn chế việc áp dụng trước đó.⁴⁷ Bundled ports tổng hợp nhiều kết nối vật lý thành các gắn kết logic đơn, cho phép băng thông 768GB/s theo mỗi hướng (tổng cộng 1,536TB/s) trên cấu hình x16 trong khi duy trì các mô hình phần mềm đơn giản.⁴⁸

Hỗ trợ độ rộng liên kết x2 gốc tăng khả năng fan-out cho các cấu trúc liên kết memory pooling. Các phiên bản CXL trước chỉ hỗ trợ x2 như chế độ dự phòng cho các lỗi lane; CXL 4.0 tối ưu hóa hoàn toàn x2 cho hiệu suất như độ rộng x4 đến x16.⁴⁹ Hỗ trợ phạm vi mở rộng thông qua tối đa bốn retimer cho phép cấu hình đa rack mà không bị suy giảm tín hiệu.⁵⁰

Hệ thống đa rack CXL 4.0 có thể triển khai vào cuối năm 2026 đến 2027.⁵¹ Đặc tả duy trì khả năng tương thích ngược với tất cả các phiên bản CXL trước đó, bảo vệ các khoản đầu tư vào thiết bị CXL 2.0 và 3.x hiện có.⁵² Với sự trưởng thành hệ sinh thái CXL 3.0 dự kiến trong năm 2025, các trung tâm dữ liệu sẽ bắt đầu áp dụng các kiến trúc nơi bộ nhớ và compute phân tán, pool, và tái phân bổ động vào năm 2026.⁵³

Xây dựng ngăn xếp cơ sở hạ tầng CXL

Triển khai mở rộng bộ nhớ CXL yêu cầu sự phối hợp hệ sinh thái vượt ra ngoài

[Nội dung bị cắt ngắn cho bản dịch]

Mở rộng Bộ nhớ CXL: Phá vỡ Rào cản Bộ nhớ trong Trung tâm Dữ liệu AI

Cách mở rộng bộ nhớ CXL thực sự hoạt động

Memory pooling chuyển đổi kinh tế máy chủ

Khối lượng công việc suy luận AI thúc đẩy việc áp dụng CXL

Bối cảnh bộ điều khiển CXL

Sản phẩm module bộ nhớ từ các nhà cung cấp lớn

Hỗ trợ nền tảng máy chủ từ Intel và AMD

CXL 4.0 vạch ra tương lai đa rack

Xây dựng ngăn xếp cơ sở hạ tầng CXL

You Might Also Like

Malaysia và Thái Lan: Các Trung Tâm Dữ Liệu AI Mới Nổi tại Đ...

Bùng Nổ Hạ Tầng AI 27 Tỷ USD của Singapore: Cơ Hội cho Triển...

Sao lưu và Khôi phục cho AI: Bảo vệ Dữ liệu Huấn luyện Quy m...

Yêu cầu báo giá_

Đã Nhận Yêu cầu_