CXL 4.0 và Cuộc Chiến Kết Nối: Bộ Nhớ AI Đang Tái Định Hình Kiến Trúc Trung Tâm Dữ Liệu Như Thế Nào
12 tháng 12, 2025
Cập nhật tháng 12/2025: Liên minh CXL phát hành CXL 4.0 vào ngày 18 tháng 11, tăng gấp đôi băng thông lên 128 GT/s với PCIe 7.0 và giới thiệu cổng gộp cho kết nối 1,5 TB/s. Panmnesia bắt đầu cung cấp mẫu switch fabric CXL 3.2 đầu tiên trong ngành với định tuyến dựa trên cổng. Trong khi đó, UALink nhắm mục tiêu triển khai cuối năm 2026 và Huawei đã mở mã nguồn UB-Mesh như một giải pháp thay thế.
Tóm tắt
CXL 4.0 đại diện cho thế hệ tiếp theo của công nghệ kết nối bộ nhớ, cho phép hơn 100 terabyte bộ nhớ gộp với tính nhất quán cache trên toàn bộ cơ sở hạ tầng AI. Tính năng cổng gộp của thông số này cho phép tổng hợp nhiều cổng vật lý thành các kết nối logic đơn lẻ cung cấp tổng băng thông 1,5 TB/s. Switch fabric CXL 3.2 của Panmnesia đánh dấu phần cứng đầu tiên triển khai định tuyến dựa trên cổng cho các cụm AI đa rack. Bối cảnh kết nối rộng hơn tiếp tục phân mảnh khi UALink, Ultra Ethernet và UB-Mesh của Huawei cạnh tranh cho các phân khúc khác nhau.
Điều Gì Đã Xảy Ra
Liên minh CXL phát hành thông số Compute Express Link 4.0 vào ngày 18 tháng 11 năm 2025, tại SC25.1 Thông số này chuyển từ PCIe 6.x (64 GT/s) sang PCIe 7.0 (128 GT/s), tăng gấp đôi băng thông khả dụng trong khi duy trì định dạng FLIT 256 byte được giới thiệu với CXL 3.x.2
"Việc phát hành thông số CXL 4.0 đặt ra một cột mốc mới cho việc nâng cao kết nối bộ nhớ nhất quán, tăng gấp đôi băng thông so với thế hệ trước với các tính năng mới mạnh mẽ," Derek Rohde, Chủ tịch Liên minh CXL và Kỹ sư Chính tại NVIDIA cho biết.3
Bốn ngày trước đó, vào ngày 12 tháng 11, startup Hàn Quốc Panmnesia công bố tính khả dụng mẫu của Switch Fabric PCIe 6.0/CXL 3.2: silicon đầu tiên triển khai định tuyến dựa trên cổng (PBR) cho fabric CXL.4
Bối cảnh kết nối tiếp tục phân mảnh. UALink nhắm mục tiêu triển khai trung tâm dữ liệu vào cuối năm 2026. Huawei thông báo sẽ mở mã nguồn giao thức UB-Mesh, được thiết kế để thay thế PCIe, CXL, NVLink và TCP/IP bằng một tiêu chuẩn thống nhất.5
Tại Sao Điều Này Quan Trọng Cho Cơ Sở Hạ Tầng
Bộ Nhớ Trở Nên Có Thể Kết Hợp: CXL 4.0 cho phép gộp bộ nhớ ở quy mô lớn. Các khối lượng công việc suy luận AI yêu cầu hàng trăm terabyte giờ có thể truy cập các pool bộ nhớ chia sẻ qua các rack với tính nhất quán cache, không chỉ trong một máy chủ đơn lẻ.
Băng Thông Đáp Ứng Nhu Cầu AI: Một cổng gộp CXL 4.0 với các liên kết x16 ở 128 GT/s cung cấp 768 GB/s mỗi hướng (tổng băng thông 1,536 TB/s giữa thiết bị và CPU).6 Phục vụ suy luận LLM được hưởng lợi trực tiếp từ dung lượng này.
Cụm AI Đa Rack: Định tuyến dựa trên cổng trong CXL 3.2/4.0 cho phép các switch fabric kết nối hàng nghìn thiết bị qua nhiều rack mà không gây ra độ trễ mạng dài. Panmnesia tuyên bố "độ trễ nano giây hai chữ số" cho việc truy cập bộ nhớ.7
Rủi Ro Phân Mảnh Tiêu Chuẩn: Bốn hệ sinh thái kết nối cạnh tranh (CXL/PCIe, UALink, Ultra Ethernet, NVLink) buộc các nhà quy hoạch cơ sở hạ tầng phải đặt cược vào người chiến thắng. Thiết bị mua ngày hôm nay có thể gặp thách thức về khả năng tương thích vào năm 2027.
Chi Tiết Kỹ Thuật
Thông Số CXL 4.0
| Tính năng | CXL 3.x | CXL 4.0 |
|---|---|---|
| Giao thức Cơ sở | PCIe 6.x | PCIe 7.0 |
| Tốc độ Truyền | 64 GT/s | 128 GT/s |
| Kích thước FLIT | 256B | 256B |
| Retimer Được hỗ trợ | 2 | 4 |
| Tùy chọn Độ rộng Liên kết | Tiêu chuẩn | Thêm x2 gốc |
| Cổng Gộp | Không | Có |
Kiến Trúc Cổng Gộp
Các cổng gộp của CXL 4.0 tổng hợp nhiều cổng thiết bị CXL vật lý thành một thực thể logic đơn lẻ:8
- Host và thiết bị Type 1/2 có thể kết hợp nhiều cổng vật lý
- Phần mềm hệ thống nhìn thấy một thiết bị đơn lẻ mặc dù có nhiều kết nối vật lý
- Tối ưu hóa cho Chế độ FLIT 256B, loại bỏ overhead FLIT cũ 68B
- Cho phép tổng băng thông 1,5+ TB/s mỗi kết nối logic
Switch Fabric CXL 3.2 của Panmnesia
Silicon switch CXL 3.2 đầu tiên bao gồm:9
| Thông số | Chi tiết |
|---|---|
| Hỗ trợ Giao thức | Hybrid PCIe Gen 6.0 + CXL 3.2 |
| Tốc độ Dữ liệu | 64 GT/s |
| Chế độ Định tuyến | PBR (dựa trên cổng) và HBR (dựa trên phân cấp) |
| Giao thức con CXL | CXL.cache, CXL.mem, CXL.io |
| Số Lane | 256 lane fan-out cao |
| Độ trễ | Nano giây hai chữ số |
| Tương thích Ngược | Tất cả các thế hệ PCIe/CXL trước |
Các ứng dụng mục tiêu bao gồm DLRM (Mô hình Đề xuất Học sâu), suy luận LLM, khối lượng công việc RAG và mô phỏng HPC dựa trên MPI.
Các Tiêu Chuẩn Kết Nối Cạnh Tranh
| Tiêu chuẩn | Chủ sở hữu | Mục đích | Băng thông | Quy mô | Lịch trình |
|---|---|---|---|---|---|
| CXL 4.0 | Liên minh | Nhất quán bộ nhớ | 128 GT/s | Đa rack | Cuối 2026-2027 |
| NVLink 5 | NVIDIA | GPU-GPU | 1,8 TB/s | 576 GPU | Có sẵn |
| UALink 1.0 | Liên minh do AMD dẫn đầu | Accelerator-accelerator | 200 Gb/s/lane | 1.024 thiết bị | Cuối 2026 |
| Ultra Ethernet | UEC | Mạng scale-out | Dựa trên Ethernet | 10.000+ endpoint | 2026+ |
| UB-Mesh | Huawei | Kết nối thống nhất | 1+ TB/s/thiết bị | 1M bộ xử lý | Mã nguồn mở |
Khung Quyết Định Kết Nối
Khi nào sử dụng tiêu chuẩn nào:
| Trường hợp Sử dụng | Lựa chọn Tốt nhất | Tại sao |
|---|---|---|
| GPU-đến-GPU trong node | NVLink | Băng thông cao nhất (1,8 TB/s), độ trễ thấp nhất |
| GPU-đến-GPU giữa các node | UALink | Thay thế tiêu chuẩn mở cho NVLink |
| Mở rộng bộ nhớ | CXL | Nhất quán cache với CPU, gộp bộ nhớ |
| Mạng scale-out | Ultra Ethernet / InfiniBand | Thiết kế cho cụm 10.000+ endpoint |
| Hệ sinh thái thống nhất Trung Quốc | UB-Mesh | Tránh các hạn chế IP phương Tây |
Định Vị UALink vs. CXL
UALink không cạnh tranh trực tiếp với CXL. Chúng phục vụ các mục đích khác nhau:10
- UALink: Mở rộng GPU-đến-GPU cho các cụm accelerator (scale-up)
- CXL: Nhất quán CPU-bộ nhớ và gộp bộ nhớ (mở rộng bộ nhớ)
- Ultra Ethernet: Mạng scale-out qua các trung tâm dữ liệu
"UALink hoạt động cùng với PCIe và CXL, nhưng chỉ UALink có tác dụng thống nhất các tài nguyên được phân bổ. UALink được thiết kế để kết nối các đơn vị GPU chính của bạn cho việc mở rộng GPU-đến-GPU," Michael Posner, VP Quản lý Sản phẩm tại Synopsys giải thích.11
UB-Mesh của Huawei
Cách tiếp cận thay thế của Huawei nhắm mục tiêu thay thế tất cả các kết nối hiện có:12
- Nhắm mục tiêu băng thông 1 TB/s+ mỗi thiết bị
- ~150 ns độ trễ mỗi hop (cải thiện từ micro giây sang nano giây)
- Ngữ nghĩa load/store đồng bộ so với dựa trên gói
- Giấy phép mã nguồn mở được công bố vào tháng 9 năm 2025
- Mở rộng lên 1 triệu bộ xử lý trong kiến trúc "SuperNode"
Việc áp dụng trong ngành vẫn chưa chắc chắn do các lo ngại địa chính trị và động lực của các tiêu chuẩn hiện có.
Tiếp Theo Là Gì
Cuối 2026: Các switch UALink đến các trung tâm dữ liệu; các sản phẩm CXL 4.0 bắt đầu cung cấp mẫu.
Cuối 2026-2027: Các hệ thống đa rack CXL 4.0 đạt triển khai sản xuất.13
Q4 2026: Upscale AI nhắm mục tiêu giao hàng switch UALink.14
Đang diễn ra: Các tổ chức tiêu chuẩn điều hướng sự cùng tồn tại của CXL, UALink và Ultra Ethernet. UB-Mesh của Huawei tìm kiếm sự áp dụng bên ngoài các thị trường phương Tây.
Bối cảnh kết nối sẽ vẫn phân mảnh ít nhất đến năm 2027. Không có tiêu chuẩn đơn lẻ nào giải quyết tất cả các trường hợp sử dụng: gộp bộ nhớ (CXL), mở rộng accelerator (UALink/NVLink) và fabric mạng (Ultra Ethernet/InfiniBand).
Điểm Chính
Cho các nhà quy hoạch cơ sở hạ tầng: - CXL 4.0 cho phép các pool bộ nhớ 100+ TB với nhất quán cache giữa các rack - Panmnesia đang cung cấp mẫu switch fabric CXL 3.2 đầu tiên với định tuyến dựa trên cổng - Lập kế hoạch cho sự cùng tồn tại tiêu chuẩn: CXL + UALink + Ultra Ethernet/InfiniBand - Lịch trình triển khai cuối 2026-2027 cho các hệ thống sản xuất CXL 4.0
Cho các đội vận hành: - CXL duy trì tương thích ngược với các thế hệ trước - Định tuyến dựa trên cổng đơn giản hóa quản lý fabric đa rack - Độ trễ nano giây hai chữ số cho truy cập bộ nhớ qua các switch - Theo dõi Panmnesia, XConn và các nhà cung cấp switch CXL khác về tính khả dụng
Cho quy hoạch chiến lược: - Không có tiêu chuẩn kết nối đơn lẻ nào sẽ "thắng" vì các lớp khác nhau phục vụ các mục đích khác nhau - Gộp bộ nhớ trở nên khả thi cho suy luận AI ở quy mô - UB-Mesh của Huawei tạo ra hệ sinh thái song song chủ yếu cho thị trường Trung Quốc - Các quyết định về thiết bị trong 2025-2026 sẽ ảnh hưởng đến khả năng tương thích đến năm 2030
Tài Liệu Tham Khảo
Để triển khai cơ sở hạ tầng AI với các kiến trúc kết nối tiên tiến, liên hệ Introl.
-
CXL Consortium. "CXL Consortium Releases the Compute Express Link 4.0 Specification." 18 tháng 11, 2025. ↩
-
VideoCardz. "CXL 4.0 spec moves to PCIe 7.0, doubles bandwidth over CXL 3.0." Tháng 11, 2025. ↩
-
Business Wire. "CXL Consortium Releases the Compute Express Link 4.0 Specification Increasing Speed and Bandwidth." 18 tháng 11, 2025. ↩
-
Business Wire. "Panmnesia Announces Sample Availability of PCIe 6.0/CXL 3.2 Fabric Switch." 12 tháng 11, 2025. ↩
-
Tom's Hardware. "Huawei to open-source its UB-Mesh data center-scale interconnect soon." Tháng 8, 2025. ↩
-
Datacenter.news. "CXL 4.0 doubles bandwidth, introduces bundled ports for data centres." Tháng 11, 2025. ↩
-
Panmnesia. "Press Release: PCIe 6.0/CXL 3.2 Fabric Switch." Tháng 11, 2025. ↩
-
Blocks and Files. "CXL 4.0 doubles bandwidth and stretches memory pooling to multi-rack setups." 24 tháng 11, 2025. ↩
-
TechPowerUp. "Panmnesia Samples Industry's First PCIe 6.0/CXL 3.2 Fabric Switch." Tháng 11, 2025. ↩
-
Semi Engineering. "New Data Center Protocols Tackle AI." 2025. ↩
-
Synopsys. "Ultra Ethernet UaLink AI Networks." 2025. ↩
-
ServeTheHome. "Huawei Presents UB-Mesh Interconnect for Large AI SuperNodes at Hot Chips 2025." Tháng 8, 2025. ↩
-
Blocks and Files. "CXL 4.0 doubles bandwidth." Tháng 11, 2025. ↩
-
HPCwire. "Upscale AI Eyes Late 2026 for Scale-Up UALink Switch." 2 tháng 12, 2025. ↩
-
EE Times. "CXL Adds Port Bundling to Quench AI Thirst." Tháng 11, 2025. ↩
-
SDxCentral. "Compute Express Link Consortium debuts 4.0 spec to push past bandwidth bottlenecks." Tháng 11, 2025. ↩
-
CXL Consortium. "CXL 4.0 White Paper." Tháng 11, 2025. ↩