UALink và CXL 4.0: Các Tiêu chuẩn Mở Đang Định Hình Lại Kiến trúc Cụm GPU
Đặc tả UALink 1.0 được công bố vào tháng 4 năm 2025 cho phép mở rộng lên 1.024 bộ tăng tốc trên một fabric duy nhất, trực tiếp thách thức hệ sinh thái NVLink và NVSwitch độc quyền của Nvidia. Bảy tháng sau, CXL Consortium phát hành CXL 4.0 vào ngày 18 tháng 11 năm 2025, tăng gấp đôi băng thông lên 128 GT/s và cho phép gộp bộ nhớ đa rack. Cùng nhau, các tiêu chuẩn mở này đại diện cho thách thức đáng kể nhất đối với sự thống trị kết nối của Nvidia kể từ khi công ty giới thiệu NVLink vào năm 2016.
Tóm tắt
UALink 1.0 cung cấp 200 GT/s mỗi lane với hỗ trợ lên đến 1.024 bộ tăng tốc, so với mức tối đa 576 GPU của NVLink. CXL 4.0 tăng gấp đôi băng thông bộ nhớ lên 128 GT/s và giới thiệu các cổng gộp cho khối lượng công việc AI yêu cầu bộ nhớ chia sẻ quy mô terabyte. Phần cứng hỗ trợ UALink sẽ ra mắt vào cuối năm 2026 từ AMD, Intel và Astera Labs, trong khi các triển khai đa rack CXL 4.0 nhắm đến năm 2027. Đối với các đội ngũ hạ tầng đang lập kế hoạch cho các cụm GPU thế hệ tiếp theo, các đặc tả này báo hiệu sự chuyển đổi sang các kiến trúc trung lập về nhà cung cấp, giảm sự phụ thuộc đồng thời cho phép quy mô chưa từng có.
Bối cảnh Kết nối năm 2025
Các kết nối GPU quyết định mức độ hiệu quả mà các cụm AI có thể mở rộng. Các bộ tăng tốc trao đổi dữ liệu càng nhanh, các mô hình chúng có thể huấn luyện càng lớn và chúng phục vụ các yêu cầu suy luận càng hiệu quả.
Các Công nghệ Kết nối Hiện tại
| Công nghệ | Chủ sở hữu | Băng thông | Quy mô Tối đa | Trạng thái |
|---|---|---|---|---|
| NVLink 5.0 | Nvidia | 1,8 TB/s mỗi GPU | 576 GPU | Sản xuất (Blackwell) |
| NVLink 4.0 | Nvidia | 900 GB/s mỗi GPU | 256 GPU | Sản xuất (Hopper) |
| Infinity Fabric | AMD | ~1,075 TB/s mỗi card | 8 GPU (lưới trực tiếp) | Sản xuất (MI300X) |
| UALink 1.0 | Consortium | 800 GB/s (4 lane) | 1.024 bộ tăng tốc | Đặc tả công bố tháng 4/2025 |
| CXL 4.0 | Consortium | 128 GT/s | Đa rack | Đặc tả công bố tháng 11/2025 |
NVLink của Nvidia thống trị các triển khai sản xuất, nhưng hệ thống GB200 NVL72 là minh chứng cho cả sức mạnh và giới hạn của nó: 72 GPU Blackwell được kết nối với tổng băng thông 130 TB/s, nhưng chỉ trong hệ sinh thái độc quyền của Nvidia.
UALink 1.0: Phá vỡ Sự Phụ thuộc Nhà cung cấp
Thành lập Consortium
Ultra Accelerator Link Consortium được thành lập vào tháng 10 năm 2024 với các thành viên sáng lập AMD, Astera Labs, AWS, Cisco, Google, HPE, Intel, Meta và Microsoft. Nỗ lực này xây dựng trên công việc mà AMD và Broadcom công bố vào tháng 12 năm 2023.
Đến tháng 1 năm 2025, Alibaba Cloud, Apple và Synopsys tham gia ở cấp hội đồng quản trị, nâng tổng số thành viên lên 75 tổ chức.
Thông số Kỹ thuật
Đặc tả UALink 200G 1.0 định nghĩa một kết nối độ trễ thấp, băng thông cao cho giao tiếp giữa các bộ tăng tốc và switch trong các pod tính toán AI.
| Thông số | UALink 1.0 |
|---|---|
| Tốc độ Dữ liệu Mỗi Lane | 200 GT/s hai chiều |
| Tốc độ Tín hiệu | 212,5 GT/s (bao gồm overhead FEC) |
| Độ rộng Liên kết | x1, x2, x4 |
| Băng thông Tối đa | 800 GB/s (cấu hình x4) |
| Quy mô Tối đa | 1.024 bộ tăng tốc |
| Độ dài Cáp | <4 mét tối ưu |
| Mục tiêu Độ trễ | <1 µs khứ hồi (payload 64B/640B) |
Các switch UALink gán một cổng cho mỗi bộ tăng tốc và sử dụng định danh duy nhất 10-bit để định tuyến chính xác trên fabric.
UALink vs NVLink: So sánh Trực tiếp
| Chỉ số | UALink 1.0 | NVLink 4.0 (Hopper) | NVLink 5.0 (Blackwell) |
|---|---|---|---|
| Băng thông Mỗi GPU | 800 GB/s | 900 GB/s | 1,8 TB/s |
| Liên kết Mỗi GPU | 4 | 18 | 18 |
| GPU Tối đa | 1.024 | 256 | 576 |
| Phụ thuộc Nhà cung cấp | Tiêu chuẩn mở | Chỉ Nvidia | Chỉ Nvidia |
| Phần cứng Có sẵn | Cuối 2026/2027 | Sản xuất | Sản xuất |
NVLink 5.0 cung cấp băng thông mỗi kết nối cao hơn 3 lần so với UALink 1.0 (2.538 GB/s so với 800 GB/s). Tuy nhiên, UALink hỗ trợ quy mô cụm tối đa gần gấp 2 lần (1.024 so với 576 GPU) và hoạt động trên nhiều nhà cung cấp.
Sự Khác biệt về Triết lý Thiết kế
NVLink tối ưu hóa cho các cụm GPU dày đặc, đồng nhất nơi băng thông tối đa giữa các bộ tăng tốc được đặt gần nhau là quan trọng nhất. Công nghệ này xuất sắc trong các hệ thống DGX và rack NVL72 nơi tất cả các thành phần đều đến từ Nvidia.
UALink nhắm đến các kiến trúc quy mô rack mô-đun nơi các tổ chức kết hợp các bộ tăng tốc từ các nhà cung cấp khác nhau hoặc yêu cầu các cụm logic lớn hơn. Tiêu chuẩn mở cho phép AMD dòng MI, Intel Gaudi và các bộ tăng tốc trong tương lai giao tiếp thông qua một fabric chung.
Vị trí Hiện tại của AMD
Infinity Fabric của AMD kết nối tối đa tám GPU MI300X hoặc MI355X trong một lưới kết nối đầy đủ. Mỗi MI300X mang bảy liên kết Infinity Fabric với 16 lane mỗi liên kết, cung cấp khoảng 1,075 TB/s băng thông peer-to-peer.
Hạn chế: mở rộng quá 8 GPU yêu cầu mạng Ethernet. Lộ trình của AMD bao gồm AFL (Accelerated Fabric Link) hoạt động trên các liên kết PCIe Gen7, cùng với việc áp dụng UALink cho khả năng tương tác đa nhà cung cấp.
CXL 4.0: Bộ nhớ Không Giới hạn
Vấn đề Tường Bộ nhớ
Các khối lượng công việc AI ngày càng gặp nút thắt bộ nhớ trước giới hạn tính toán. Các mô hình ngôn ngữ lớn yêu cầu terabyte bộ nhớ cho bộ nhớ đệm KV trong quá trình suy luận, trong khi các lần huấn luyện yêu cầu nhiều hơn cho các activation và trạng thái optimizer.
Các kiến trúc máy chủ truyền thống gắn bộ nhớ trực tiếp vào CPU, tạo ra dung lượng bị lãng phí khi khối lượng công việc thay đổi. CXL tách rời bộ nhớ khỏi tính toán, cho phép phân bổ động trên các node.
Thông số CXL 4.0
CXL Consortium phát hành CXL 4.0 tại Supercomputing 2025 vào ngày 18 tháng 11 năm 2025.
| Thông số | CXL 3.0/3.1 | CXL 4.0 |
|---|---|---|
| Tốc độ Tín hiệu | 64 GT/s | 128 GT/s |
| Thế hệ PCIe | PCIe 6.0 | PCIe 7.0 |
| Băng thông | 256 GB/s (x16) | 512 GB/s (x16) |
| Retimer | 2 | 4 |
| Độ rộng Liên kết | x16, x8, x4, x1 | x16, x8, x4, x2, x1 |
| Cấu trúc liên kết | Đơn rack | Đa rack |
Các Tính năng Chính của CXL 4.0
Cổng Gộp: CXL 4.0 giới thiệu tổng hợp cổng cho phép host và thiết bị kết hợp nhiều cổng vật lý thành một kết nối logic duy nhất. Điều này cung cấp băng thông cao hơn trong khi duy trì mô hình phần mềm đơn giản nơi hệ thống nhìn thấy một thiết bị.
Phạm vi Mở rộng: Bốn retimer cho phép cấu hình đa rack mà không làm giảm chất lượng tín hiệu. CXL 3.x giới hạn triển khai trong cấu trúc đơn rack; CXL 4.0 mở rộng gộp bộ nhớ trên các dãy trung tâm dữ liệu.
Dung lượng Bộ nhớ: Gộp bộ nhớ CXL cho phép hơn 100 terabyte bộ nhớ được gắn vào một CPU duy nhất, có giá trị cho các tổ chức khai thác bộ dữ liệu lớn hoặc chạy các khối lượng công việc AI đòi hỏi nhiều bộ nhớ.
Liên kết x2 Gốc: Tùy chọn độ rộng liên kết x2 mới giảm chi phí cho các ứng dụng yêu cầu băng thông vừa phải, cải thiện kinh tế CXL cho các triển khai biên.
Hiệu suất Gộp Bộ nhớ CXL
Các demo tại CXL DevCon 2025 cho thấy hai máy chủ với GPU NVIDIA H100 chạy mô hình OPT-6.7B:
| Cấu hình | Hiệu suất |
|---|---|
| Pool Bộ nhớ CXL | Cơ sở |
| RDMA 200G | Chậm hơn 3,8 lần |
| RDMA 100G | Chậm hơn 6,5 lần |
CXL cung cấp truy cập ngữ nghĩa bộ nhớ với độ trễ trong phạm vi 200-500 ns, so với ~100 µs cho NVMe và >10 ms cho chia sẻ bộ nhớ dựa trên lưu trữ.
Cải thiện Năng lượng và Hiệu quả
Nghiên cứu cho thấy CXL có thể [giảm tiêu thụ năng lượng bộ nhớ 20-30%](https://computeexpresslink.org/blog/over
[Nội dung bị cắt ngắn cho bản dịch]