UALink và CXL 4.0: Các Tiêu chuẩn Mở Đang Định Hình Lại Kiến trúc Cụm GPU

UALink 1.0 thách thức NVLink với khả năng mở rộng lên 1.024 GPU. CXL 4.0 tăng gấp đôi băng thông lên 128 GT/s. Hướng dẫn kỹ thuật về các tiêu chuẩn kết nối mở cho hạ tầng AI.

Blake Crosley

Feb 06, 2026 7 min read Disclaimer

UALink và CXL 4.0: Các Tiêu chuẩn Mở Đang Định Hình Lại Kiến trúc Cụm GPU

Đặc tả UALink 1.0 được công bố vào tháng 4 năm 2025 cho phép mở rộng lên 1.024 bộ tăng tốc trên một fabric duy nhất, trực tiếp thách thức hệ sinh thái NVLink và NVSwitch độc quyền của Nvidia. Bảy tháng sau, CXL Consortium phát hành CXL 4.0 vào ngày 18 tháng 11 năm 2025, tăng gấp đôi băng thông lên 128 GT/s và cho phép gộp bộ nhớ đa rack. Cùng nhau, các tiêu chuẩn mở này đại diện cho thách thức đáng kể nhất đối với sự thống trị kết nối của Nvidia kể từ khi công ty giới thiệu NVLink vào năm 2016.

Tóm tắt

UALink 1.0 cung cấp 200 GT/s mỗi lane với hỗ trợ lên đến 1.024 bộ tăng tốc, so với mức tối đa 576 GPU của NVLink. CXL 4.0 tăng gấp đôi băng thông bộ nhớ lên 128 GT/s và giới thiệu các cổng gộp cho khối lượng công việc AI yêu cầu bộ nhớ chia sẻ quy mô terabyte. Phần cứng hỗ trợ UALink sẽ ra mắt vào cuối năm 2026 từ AMD, Intel và Astera Labs, trong khi các triển khai đa rack CXL 4.0 nhắm đến năm 2027. Đối với các đội ngũ hạ tầng đang lập kế hoạch cho các cụm GPU thế hệ tiếp theo, các đặc tả này báo hiệu sự chuyển đổi sang các kiến trúc trung lập về nhà cung cấp, giảm sự phụ thuộc đồng thời cho phép quy mô chưa từng có.

Bối cảnh Kết nối năm 2025

Các kết nối GPU quyết định mức độ hiệu quả mà các cụm AI có thể mở rộng. Các bộ tăng tốc trao đổi dữ liệu càng nhanh, các mô hình chúng có thể huấn luyện càng lớn và chúng phục vụ các yêu cầu suy luận càng hiệu quả.

Các Công nghệ Kết nối Hiện tại

Công nghệ	Chủ sở hữu	Băng thông	Quy mô Tối đa	Trạng thái
NVLink 5.0	Nvidia	1,8 TB/s mỗi GPU	576 GPU	Sản xuất (Blackwell)
NVLink 4.0	Nvidia	900 GB/s mỗi GPU	256 GPU	Sản xuất (Hopper)
Infinity Fabric	AMD	~1,075 TB/s mỗi card	8 GPU (lưới trực tiếp)	Sản xuất (MI300X)
UALink 1.0	Consortium	800 GB/s (4 lane)	1.024 bộ tăng tốc	Đặc tả công bố tháng 4/2025
CXL 4.0	Consortium	128 GT/s	Đa rack	Đặc tả công bố tháng 11/2025

NVLink của Nvidia thống trị các triển khai sản xuất, nhưng hệ thống GB200 NVL72 là minh chứng cho cả sức mạnh và giới hạn của nó: 72 GPU Blackwell được kết nối với tổng băng thông 130 TB/s, nhưng chỉ trong hệ sinh thái độc quyền của Nvidia.

UALink 1.0: Phá vỡ Sự Phụ thuộc Nhà cung cấp

Thành lập Consortium

Ultra Accelerator Link Consortium được thành lập vào tháng 10 năm 2024 với các thành viên sáng lập AMD, Astera Labs, AWS, Cisco, Google, HPE, Intel, Meta và Microsoft. Nỗ lực này xây dựng trên công việc mà AMD và Broadcom công bố vào tháng 12 năm 2023.

Đến tháng 1 năm 2025, Alibaba Cloud, Apple và Synopsys tham gia ở cấp hội đồng quản trị, nâng tổng số thành viên lên 75 tổ chức.

Thông số Kỹ thuật

Đặc tả UALink 200G 1.0 định nghĩa một kết nối độ trễ thấp, băng thông cao cho giao tiếp giữa các bộ tăng tốc và switch trong các pod tính toán AI.

Thông số	UALink 1.0
Tốc độ Dữ liệu Mỗi Lane	200 GT/s hai chiều
Tốc độ Tín hiệu	212,5 GT/s (bao gồm overhead FEC)
Độ rộng Liên kết	x1, x2, x4
Băng thông Tối đa	800 GB/s (cấu hình x4)
Quy mô Tối đa	1.024 bộ tăng tốc
Độ dài Cáp	<4 mét tối ưu
Mục tiêu Độ trễ	<1 µs khứ hồi (payload 64B/640B)

Các switch UALink gán một cổng cho mỗi bộ tăng tốc và sử dụng định danh duy nhất 10-bit để định tuyến chính xác trên fabric.

UALink vs NVLink: So sánh Trực tiếp

Chỉ số	UALink 1.0	NVLink 4.0 (Hopper)	NVLink 5.0 (Blackwell)
Băng thông Mỗi GPU	800 GB/s	900 GB/s	1,8 TB/s
Liên kết Mỗi GPU	4	18	18
GPU Tối đa	1.024	256	576
Phụ thuộc Nhà cung cấp	Tiêu chuẩn mở	Chỉ Nvidia	Chỉ Nvidia
Phần cứng Có sẵn	Cuối 2026/2027	Sản xuất	Sản xuất

NVLink 5.0 cung cấp băng thông mỗi kết nối cao hơn 3 lần so với UALink 1.0 (2.538 GB/s so với 800 GB/s). Tuy nhiên, UALink hỗ trợ quy mô cụm tối đa gần gấp 2 lần (1.024 so với 576 GPU) và hoạt động trên nhiều nhà cung cấp.

Sự Khác biệt về Triết lý Thiết kế

NVLink tối ưu hóa cho các cụm GPU dày đặc, đồng nhất nơi băng thông tối đa giữa các bộ tăng tốc được đặt gần nhau là quan trọng nhất. Công nghệ này xuất sắc trong các hệ thống DGX và rack NVL72 nơi tất cả các thành phần đều đến từ Nvidia.

UALink nhắm đến các kiến trúc quy mô rack mô-đun nơi các tổ chức kết hợp các bộ tăng tốc từ các nhà cung cấp khác nhau hoặc yêu cầu các cụm logic lớn hơn. Tiêu chuẩn mở cho phép AMD dòng MI, Intel Gaudi và các bộ tăng tốc trong tương lai giao tiếp thông qua một fabric chung.

Vị trí Hiện tại của AMD

Infinity Fabric của AMD kết nối tối đa tám GPU MI300X hoặc MI355X trong một lưới kết nối đầy đủ. Mỗi MI300X mang bảy liên kết Infinity Fabric với 16 lane mỗi liên kết, cung cấp khoảng 1,075 TB/s băng thông peer-to-peer.

Hạn chế: mở rộng quá 8 GPU yêu cầu mạng Ethernet. Lộ trình của AMD bao gồm AFL (Accelerated Fabric Link) hoạt động trên các liên kết PCIe Gen7, cùng với việc áp dụng UALink cho khả năng tương tác đa nhà cung cấp.

CXL 4.0: Bộ nhớ Không Giới hạn

Vấn đề Tường Bộ nhớ

Các khối lượng công việc AI ngày càng gặp nút thắt bộ nhớ trước giới hạn tính toán. Các mô hình ngôn ngữ lớn yêu cầu terabyte bộ nhớ cho bộ nhớ đệm KV trong quá trình suy luận, trong khi các lần huấn luyện yêu cầu nhiều hơn cho các activation và trạng thái optimizer.

Các kiến trúc máy chủ truyền thống gắn bộ nhớ trực tiếp vào CPU, tạo ra dung lượng bị lãng phí khi khối lượng công việc thay đổi. CXL tách rời bộ nhớ khỏi tính toán, cho phép phân bổ động trên các node.

Thông số CXL 4.0

CXL Consortium phát hành CXL 4.0 tại Supercomputing 2025 vào ngày 18 tháng 11 năm 2025.

Thông số	CXL 3.0/3.1	CXL 4.0
Tốc độ Tín hiệu	64 GT/s	128 GT/s
Thế hệ PCIe	PCIe 6.0	PCIe 7.0
Băng thông	256 GB/s (x16)	512 GB/s (x16)
Retimer	2	4
Độ rộng Liên kết	x16, x8, x4, x1	x16, x8, x4, x2, x1
Cấu trúc liên kết	Đơn rack	Đa rack

Các Tính năng Chính của CXL 4.0

Cổng Gộp: CXL 4.0 giới thiệu tổng hợp cổng cho phép host và thiết bị kết hợp nhiều cổng vật lý thành một kết nối logic duy nhất. Điều này cung cấp băng thông cao hơn trong khi duy trì mô hình phần mềm đơn giản nơi hệ thống nhìn thấy một thiết bị.

Phạm vi Mở rộng: Bốn retimer cho phép cấu hình đa rack mà không làm giảm chất lượng tín hiệu. CXL 3.x giới hạn triển khai trong cấu trúc đơn rack; CXL 4.0 mở rộng gộp bộ nhớ trên các dãy trung tâm dữ liệu.

Dung lượng Bộ nhớ: Gộp bộ nhớ CXL cho phép hơn 100 terabyte bộ nhớ được gắn vào một CPU duy nhất, có giá trị cho các tổ chức khai thác bộ dữ liệu lớn hoặc chạy các khối lượng công việc AI đòi hỏi nhiều bộ nhớ.

Liên kết x2 Gốc: Tùy chọn độ rộng liên kết x2 mới giảm chi phí cho các ứng dụng yêu cầu băng thông vừa phải, cải thiện kinh tế CXL cho các triển khai biên.

Hiệu suất Gộp Bộ nhớ CXL

Các demo tại CXL DevCon 2025 cho thấy hai máy chủ với GPU NVIDIA H100 chạy mô hình OPT-6.7B:

Cấu hình	Hiệu suất
Pool Bộ nhớ CXL	Cơ sở
RDMA 200G	Chậm hơn 3,8 lần
RDMA 100G	Chậm hơn 6,5 lần

CXL cung cấp truy cập ngữ nghĩa bộ nhớ với độ trễ trong phạm vi 200-500 ns, so với ~100 µs cho NVMe và >10 ms cho chia sẻ bộ nhớ dựa trên lưu trữ.

Cải thiện Năng lượng và Hiệu quả

Nghiên cứu cho thấy CXL có thể [giảm tiêu thụ năng lượng bộ nhớ 20-30%](https://computeexpresslink.org/blog/over

[Nội dung bị cắt ngắn cho bản dịch]

UALink và CXL 4.0: Các Tiêu chuẩn Mở Đang Định Hình Lại Kiến trúc Cụm GPU

Tóm tắt

Bối cảnh Kết nối năm 2025

Các Công nghệ Kết nối Hiện tại

UALink 1.0: Phá vỡ Sự Phụ thuộc Nhà cung cấp

Thành lập Consortium

Thông số Kỹ thuật

UALink vs NVLink: So sánh Trực tiếp

Sự Khác biệt về Triết lý Thiết kế

Vị trí Hiện tại của AMD

CXL 4.0: Bộ nhớ Không Giới hạn

Vấn đề Tường Bộ nhớ

Thông số CXL 4.0

Các Tính năng Chính của CXL 4.0

Hiệu suất Gộp Bộ nhớ CXL

Cải thiện Năng lượng và Hiệu quả

You Might Also Like

Máy Tính ROI Làm Mát Ngâm Chìm: Hoàn Vốn 2-4 Năm Cho Khối Lư...

Hành lang AI Vương quốc Anh: Trung tâm Điện toán Mới Nổi của...

Hiệu quả Sử dụng Nước: Làm mát Trung tâm Dữ liệu AI Không Gâ...

Yêu cầu báo giá_

Đã Nhận Yêu cầu_