NVLink và mạng scale-up: khi 800G Ethernet vẫn chưa đủ

NVLink 5 cung cấp 1.8TB/s cho mỗi GPU (18 liên kết × 100GB/s)—gấp 14 lần băng thông PCIe Gen5. GB200 NVL72 kết nối 72 GPU với tổng băng thông 130TB/s. NVSwitch cho phép 576 GPU trong fabric non-blocking với 1PB/s...

NVLink và mạng scale-up: khi 800G Ethernet vẫn chưa đủ

NVLink và mạng scale-up: khi 800G Ethernet vẫn chưa đủ

Cập nhật ngày 11 tháng 12 năm 2025

Cập nhật tháng 12/2025: NVLink 5 cung cấp 1.8TB/s cho mỗi GPU (18 liên kết × 100GB/s)—gấp 14 lần băng thông PCIe Gen5. GB200 NVL72 kết nối 72 GPU với tổng băng thông 130TB/s. NVSwitch cho phép 576 GPU trong fabric tính toán non-blocking với tổng băng thông 1PB/s. NVLink thế hệ thứ năm đạt băng thông gấp 12 lần thế hệ đầu tiên (2014). Mạng scale-up tạo ra các khả năng mà mạng scale-out không thể sánh được.

Một GPU NVIDIA Blackwell đơn lẻ hỗ trợ tối đa 18 kết nối NVLink với tốc độ 100 gigabyte mỗi giây cho mỗi kết nối, mang lại tổng băng thông 1.8 terabyte mỗi giây—gấp 14 lần băng thông của PCIe Gen5.¹ Hệ thống GB200 NVL72 kết nối 72 GPU trong một miền NVLink duy nhất với tổng băng thông 130 terabyte mỗi giây.² NVLink Switch của NVIDIA cho phép 576 GPU trong một fabric tính toán non-blocking với tổng băng thông hơn 1 petabyte mỗi giây.³ Mạng scale-up tạo ra các khả năng hạ tầng mà các mạng Ethernet và InfiniBand scale-out không thể sánh được.

Sự khác biệt giữa mạng scale-up và scale-out định hình kiến trúc hạ tầng AI hiện đại. NVLink và NVSwitch xử lý giao tiếp bên trong các node và rack, cung cấp băng thông và độ trễ cần thiết cho tensor parallelism trên các mô hình lớn. InfiniBand và Ethernet xử lý giao tiếp giữa các rack, cung cấp phạm vi cần thiết cho data parallelism trên hàng nghìn GPU. Hiểu rõ khi nào áp dụng từng công nghệ sẽ quyết định liệu các khoản đầu tư hạ tầng có mang lại hiệu suất như mong đợi hay không.

NVLink thế hệ thứ năm tăng gấp đôi băng thông so với thế hệ trước.⁴ Mỗi liên kết hoạt động ở tốc độ 100 gigabyte mỗi giây hai chiều, với 18 liên kết cho mỗi GPU Blackwell cung cấp tổng băng thông 1.8 terabyte mỗi giây.⁵ Cải tiến này vượt quá băng thông PCIe Gen5 hơn 14 lần.⁶

Sự phát triển qua các thế hệ cho thấy quỹ đạo:

Thế hệ Kiến trúc Liên kết Băng thông mỗi GPU
Thứ 1 (2018) Volta V100 6 300 GB/s
Thứ 2 (2020) Ampere A100 12 600 GB/s
Thứ 3 (2022) Hopper H100 18 900 GB/s
Thứ 4 (2024) Blackwell B200 18 1.8 TB/s

NVLink thế hệ thứ năm đạt băng thông gấp 12 lần NVLink thế hệ đầu tiên ra mắt năm 2014.⁷ Việc tăng gấp đôi từ Hopper lên Blackwell phản ánh yêu cầu băng thông ngày càng tăng của các mô hình nghìn tỷ tham số.

Sự tăng băng thông mỗi liên kết từ 50 gigabyte mỗi giây trong NVLink 4 lên 100 gigabyte mỗi giây trong NVLink 5 cho phép cùng cấu hình 18 liên kết tăng gấp đôi tổng thông lượng.⁸ Kiến trúc duy trì số lượng liên kết trong khi cải thiện tốc độ tín hiệu.

Sự phát triển kiến trúc NVSwitch

NVIDIA giới thiệu NVSwitch cùng với hệ thống DGX-2 vào năm 2018 để cho phép kết nối đầy đủ giữa các GPU trong một hệ thống duy nhất.⁹ NVSwitch hoạt động như một switch crossbar non-blocking tốc độ cao cho lưu lượng NVLink, cho phép mọi GPU trong hệ thống giao tiếp với mọi GPU khác ở tốc độ tối đa.¹⁰

DGX-2 trang bị 16 GPU V100 được kết nối thông qua NVSwitch thế hệ đầu tiên.¹¹ Mỗi chip NVSwitch cung cấp 18 cổng NVLink với tổng dung lượng chuyển mạch 900 gigabyte mỗi giây.¹² Chip 100 watt được sản xuất trên quy trình TSMC 12nm chứa 2 tỷ transistor.¹³

NVSwitch thế hệ thứ hai ra mắt cùng DGX A100 vào năm 2020, hỗ trợ NVLink 3.0 với 600 gigabyte mỗi giây cho mỗi GPU.¹⁴ Sáu chip NVSwitch tạo ra một cấu trúc mạng kết nối đầy đủ cho tám GPU A100.¹⁵

NVSwitch thế hệ thứ ba cho Hopper tăng lên tổng băng thông hai chiều 25.6 terabit mỗi giây cho mỗi chip.¹⁶ Bốn chip NVSwitch trong mỗi hệ thống HGX H100 và HGX H200 cung cấp băng thông mạng hai chiều 3.6 terabyte mỗi giây trên tám GPU.¹⁷ NVSwitch thế hệ thứ ba giới thiệu chức năng SHARP cho tính toán trong mạng, tổng hợp và cập nhật kết quả trên nhiều đơn vị GPU mà không cần round trip đến từng GPU riêng lẻ.¹⁸

NVSwitch thế hệ thứ tư cho Blackwell có 72 cổng NVLink 5.0 mỗi chip.¹⁹ NVLink 5 Switch cung cấp 144 cổng NVLink với dung lượng chuyển mạch non-blocking 14.4 terabyte mỗi giây.²⁰ Thế hệ này giới thiệu chuyển mạch cấp rack, chuyển NVSwitch từ máy chủ sang các khay switch chuyên dụng.

Kiến trúc scale-up GB200 NVL72

GB200 NVL72 kết nối 36 CPU Grace và 72 GPU Blackwell trong một thiết kế làm mát bằng chất lỏng quy mô rack.²¹ Miền NVLink 72 GPU hoạt động như một GPU khổng lồ duy nhất và mang lại tốc độ suy luận mô hình ngôn ngữ lớn nghìn tỷ tham số theo thời gian thực nhanh hơn 30 lần so với các thế hệ trước.²²

Kiến trúc vật lý phân phối các thành phần trên các khay tính toán và khay switch.²³ Mỗi khay tính toán chứa hai GB200 Superchip, với mỗi Superchip bao gồm hai GPU B200 và một CPU Grace.²⁴ Hệ thống chứa 18 khay tính toán với tổng cộng 72 GPU.

Chín khay NVLink switch cung cấp kết nối full-mesh.²⁵ Mỗi khay switch chứa hai chip NVLink Switch với tổng cộng 144 cổng NVLink.²⁶ Chín switch kết nối đầy đủ từng cổng trong số 18 cổng NVLink trên mỗi GPU Blackwell.²⁷

Không có kết nối GPU-tới-GPU trực tiếp trong một máy chủ hoặc khay tính toán đơn lẻ.²⁸ Tất cả giao tiếp đều định tuyến thông qua fabric NVSwitch bên ngoài.²⁹ Kiến trúc này làm cho tất cả 72 GPU tương đương từ góc độ kết nối—bất kỳ GPU nào cũng có thể giao tiếp với bất kỳ GPU nào khác với cùng băng thông và độ trễ.³⁰

Tổng băng thông NVLink 130 terabyte mỗi giây cho phép tensor parallelism trên tất cả 72 GPU.³¹ Các mô hình lớn vượt quá dung lượng bộ nhớ của một GPU có thể phân phối tensor trên toàn bộ miền với chi phí giao tiếp tối thiểu. Kiến trúc loại bỏ ranh giới truyền thống giữa mạng máy chủ và mạng rack cho các khối lượng công việc scale-up.

Mạng scale-up so với scale-out

Mạng scale-up (NVLink) và mạng scale-out (InfiniBand và Ethernet) phục vụ các mục đích hoàn toàn khác nhau trong hạ tầng AI.³²

NVLink xuất sắc trong giao tiếp nhanh giữa các GPU trong một miền duy nhất—nhanh hơn nhiều so với InfiniBand, với băng thông ở mức terabyte mỗi giây cho các kết nối cục bộ.³³ Độ trễ thấp và băng thông cao hỗ trợ tensor parallelism, nơi trọng số mô hình phân phối trên các GPU và phải đồng bộ hóa ở mỗi lớp. Băng thông 1.8 terabyte mỗi giây cho mỗi GPU của NVLink cho phép đồng bộ hóa này mà không trở thành điểm nghẽn.

NVLink không hữu ích khi giao tiếp vượt qua ranh giới node.³⁴ Mạng liên node yêu cầu InfiniBand hoặc Ethernet bất kể khả năng NVLink nội node. Các công nghệ hoạt động ở các lớp khác nhau của hệ thống phân cấp.

InfiniBand cung cấp tiêu chuẩn công nghiệp để kết nối hàng nghìn node máy chủ.³⁵ Remote Direct Memory Access (RDMA) cho phép các máy chủ trao đổi dữ liệu trực tiếp giữa các không gian bộ nhớ, bỏ qua overhead của CPU và OS.³⁶ Tính năng này tỏ ra cần thiết cho huấn luyện phân tán quy mô lớn sử dụng data parallelism, nơi mỗi node xử lý các batch khác nhau và đồng bộ hóa gradient.

InfiniBand vẫn là tiêu chuẩn vàng cho huấn luyện AI quy mô lớn, kết nối hơn 270 siêu máy tính hàng đầu thế giới.³⁷ Các khả năng adaptive routing, congestion control và RDMA được thiết kế đặc biệt cho điện toán hiệu năng cao đồng bộ.

Ethernet đang vượt qua InfiniBand cho các triển khai scale-out.³⁸ Spectrum-X của NVIDIA mang các đổi mới của InfiniBand đến Ethernet, bao gồm congestion control dựa trên telemetry, cân bằng tải thích ứng và direct data placement.³⁹ Các hệ thống quy mô lớn với Spectrum-X đã đạt được 95% thông lượng dữ liệu với không có suy giảm độ trễ ứng dụng, so với chỉ 60% thông lượng từ các fabric Ethernet tiêu chuẩn.⁴⁰

Mô hình phân cấp kết hợp các công nghệ này một cách phù hợp. NVLink xử lý scale-up trong rack, cung cấp băng thông gấp khoảng 18 lần so với mạng scale-out.⁴¹ InfiniBand hoặc Ethernet xử lý scale-out giữa các rack, cung cấp phạm vi trên hàng nghìn node. Mỗi khay GPU trong hệ thống GB200 NVL72 bao gồm NIC RDMA 800 gigabit mỗi giây cho giao tiếp liên rack.⁴²

Miền 576 GPU và kiến trúc SuperPOD

NVLink Switch cho phép 576 GPU kết nối đầy đủ trong một fabric tính toán non-blocking.⁴³ Tám rack GB200 NVL72 tạo thành một SuperPOD, tạo ra một supernode gồm 576 GPU với tổng băng thông hơn 1 petabyte mỗi giây và 240 terabyte bộ nhớ nhanh.⁴⁴

DGX SuperPOD được xây dựng trên các đơn vị có thể mở rộng (SU), mỗi đơn vị chứa tám hệ thống DGX GB200.⁴⁵ Thiết kế mô-đun cho phép triển khai nhanh chóng SuperPOD ở bất kỳ quy mô nào. Kiến trúc tham chiếu bao gồm các thông số kỹ thuật cho InfiniBand, mạng NVLink, cấu trúc fabric Ethernet, hệ thống lưu trữ, bố cục rack và đi dây.⁴⁶

Miền 576 GPU duy trì cấu trúc NVLink kết nối đầy đủ trên tất cả các rack trong SuperPOD.⁴⁷ Bất kỳ GPU nào cũng có thể giao tiếp với bất kỳ GPU nào khác ở tốc độ 1.8 terabyte mỗi giây mà không cần đi qua mạng scale-out.⁴⁸ Kích thước miền phù hợp với yêu cầu của các mô hình nền tảng lớn nhất hiện đang được huấn luyện.

Triển khai SuperPOD yêu cầu cài đặt tại chỗ.⁴⁹ Khách hàng sở hữu và quản lý phần cứng trong các trung tâm dữ liệu của họ hoặc các cơ sở thương mại co-location. Kiến trúc phản ánh các hệ thống nghiên cứu và phát triển nội bộ của NVIDIA, nghĩa là phần mềm hạ tầng, ứng dụng và hỗ trợ được thử nghiệm trên các cấu hình giống hệt nhau.⁵⁰

Các nhà cung cấp đám mây Microsoft Azure, Oracle Cloud và CoreWeave cam kết hỗ trợ kiến trúc X800 khi có sẵn vào năm 2025.⁵¹ Các triển khai đám mây mở rộng khả năng SuperPOD cho các tổ chức không thể biện minh cho hạ tầng tại chỗ chuyên dụng.

Triển khai Kubernetes doanh nghiệp

Các hệ thống Multi-Node NVLink (MNNVL) yêu cầu cấu hình Kubernetes chuyên biệt.⁵² Kubernetes không nhận dạng native kiến trúc MNNVL của NVIDIA, khiến việc quản lý và lập lịch khối lượng công việc phức tạp hơn so với các triển khai GPU tiêu chuẩn.⁵³

Yêu cầu triển khai bao gồm Kubernetes 1.32 trở lên và NVIDIA GPU Operator phiên bản 25.3 trở lên.⁵⁴ Phiên bản GPU Operator phải bao gồm driver Dynamic Resource Allocation (DRA), cung cấp hỗ trợ cho các tài nguyên mạng tăng tốc GB200 và tính năng ComputeDomain.⁵⁵ NVIDIA Network Operator xử lý cấu hình mạng.

Dịch vụ IMEX hỗ trợ xuất và nhập bộ nhớ GPU trên các miền OS trong các triển khai NVLink đa node.⁵⁶ Dịch vụ này cho phép giao tiếp peer-to-peer NVLink và các thao tác bộ nhớ chia sẻ trên toàn miền.

Khi các khối lượng công việc phân tán nhắm đến các node pool MNNVL, nền tảng tạo một Custom Resource Definition (CRD) ComputeDomain để quản lý việc gán miền NVLink.⁵⁷ Một tham chiếu đến ComputeDomain tự động đính kèm vào các đặc tả khối lượng công việc dưới dạng resource claim, cho phép scheduler gán khối lượng công việc vào các miền NVLink cụ thể.⁵⁸

Các quy tắc pod affinity sử dụng khóa nhãn MNNVL (nvidia.com/gpu.clique) làm topology key.⁵⁹ Cấu hình đảm bảo rằng các pod trong các khối lượng công việc phân tán được đặt trên các node có kết nối NVLink, duy trì cấu trúc cần thiết cho hiệu suất.⁶⁰

Các cân nhắc lập kế hoạch hạ tầng

Các tổ chức đánh giá hạ tầng NVLink nên xem xét đặc điểm khối lượng công việc trước tiên. Tensor parallelism trên các mô hình lớn được hưởng lợi trực tiếp từ băng thông NVLink. Data parallelism trên nhiều mô hình nhỏ hơn có thể không yêu cầu khả năng của NVLink và có thể đạt được hiệu suất đầy đủ chỉ với mạng scale-out.

GB200 NVL72 đại diện cho một cam kết hạ tầng đáng kể. Yêu cầu làm mát bằng chất lỏng, tích hợp quy mô rack và mạng chuyên biệt vượt quá độ phức tạp của các kiến trúc làm mát bằng không khí, tập trung vào máy chủ. Các tổ chức nên xác nhận rằng khối lượng công việc yêu cầu các khả năng này trước khi cam kết.

Hạ tầng điện và làm mát phải đáp ứng làm mát bằng chất lỏng ngay từ triển khai ban đầu. GB200 NVL72 không thể hoạt động với làm mát bằng không khí. Việc cải tạo cơ sở cho làm mát bằng chất lỏng sau khi triển khai tốn kém và gây gián đoạn.

Lập kế hoạch mạng nên giải quyết cả yêu cầu scale-up và scale-out. Fabric NVLink xử lý giao tiếp nội rack, nhưng liên

Yêu cầu báo giá_

Hãy cho chúng tôi biết về dự án của bạn và chúng tôi sẽ phản hồi trong vòng 72 giờ.

> TRUYỀN_TẢI_HOÀN_TẤT

Đã Nhận Yêu cầu_

Cảm ơn bạn đã gửi yêu cầu. Đội ngũ của chúng tôi sẽ xem xét và phản hồi trong vòng 72 giờ.

ĐANG XẾP HÀNG XỬ LÝ