Triển khai GB200 NVL72: Quản lý 72 GPU trong cấu hình làm mát bằng chất lỏng
Cập nhật ngày 8 tháng 12, 2025
Bảy mươi hai GPU hoạt động như một đơn vị tính toán thống nhất giờ đây đã trở thành hiện thực sản xuất. GB200 NVL72 tiêu thụ 120 kilowatt và cung cấp 1,4 exaflops sức mạnh tính toán AI trong một tủ rack duy nhất.¹ Kiến trúc này xóa bỏ hoàn toàn ranh giới truyền thống giữa các node, tạo ra một mạng lưới tính toán nhất quán có khả năng xử lý các mô hình nghìn tỷ tham số mà không gặp phải các hạn chế của tính toán phân tán vốn làm khổ sở các cụm cluster thông thường. Các tổ chức triển khai những hệ thống này phải đối mặt với các thách thức kỹ thuật định nghĩa lại những gì đội ngũ hạ tầng cho là có thể.
Cập nhật tháng 12 năm 2025: Hệ thống GB200 NVL72 đã được giao cho các nhà cung cấp đám mây lớn từ tháng 12 năm 2024, với sản xuất hàng loạt đạt quy mô đầy đủ vào Q2-Q3 2025. Các nhà phân tích đã điều chỉnh dự báo xuất xưởng năm 2025 xuống còn 25.000-35.000 tủ rack (giảm từ dự báo ban đầu 50.000-80.000) do yêu cầu tối ưu hóa chuỗi cung ứng. NVIDIA đã công bố thế hệ kế tiếp GB300 NVL72 tại GTC 2025, trang bị GPU Blackwell Ultra với bộ nhớ HBM3e 288GB, công suất 1,4kW mỗi GPU, và hiệu năng cao hơn 50% (1.100 PFLOPS suy luận FP4). Hệ thống GB300 đã bắt đầu sản xuất vào Q3 2025 với Quanta giao hàng từ tháng 9. Các tổ chức lên kế hoạch triển khai mới nên đánh giá tình trạng sẵn có của GB300 so với nhu cầu GB200 trước mắt.
Chỉ riêng những con số đã khiến các kiến trúc sư trung tâm dữ liệu dày dạn kinh nghiệm phải kinh ngạc: 13,5 terabyte bộ nhớ HBM3e có thể truy cập với tốc độ 576 terabyte mỗi giây, kết nối qua NVLink thế hệ thứ năm cung cấp băng thông GPU-to-GPU 130 terabyte mỗi giây.² Mỗi tủ rack nặng 3.000 kilogram và yêu cầu công suất làm mát 2,4 megawatt được cung cấp thông qua hệ thống làm mát bằng chất lỏng bắt buộc.³ Các quy trình triển khai truyền thống trở nên vô nghĩa khi một hệ thống duy nhất có giá 3 triệu đô la và có thể huấn luyện các mô hình cấp GPT-4 trong vài tuần thay vì vài tháng.
CoreWeave đã đặt hàng 2,3 tỷ đô la hệ thống GB200 NVL72 để giao vào năm 2025, đặt cược toàn bộ chiến lược hạ tầng của họ vào khả năng của nền tảng này trong việc thống trị thị trường huấn luyện và suy luận mô hình ngôn ngữ lớn.⁴ Lambda Labs đã đặt mua trước 200 đơn vị mặc dù phải xây dựng lại hoàn toàn cơ sở vật chất để đáp ứng yêu cầu về điện và làm mát.⁵ Cuộc đua giành giật những hệ thống này hé lộ một sự thật cơ bản: các tổ chức không thể triển khai hạ tầng GB200 NVL72 có nguy cơ trở nên lạc hậu trong phát triển mô hình nền tảng.
Kiến trúc định nghĩa lại ranh giới tính toán
GB200 NVL72 kết nối 36 Grace-Blackwell Superchip thông qua hệ thống switch NVLink hai cấp, tạo ra sự nhất quán tính toán chưa từng có. Mỗi Superchip kết hợp một CPU Grace dựa trên Arm với hai GPU Blackwell, kết nối qua NVLink-C2C với băng thông hai chiều 900GB/s.⁶ 72 GPU chia sẻ bộ nhớ và giao tiếp như thể chúng là một bộ xử lý khổng lồ duy nhất, loại bỏ chi phí đồng bộ hóa vốn giới hạn huấn luyện phân tán truyền thống.
NVLink Switch Tray tạo thành xương sống của hệ thống, với chín tray mỗi cái hỗ trợ bốn chip NVLink Switch. Những switch này cung cấp kết nối all-to-all giữa các GPU với tốc độ 1,8TB/s mỗi GPU, cho phép bất kỳ GPU nào truy cập bất kỳ vị trí bộ nhớ nào trong hệ thống trong vòng 300 nano giây.⁷ Độ trễ đồng nhất có nghĩa là các nhà phát triển có thể coi toàn bộ hệ thống như một GPU duy nhất với tài nguyên gấp 72 lần, đơn giản hóa đáng kể việc phát triển phần mềm.
Kiến trúc bộ nhớ phá vỡ mọi tiền lệ trong lịch sử điện toán. Hệ thống cung cấp 13,5TB bộ nhớ HBM3e với băng thông tổng hợp 576TB/s, cộng thêm 2,25TB LPDDR5X có thể truy cập bởi các CPU Grace.⁸ Tính nhất quán bộ nhớ mở rộng trên tất cả các bộ xử lý, cho phép CPU và GPU chia sẻ cấu trúc dữ liệu mà không cần sao chép rõ ràng. Các mô hình ngôn ngữ lớn trước đây yêu cầu song song hóa mô hình phức tạp trên nhiều node giờ đây hoàn toàn nằm gọn trong không gian bộ nhớ của một NVL72 duy nhất.
Làm mát trở thành phần không thể thiếu của kiến trúc thay vì một suy nghĩ sau này. NVIDIA yêu cầu bắt buộc làm mát bằng chất lỏng với thông số kỹ thuật nghiêm ngặt: nhiệt độ đầu vào từ 20-25°C, lưu lượng 80 lít mỗi phút, và áp suất giảm không vượt quá 1,5 bar.⁹ Hệ thống làm mát duy trì nhiệt độ mối nối dưới 75°C mặc dù tỏa nhiệt liên tục 120kW. Sai lệch khỏi thông số kỹ thuật kích hoạt throttling tự động có thể giảm hiệu năng tới 60%, khiến làm mát trở nên quan trọng như tài nguyên tính toán.
Cung cấp điện đòi hỏi thiết kế lại hoàn toàn hạ tầng. Hệ thống tiêu thụ liên tục 120kW thông qua bốn power shelf 30kW, mỗi cái yêu cầu đầu vào 480V ba pha.¹⁰ Chuyển đổi điện xảy ra qua hai giai đoạn: AC sang 54V DC trong các power shelf, sau đó 54V sang điện áp point-of-load trên các board tính toán. Kiến trúc đạt hiệu suất chuyển đổi 97%, nhưng vẫn tạo ra 3,6kW nhiệt thải chỉ riêng từ chuyển đổi điện.
Thách thức triển khai vật lý nhân lên gấp bội
Lắp đặt một GB200 NVL72 đòi hỏi độ chính xác quân sự và thiết bị chuyên dụng. Hệ thống được giao trong bốn thành phần riêng biệt: tủ rack tính toán nặng 1.500kg, tủ rack NVLink Switch 800kg, CDU 400kg, và bộ phân phối điện 300kg.¹¹ Cửa trung tâm dữ liệu tiêu chuẩn không thể chứa được chiều rộng, yêu cầu tháo dỡ khung cửa và đôi khi cả tường. Đội ngũ triển khai của Introl sử dụng xe nâng thủy lực chuyên dụng có tải trọng 2.000kg để định vị các thành phần mà không làm hỏng bề mặt sàn.
Tải trọng sàn đặt ra những lo ngại về kết cấu ngay lập tức. Tủ rack tính toán tập trung 1.500kg chỉ trong 0,8 mét vuông, tạo ra tải điểm 1.875 kg/m².¹² Sàn nâng tiêu chuẩn có tải trọng định mức 1.000 kg/m² cần các tấm thép gia cường để phân bổ trọng lượng. Nhiều cơ sở chọn lắp đặt slab-on-grade với các đế bê tông cốt thép đổ riêng cho việc triển khai NVL72. Các vùng động đất cần neo giữ bổ sung để ngăn chuyển động trong các trận động đất.
Quản lý cáp trở thành một câu đố ba chiều với hơn 5.000 kết nối riêng lẻ. Hệ thống sử dụng 144 cáp đồng NVLink cho kết nối GPU, 288 cáp quang cho kết nối mạng, 72 ống làm mát chất lỏng, và hàng trăm cáp nguồn.¹³ NVIDIA cung cấp độ dài cáp và sơ đồ đi dây chính xác, vì sai lệch gây ra vấn đề toàn vẹn tín hiệu ở tốc độ 1,8TB/s. Đội lắp đặt dành 60-80 giờ chỉ riêng cho quản lý cáp, sử dụng kính thực tế tăng cường để xác minh mọi kết nối khớp với thông số kỹ thuật.
Hạ tầng làm mát chất lỏng đòi hỏi độ sạch cấp dược phẩm. Vòng tuần hoàn làm mát chứa 200 lít chất làm mát được pha chế đặc biệt phải duy trì độ dẫn điện, pH và mức hạt cụ thể.¹⁴ Một hạt tạp chất duy nhất có thể làm tắc các tấm làm mát microchannel làm mát từng chip riêng lẻ. Đội lắp đặt xả toàn bộ hệ thống ba lần bằng nước khử ion trước khi đưa chất làm mát vào. Quy trình mất 12-16 giờ và yêu cầu thiết bị bơm chuyên dụng.
Tích hợp mạng đòi hỏi cung cấp băng thông chưa từng có. Mỗi NVL72 cần tám kết nối 400GbE cho kết nối bên ngoài, tổng cộng 3,2Tb/s mỗi hệ thống.¹⁵ Yêu cầu băng thông vượt quá toàn bộ kết nối bên ngoài của nhiều cơ sở. Các tổ chức thường triển khai các đường cáp quang chuyên dụng từ hệ thống NVL72 đến router lõi, bỏ qua kiến trúc switch top-of-rack truyền thống. Thiết kế mạng phải tính đến các mẫu lưu lượng east-west khi các hệ thống NVL72 trao đổi checkpoint và gradient trong quá trình huấn luyện phân tán.
Điều phối phần mềm ở quy mô cực đại
Quản lý 72 GPU như một hệ thống nhất quán đòi hỏi thay đổi kiến trúc phần mềm căn bản. Phần mềm NVLink Switch System của NVIDIA tạo ra một không gian bộ nhớ duy nhất trên tất cả GPU, nhưng các ứng dụng phải được thiết kế để khai thác khả năng này. Các framework huấn luyện phân tán truyền thống như Horovod và PyTorch Distributed trở thành chi phí không cần thiết. Các nhà phát triển sử dụng thư viện Transformer Engine của NVIDIA để tự động phân vùng mô hình trên 72 GPU mà không cần can thiệp thủ công.¹⁶
Các nền tảng điều phối container gặp khó khăn với mô hình tài nguyên của NVL72. Kubernetes mặc định nhìn hệ thống như 72 GPU riêng biệt, dẫn đến xung đột lập lịch và phân mảnh tài nguyên. NVIDIA cung cấp các device plugin tùy chỉnh trình bày NVL72 như một đơn vị có thể lập lịch duy nhất, nhưng điều này phá vỡ tính tương thích với các nền tảng ML tiêu chuẩn.¹⁷ Các tổ chức thường dành toàn bộ hệ thống NVL72 cho các workload đơn lẻ thay vì cố gắng multi-tenancy.
Quản lý bộ nhớ đòi hỏi xem xét cẩn thận các hiệu ứng NUMA mặc dù không gian bộ nhớ thống nhất. Mỗi CPU Grace có bộ nhớ LPDDR5X cục bộ với băng thông 500GB/s đến các GPU cục bộ nhưng chỉ 100GB/s đến các GPU từ xa.¹⁸ Hiệu năng tối ưu đòi hỏi các thuật toán đặt dữ liệu giảm thiểu truy cập bộ nhớ cross-socket. Thư viện Magnum IO của NVIDIA xử lý một số tối ưu hóa tự động, nhưng các ứng dụng tùy chỉnh cần nhận thức NUMA rõ ràng.
Xử lý lỗi trở nên phức tạp khi 72 GPU hoạt động như một. Một lỗi GPU đơn lẻ theo truyền thống có nghĩa là mất 1/8 sức mạnh tính toán của một node. Trong NVL72, một GPU bị lỗi có thể làm mất ổn định toàn bộ hệ thống do phụ thuộc topology NVLink. NVIDIA triển khai cách ly lỗi ở cấp phần cứng tự động cấu hình lại định tuyến NVLink xung quanh các thành phần bị lỗi, nhưng hiệu năng giảm 15-20% mỗi GPU bị lỗi.¹⁹ Hầu hết các triển khai duy trì hệ thống NVL72 dự phòng thay vì cố gắng sửa chữa trên các đơn vị production.
Giám sát hiệu năng tạo ra khối lượng telemetry khổng lồ. Mỗi GPU sản sinh hơn 10.000 metric mỗi giây bao gồm nhiệt độ, công suất, băng thông bộ nhớ và mức sử dụng tính toán.²⁰ Nhân với 72 GPU cộng thêm CPU và switch, một NVL72 đơn lẻ tạo ra 1 triệu metric mỗi giây. Các hệ thống giám sát truyền thống không thể xử lý khối lượng này. Các tổ chức triển khai cơ sở dữ liệu time-series chuyên dụng và sử dụng phân tích dựa trên AI để xác định bất thường trong luồng telemetry.
Mô hình kinh tế thách thức tư duy thông thường
Mức giá 3 triệu đô la của GB200 NVL72 có vẻ khổng lồ cho đến khi so sánh với các giải pháp thay thế. Xây dựng sức mạnh tính toán tương đương từ các hệ thống DGX H100 rời rạc sẽ yêu cầu chín node với chi phí 2,7 triệu đô la, nhưng tiêu thụ điện cao gấp 5 lần và không gian rack nhiều gấp 10 lần.²¹ Kiến trúc nhất quán của NVL72 loại bỏ chi phí giao tiếp giữa các node, cung cấp throughput thực tế cao hơn 30% cho huấn luyện mô hình lớn. Phí premium tự hoàn vốn thông qua thời gian huấn luyện giảm và chi phí vận hành thấp hơn.
Kinh tế năng lượng ưu tiên NVL72 mặc dù tiêu thụ 120kW. Các hệ thống phân tán truyền thống đạt được sức mạnh tính toán tương tự sẽ tiêu thụ 400-500kW bao gồm chi phí mạng.²² Với giá điện công nghiệp $0,10 mỗi kWh, tiết kiệm điện tương đương $300.000 hàng năm. Tải làm mát giảm tiết kiệm thêm $100.000 mỗi năm. Trong khoảng thời gian khấu hao ba năm điển hình, tiết kiệm năng lượng bù đắp gần một nửa premium ban đầu.
Giảm thời gian huấn luyện chuyển đổi trực tiếp thành lợi thế cạnh tranh. OpenAI ước tính rằng huấn luyện GPT-4 trên hệ thống NVL72 sẽ hoàn thành trong 45 ngày so với 90 ngày trên hạ tầng trước đó.²³ Đối với các tổ chức chi tiêu 1 triệu đô la mỗi ngày cho tài nguyên tính toán, tiết kiệm thời gian biện minh cho bất kỳ premium phần cứng hợp lý nào. Lợi thế người đi đầu trong thị trường AI làm cho tốc độ trở nên vô giá vượt xa các tính toán tài chính thuần túy.
Tỷ lệ sử dụng cải thiện đáng kể với kiến trúc thống nhất. Các cluster truyền thống đạt 50-60% mức sử dụng GPU do chi phí giao tiếp và đồng bộ hóa.²⁴ Hệ thống NVL72 duy trì 85-90% mức sử dụng bằng cách loại bỏ các bottleneck giữa các node. Mức sử dụng cải thiện có nghĩa là mỗi NVL72 cung cấp sức mạnh tính toán hiệu quả của 120-130 GPU truyền thống, thay đổi kinh tế học của hạ tầng AI quy mô lớn.
Chi phí vận hành khiến nhiều nhà phân tích tài chính bất ngờ. Độ phức tạp của hệ thống đòi hỏi đội ngũ kỹ sư chuyên dụng với mức lương hơn $200.000. Chỉ riêng chất làm mát tốn $10.000 hàng năm với kiểm tra hàng quý $2.000. Kho phụ tùng cho một NVL72 đơn lẻ chiếm $500.000 vốn. Tuy nhiên những chi phí này nhạt nhòa so với chi phí cơ hội của việc không có đủ sức mạnh tính toán cho phát triển mô hình.
Triển khai thực tế hé lộ thực tế vận hành
Hạ tầng huấn luyện Claude 3 của Anthropic
[Nội dung bị cắt ngắn cho bản dịch]