NVIDIA Blackwell Ultra và B300: những yêu cầu từ thế hệ GPU tiếp theo

B300 mang đến 15 PFLOPS FP4, 288GB HBM3e (stack 12 tầng), băng thông 8TB/s, TDP 1.400W. Rack GB300 NVL72 đạt 1,1 EXAFLOPS—quy mô exascale trong một node duy nhất. DGX B200 mang lại hiệu suất huấn luyện gấp 3 lần, suy luận gấp 15 lần...

NVIDIA Blackwell Ultra và B300: những yêu cầu từ thế hệ GPU tiếp theo

NVIDIA Blackwell Ultra và B300: những yêu cầu từ thế hệ GPU tiếp theo

Cập nhật ngày 11 tháng 12 năm 2025

Cập nhật tháng 12/2025: B300 mang đến 15 PFLOPS FP4, 288GB HBM3e (stack 12 tầng), băng thông 8TB/s, TDP 1.400W. Rack GB300 NVL72 đạt 1,1 EXAFLOPS—quy mô exascale trong một node duy nhất. DGX B200 mang lại hiệu suất huấn luyện gấp 3 lần, suy luận gấp 15 lần so với Hopper. Các hệ thống sẽ xuất xưởng vào nửa cuối năm 2025. Yêu cầu làm mát bằng chất lỏng, mạng 800Gbps, mật độ công suất vượt quá khả năng của hầu hết các cơ sở hiện có.

GPU NVIDIA Blackwell Ultra mang đến 15 petaflops năng lực tính toán FP4 dày đặc, bộ nhớ nhiều hơn 50% so với B200, và hiệu suất nhanh hơn 1,5 lần.¹ Một rack GB300 NVL72 đơn lẻ đạt 1,1 exaflops năng lực tính toán FP4, hoạt động như một siêu máy tính quy mô exascale trong một node duy nhất.² Được trang bị tám GPU NVIDIA Blackwell, DGX B200 mang lại hiệu suất huấn luyện gấp 3 lần và hiệu suất suy luận gấp 15 lần so với các hệ thống Hopper thế hệ trước.³ Các yêu cầu hạ tầng cho Blackwell khác biệt đáng kể so với bất kỳ thứ gì mà các tổ chức đã triển khai trước đây, đòi hỏi làm mát bằng chất lỏng, mạng 800-gigabit, và mật độ công suất mà hầu hết các cơ sở hiện có không thể hỗ trợ.

NVIDIA đã công bố B300 tại GTC 2025, với các hệ thống xuất xưởng vào nửa cuối năm 2025.⁴ Thời điểm này tạo ra sự cấp bách trong việc lập kế hoạch cho các tổ chức cần chuẩn bị cơ sở vật chất, đảm bảo nguồn điện, và xây dựng năng lực vận hành trước khi phần cứng được giao. Việc hiểu các yêu cầu hạ tầng của Blackwell ngay bây giờ sẽ quyết định liệu các tổ chức có thể triển khai hiệu quả khi hệ thống sẵn sàng hay không.

Thông số kỹ thuật Blackwell Ultra

GPU Blackwell Ultra có thiết kế dual-reticle với 208 tỷ transistor và 160 bộ xử lý đa luồng trên hai die được kết nối bằng High-Bandwidth Interface của NVIDIA.⁵ B200 chứa 208 tỷ transistor so với 80 tỷ trên H100.⁶ Số lượng transistor phản ánh độ phức tạp kiến trúc cần thiết cho các khối lượng công việc AI ở quy mô tiên phong.

B300 mang đến 288 gigabyte bộ nhớ HBM3e mỗi GPU, đạt được thông qua stack bộ nhớ 12 tầng thay vì cấu hình 8 tầng của B200.⁷ Băng thông bộ nhớ đạt 8 terabyte mỗi giây.⁸ Dung lượng bộ nhớ cho phép xử lý các mô hình mà trước đây yêu cầu cấu hình đa GPU trên một GPU đơn lẻ.

Yêu cầu công suất tăng đáng kể. Mỗi chip B300 tiêu thụ 1.400 watt tại trung tâm của GB300.⁹ B200 tiêu thụ 1.000 watt, tăng từ 700 watt của H100.¹⁰ Sự tiến triển từ 700 lên 1.000 rồi 1.400 watt mỗi GPU qua ba thế hệ cho thấy quỹ đạo công suất mà các tổ chức phải lên kế hoạch.

Hiệu suất FP4 dày đặc đạt 14 petaflops trên B300 so với 9 petaflops trên B200, đại diện cho cải thiện 55,6%.¹¹ Khả năng tính toán FP4 giảm dung lượng bộ nhớ khoảng 1,8 lần so với FP8 trong khi duy trì độ chính xác gần như tương đương.¹² Khả năng độ chính xác thấp hơn phục vụ các khối lượng công việc suy luận, nơi độ chính xác giảm cải thiện thông lượng mà không hy sinh chất lượng.

Hiệu suất so với Hopper

Dữ liệu hiệu suất đã được xác minh cho thấy thông lượng LLM nhanh hơn 11 đến 15 lần mỗi GPU so với thế hệ Hopper.¹³ HGX B200 mang lại cải thiện suy luận gấp 15 lần và huấn luyện gấp 3 lần so với HGX H100, với giảm năng lượng và chi phí 12 lần.¹⁴ Cụm GB200 NVL72 cung cấp huấn luyện nhanh hơn 4 lần và suy luận thời gian thực nhanh hơn 30 lần so với các cụm H100.¹⁵

B200 mang đến 20 petaflops hiệu suất AI từ một GPU đơn lẻ. Một H100 đơn lẻ có tối đa 4 petaflops trong các phép tính AI.¹⁶ Cải thiện 5 lần mỗi GPU thay đổi kinh tế học của các triển khai quy mô lớn. Các tổ chức có thể đạt được năng lực tương đương với ít GPU hơn hoặc năng lực nhiều hơn đáng kể với số lượng GPU tương đương.

Cải thiện bộ nhớ bổ sung cho lợi ích tính toán. B200 có 192 gigabyte HBM3e so với 80 gigabyte HBM3 của H100.¹⁷ Băng thông bộ nhớ đạt 8 terabyte mỗi giây, nhanh hơn 2,4 lần so với 3,35 terabyte mỗi giây của H100.¹⁸ Dung lượng bộ nhớ cho phép xử lý các mô hình trên một GPU đơn lẻ mà trước đây yêu cầu cấu hình đa GPU phức tạp.

Đối với các khối lượng công việc suy luận, Blackwell mang lại năng lượng thấp hơn 25 lần mỗi lần suy luận so với H100.¹⁹ Một B200 đơn lẻ thay thế 5 node H100 cho suy luận Llama 3, cắt giảm chi phí và lượng carbon thải ra.²⁰ Lợi ích hiệu quả nhân lên qua các triển khai lớn nơi suy luận chiếm ưu thế trong nhu cầu tính toán.

Khác biệt kiến trúc so với Hopper

Hopper nhắm đến sự kết hợp rộng rãi các khối lượng công việc tính toán hiệu suất cao và AI với trọng tâm vào độ chính xác truyền thống FP64 và FP32.²¹ Blackwell tối ưu hóa rõ ràng cho các tác vụ AI tạo sinh quy mô lớn.²² Trọng tâm kiến trúc phản ánh đánh giá của NVIDIA rằng các khối lượng công việc AI, đặc biệt là suy luận, sẽ chiếm ưu thế trong nhu cầu GPU.

Blackwell giới thiệu tensor core thế hệ thứ năm với các chế độ độ chính xác cực thấp hỗ trợ các phép toán 4-bit và 6-bit.²³ Khả năng độ chính xác thấp tăng tốc các khối lượng công việc suy luận nơi các mô hình lượng tử hóa duy trì chất lượng chấp nhận được. Các khối lượng công việc huấn luyện yêu cầu độ chính xác cao hơn được hưởng lợi ít hơn từ các thay đổi kiến trúc.

Kết nối NVLink tăng đáng kể. Mỗi GPU Blackwell có 18 kết nối NVLink thế hệ thứ năm, nhiều hơn 18 lần so với H100.²⁴ Mỗi kết nối cung cấp 50 gigabyte mỗi giây băng thông hai chiều.²⁵ Kết nối mở rộng cho phép kiến trúc GB300 NVL72 nơi 72 GPU hoạt động như một fabric tính toán thống nhất.

Đối với các tác vụ HPC thuần túy bao gồm đại số ma trận, động lực học chất lỏng, và động lực học phân tử với độ chính xác kép, các thế mạnh của Hopper về FP64 trên watt, bộ nhớ chia sẻ lớn, và cache được cung cấp đầy đủ cho FP32 duy trì lợi thế.²⁶ Các tổ chức với khối lượng công việc HPC truyền thống không nên giả định Blackwell cải thiện tất cả các trường hợp sử dụng như nhau.

Kiến trúc rack GB300 NVL72

Rack GB300 NVL72 làm mát bằng chất lỏng tích hợp 36 Grace Blackwell Superchip, được kết nối thông qua NVLink 5 và NVLink Switching.²⁷ Rack chứa 72 GPU B300, mỗi cái có 288 gigabyte bộ nhớ HBM3e.²⁸ Với mỗi GPU được kết nối qua 1,8 terabyte mỗi giây băng thông NVLink, hệ thống hoạt động như một node quy mô exascale đơn lẻ.²⁹

GB300 NVL72 cho phép đầu ra AI factory cao hơn 50 lần, kết hợp độ trễ tốt hơn 10 lần và thông lượng trên megawatt cao hơn 5 lần so với các nền tảng Hopper.³⁰ Lợi ích hiệu quả cho thấy tại sao yêu cầu làm mát bằng chất lỏng đại diện cho đầu tư thay vì chi phí phát sinh.

Hệ thống DGX B300 cung cấp 2,3 terabyte bộ nhớ HBM3e với tám ConnectX-8 SuperNIC cho mạng 800-gigabit.³¹ Yêu cầu mạng phù hợp với năng lực tính toán. Các fabric mạng thiếu kích thước tạo ra nút thắt cổ chai lãng phí năng lực GPU.

Ghép tám rack NV72L lại với nhau để hình thành DGX SuperPOD Blackwell Ultra đầy đủ: 288 CPU Grace, 576 GPU Blackwell Ultra, 300 terabyte bộ nhớ HBM3e, và 11,5 exaflops năng lực tính toán FP4.³² Quy mô này đại diện cho những gì các phòng thí nghiệm AI tiên phong triển khai để huấn luyện các mô hình lớn nhất.

Yêu cầu hạ tầng

Yêu cầu về công suất và làm mát vượt quá những gì hầu hết các cơ sở hiện có cung cấp. Hệ thống HGX B300 4U sử dụng công nghệ DLC-2 của Supermicro để thu giữ đến 98% nhiệt thông qua làm mát bằng chất lỏng.³³ Làm mát bằng không khí không thể tản được lượng nhiệt tỏa ra. Các tổ chức lên kế hoạch triển khai Blackwell phải triển khai hạ tầng làm mát bằng chất lỏng.

Hệ thống HGX B300 làm mát bằng chất lỏng 2-OU OCP cho phép đến 144 GPU mỗi rack cho các nhà cung cấp hyperscale và đám mây.³⁴ Một rack ORV3 đơn lẻ hỗ trợ đến 18 node với tổng cộng 144 GPU, mở rộng với switch Quantum-X800 InfiniBand và đơn vị phân phối chất làm mát in-row 1,8-megawatt.³⁵ Tám rack tính toán HGX B300, ba rack mạng Quantum-X800 InfiniBand, và hai CDU in-row hình thành một đơn vị có thể mở rộng SuperCluster với 1.152 GPU.³⁶

Mạng yêu cầu kết nối 800-gigabit. Cả hai nền tảng 2-OU OCP và 4U đều tăng gấp đôi thông lượng mạng fabric tính toán lên 800 gigabit mỗi giây thông qua ConnectX-8 SuperNIC tích hợp.³⁷ Module I/O của ConnectX-8 SuperNIC chứa hai thiết bị ConnectX-8 cho 800 gigabit mỗi giây kết nối mạng mỗi GPU.³⁸ Các tổ chức với hạ tầng 400-gigabit đối mặt với yêu cầu nâng cấp.

Tính khả dụng từ hyperscaler và doanh nghiệp

Google Cloud trở thành hyperscaler đầu tiên công bố tính khả dụng preview của các dịch vụ dựa trên B200.³⁹ AWS, Google Cloud, Microsoft Azure, và Oracle Cloud Infrastructure nằm trong số các nhà cung cấp đám mây đầu tiên cung cấp các instance được hỗ trợ bởi Blackwell.⁴⁰ Tính khả dụng từ hyperscaler cung cấp quyền truy cập dựa trên đám mây cho các tổ chức chưa sẵn sàng triển khai hạ tầng tại chỗ.

HPE đã xuất xưởng giải pháp dòng NVIDIA Blackwell đầu tiên, GB200 NVL72, vào tháng 2 năm 2025.⁴¹ Các nhà sản xuất hệ thống toàn cầu Cisco, Dell, HPE, Lenovo, và Supermicro cung cấp các Server RTX PRO được NVIDIA chứng nhận với Blackwell.⁴² Hệ sinh thái nhà cung cấp đã trưởng thành nhanh chóng từ thông báo đến tính khả dụng sản xuất.

Pegatron và 5C đã triển khai thành công các rack làm mát bằng chất lỏng dựa trên HGX B200 với tích hợp CDU in-row tại một trung tâm dữ liệu Maryland cùng với các hệ thống làm mát bằng không khí.⁴³ Việc triển khai chứng minh hạ tầng sẵn sàng cho sản xuất cho các tổ chức xây dựng AI factory của riêng mình.

Hạn chế nguồn cung ảnh hưởng đến tính khả dụng. Nhu cầu từ hyperscaler và các phòng thí nghiệm AI vượt quá năng lực sản xuất.⁴⁴ Các hyperscaler và công ty AI lớn đặt hàng nhiều node trong khi các tổ chức nhỏ hơn chỉ có thể chi trả số lượng hạn chế.⁴⁵ NVIDIA đối mặt với tồn đọng chip Blackwell, một phần do các vấn đề thiết kế trong giai đoạn sản xuất đầu tiên.⁴⁶ Việc đưa các cụm lớn vào hoạt động thường mất thêm ba tháng sau khi giao hàng ban đầu.⁴⁷

Khuyến nghị triển khai

Các tổ chức nên xác định liệu khả năng của Blackwell có biện minh cho các khoản đầu tư hạ tầng hay không. Đối với các khối lượng công việc chủ yếu là suy luận, lợi ích hiệu quả của Blackwell là thuyết phục. Đối với các khối lượng công việc huấn luyện yêu cầu độ chính xác FP64, Hopper có thể vẫn phù hợp.

Các tổ chức có thể tiếp tục huấn luyện các mô hình lớn trên GPU H100 hoặc H200 trong khi sử dụng B200 hoặc B300 cho các tác vụ suy luận và triển khai nơi Blackwell cung cấp lợi ích thông lượng và độ trễ lớn nhất.⁴⁸ Cách tiếp cận kết hợp tối ưu hóa đầu tư hạ tầng qua các loại khối lượng công việc.

Giá cả phản ánh cải thiện năng lực. Các danh sách ban đầu gợi ý B200 192GB SXM ở mức $45.000 đến $50.000 mỗi GPU.⁴⁹ Các hệ thống server 8x B200 hoàn chỉnh có thể vượt quá $500.000.⁵⁰ Yêu cầu vốn ưu tiên các tổ chức có mô hình doanh thu AI rõ ràng hoặc nhiệm vụ chiến lược.

B200 phù hợp cho suy luận mô hình quy mô lớn, tính toán khoa học, khối lượng công việc FP64, và các hệ thống đa GPU với 4 đến 8 GPU.⁵¹ B300 tốt nhất cho huấn luyện LLM với thông lượng và fabric NVLink cao hơn, suy luận mô hình quy mô lớn, và siêu máy tính.⁵² Sự phân biệt giúp các tổ chức chọn cấu hình phù hợp.

Các quyết định đầu tư hạ tầng nên tính đến yêu cầu làm mát bằng chất lỏng, mạng 800-gigabit, và công suất của Blackwell. Các tổ chức với cơ sở làm mát bằng không khí hiện có đối mặt với chi phí cải tạo hoặc xây dựng mới. Những tổ chức không có hạ tầng mạng 800-gigabit cần nâng cấp fabric. Các cơ sở không có mật độ công suất đầy đủ không thể lưu trữ hệ thống Blackwell bất kể các chuẩn bị khác.

Khoảng cách hạ tầng giữa yêu cầu Hopper và Blackwell vượt quá bất kỳ quá trình chuyển đổi thế hệ NVIDIA nào trước đây. Các tổ chức bắt đầu lên kế hoạch ngay bây giờ sẽ tự định vị cho việc triển khai khi hệ thống sẵn sàng. Những tổ chức trì hoãn sẽ thấy các hạn chế cơ sở vật chất giới hạn năng lực AI của họ bất kể ngân sách GPU.


Những điểm chính

Dành cho kiến trúc sư hạ tầng: - B300: 15 PFLOPS FP4, 288GB HBM3e (stack 12 tầng), băng thông bộ nhớ 8TB/s, TDP 1.400W mỗi GPU - GB300 NVL72: 72 GPU, 1,1 exaflops FP4, băng thông NVLink 1,8TB/s mỗi GPU; DGX SuperPOD: 576 GPU, 11,5 exaflops - Tiến triển công suất: H100 (700W) → B200 (1.000W) → B300 (1.400W); khoảng cách hạ tầng vượt quá bất kỳ quá trình chuyển đổi thế hệ nào trước đây

Dành cho đội ngũ mua sắm: - B200 192GB SXM: $45.000-$50.000 mỗi GPU; các hệ thống server 8x B200 hoàn chỉnh vượt quá $500.000 - Hạn chế nguồn cung vẫn tiếp tục; nhu cầu từ hyperscaler vượt quá năng lực sản xuất với độ trễ triển khai hơn 3 tháng sau khi giao hàng - HPE đã xuất xưởng GB200 đầu tiên

[Nội dung được cắt ngắn cho bản dịch]

Yêu cầu báo giá_

Hãy cho chúng tôi biết về dự án của bạn và chúng tôi sẽ phản hồi trong vòng 72 giờ.

> TRUYỀN_TẢI_HOÀN_TẤT

Đã Nhận Yêu cầu_

Cảm ơn bạn đã gửi yêu cầu. Đội ngũ của chúng tôi sẽ xem xét và phản hồi trong vòng 72 giờ.

ĐANG XẾP HÀNG XỬ LÝ