NVIDIA Blackwell Ultra dan B300: apa yang dituntut oleh generasi GPU berikutnya
Diperbarui 11 Desember 2025
Pembaruan Desember 2025: B300 menghadirkan 15 PFLOPS FP4, 288GB HBM3e (tumpukan 12-tinggi), bandwidth 8TB/s, TDP 1.400W. Rak GB300 NVL72 mencapai 1,1 EXAFLOPS—superkomputer skala exa dalam satu node. DGX B200 menghadirkan pelatihan 3x lebih cepat dan inferensi 15x lebih cepat dibandingkan Hopper. Sistem dikirim H2 2025. Membutuhkan pendinginan cair, jaringan 800Gbps, kepadatan daya di luar kemampuan sebagian besar fasilitas yang ada.
GPU NVIDIA Blackwell Ultra menghadirkan 15 petaflops komputasi FP4 padat, memori 50% lebih besar dari B200, dan kinerja 1,5 kali lebih cepat.¹ Satu rak GB300 NVL72 mencapai 1,1 exaflops komputasi FP4, beroperasi sebagai superkomputer skala exa dalam satu node.² Dilengkapi dengan delapan GPU NVIDIA Blackwell, DGX B200 menghadirkan kinerja pelatihan 3x lebih tinggi dan kinerja inferensi 15x lebih tinggi dari sistem Hopper generasi sebelumnya.³ Persyaratan infrastruktur untuk Blackwell berbeda secara substansial dari apa pun yang pernah diterapkan organisasi sebelumnya, menuntut pendinginan cair, jaringan 800-gigabit, dan kepadatan daya yang tidak dapat didukung oleh sebagian besar fasilitas yang ada.
NVIDIA mengumumkan B300 di GTC 2025, dengan sistem dikirim pada paruh kedua 2025.⁴ Waktunya menciptakan urgensi perencanaan bagi organisasi yang perlu mempersiapkan fasilitas, mengamankan daya, dan membangun kemampuan operasional sebelum perangkat keras tiba. Memahami persyaratan infrastruktur Blackwell sekarang menentukan apakah organisasi dapat menerapkannya secara efektif ketika sistem tersedia.
Spesifikasi Blackwell Ultra
GPU Blackwell Ultra menampilkan desain dual-reticle dengan 208 miliar transistor dan 160 streaming multiprocessor di dua die yang terhubung menggunakan High-Bandwidth Interface NVIDIA.⁵ B200 berisi 208 miliar transistor dibandingkan 80 miliar pada H100.⁶ Jumlah transistor mencerminkan kompleksitas arsitektur yang diperlukan untuk beban kerja AI pada skala frontier.
B300 menghadirkan 288 gigabyte memori HBM3e per GPU, dicapai melalui tumpukan memori 12-tinggi alih-alih konfigurasi 8-tinggi B200.⁷ Bandwidth memori mencapai 8 terabyte per detik.⁸ Kapasitas memori memungkinkan pemrosesan model yang sebelumnya membutuhkan konfigurasi multi-GPU pada satu GPU.
Kebutuhan daya meningkat secara signifikan. Setiap chip B300 menarik 1.400 watt di jantung GB300.⁹ B200 mengonsumsi 1.000 watt, naik dari 700 watt H100.¹⁰ Progresi dari 700 ke 1.000 ke 1.400 watt per GPU di tiga generasi menunjukkan trajektori daya yang harus direncanakan organisasi.
Kinerja FP4 padat mencapai 14 petaflops pada B300 dibandingkan 9 petaflops pada B200, mewakili peningkatan 55,6%.¹¹ Kemampuan komputasi FP4 mengurangi jejak memori sekitar 1,8 kali dibandingkan FP8 sambil mempertahankan akurasi yang hampir setara.¹² Kemampuan presisi lebih rendah mengatasi beban kerja inferensi di mana presisi yang dikurangi meningkatkan throughput tanpa mengorbankan kualitas.
Kinerja versus Hopper
Data kinerja terverifikasi menunjukkan throughput LLM hingga 11 hingga 15 kali lebih cepat per GPU dibandingkan generasi Hopper.¹³ HGX B200 menghadirkan peningkatan inferensi hingga 15x dan pelatihan 3x versus HGX H100, dengan pengurangan energi dan biaya 12x.¹⁴ Kluster GB200 NVL72 menawarkan pelatihan 4x lebih cepat dan inferensi real-time 30x lebih cepat versus kluster H100.¹⁵
B200 menghadirkan 20 petaflops kinerja AI dari satu GPU. Satu H100 memiliki maksimum 4 petaflops dalam perhitungan AI.¹⁶ Peningkatan 5x per GPU mengubah ekonomi penerapan skala besar. Organisasi dapat mencapai kemampuan setara dengan GPU lebih sedikit atau kemampuan yang jauh lebih besar dengan jumlah GPU yang setara.
Peningkatan memori melengkapi keuntungan komputasi. B200 menampilkan 192 gigabyte HBM3e dibandingkan 80 gigabyte HBM3 H100.¹⁷ Bandwidth memori mencapai 8 terabyte per detik, 2,4x lebih cepat dari 3,35 terabyte per detik H100.¹⁸ Kapasitas memori memungkinkan pemrosesan single-GPU model yang sebelumnya membutuhkan konfigurasi multi-GPU yang kompleks.
Untuk beban kerja inferensi, Blackwell menghadirkan energi per inferensi 25x lebih rendah dari H100.¹⁹ Satu B200 menggantikan 5x node H100 untuk inferensi Llama 3, memotong biaya dan jejak karbon.²⁰ Keuntungan efisiensi bertambah di seluruh penerapan besar di mana inferensi mendominasi permintaan komputasi.
Perbedaan arsitektur dari Hopper
Hopper menargetkan campuran luas beban kerja komputasi performa tinggi dan AI dengan fokus pada presisi tradisional di FP64 dan FP32.²¹ Blackwell mengoptimalkan secara eksplisit untuk tugas AI generatif skala besar.²² Fokus arsitektur mencerminkan penilaian NVIDIA bahwa beban kerja AI, khususnya inferensi, akan mendominasi permintaan GPU.
Blackwell memperkenalkan tensor core generasi kelima dengan mode ultra-low-precision yang mendukung operasi 4-bit dan 6-bit.²³ Kemampuan presisi rendah mempercepat beban kerja inferensi di mana model terkuantisasi mempertahankan kualitas yang dapat diterima. Beban kerja pelatihan yang membutuhkan presisi lebih tinggi kurang mendapat manfaat dari perubahan arsitektur.
Konektivitas NVLink meningkat secara dramatis. Setiap GPU Blackwell memiliki 18 koneksi NVLink generasi kelima, 18 kali lebih banyak dari yang tersedia pada H100.²⁴ Setiap koneksi menawarkan 50 gigabyte per detik bandwidth bidirectional.²⁵ Interkoneksi yang diperluas memungkinkan arsitektur GB300 NVL72 di mana 72 GPU beroperasi sebagai fabric komputasi terpadu.
Untuk tugas numerik HPC murni termasuk aljabar matriks, dinamika fluida, dan dinamika molekuler dengan presisi ganda, kekuatan Hopper dalam FP64 per-watt, memori bersama besar, dan cache yang tersedia dengan baik untuk FP32 mempertahankan keunggulan.²⁶ Organisasi dengan beban kerja HPC tradisional tidak boleh berasumsi Blackwell meningkatkan semua kasus penggunaan secara setara.
Arsitektur rak GB300 NVL72
Rak GB300 NVL72 berpendingin cair mengintegrasikan 36 Grace Blackwell Superchip, yang saling terhubung melalui NVLink 5 dan NVLink Switching.²⁷ Rak tersebut berisi 72 GPU B300, masing-masing dengan 288 gigabyte memori HBM3e.²⁸ Dengan setiap GPU saling terhubung melalui 1,8 terabyte per detik bandwidth NVLink, sistem beroperasi sebagai node skala exa tunggal.²⁹
GB300 NVL72 memungkinkan output AI factory 50x lebih tinggi, menggabungkan latensi 10x lebih baik dan throughput 5x lebih tinggi per megawatt relatif terhadap platform Hopper.³⁰ Keuntungan efisiensi menunjukkan mengapa persyaratan pendinginan cair merupakan investasi bukan overhead.
Sistem DGX B300 menyediakan 2,3 terabyte memori HBM3e dengan delapan ConnectX-8 SuperNIC untuk jaringan 800-gigabit.³¹ Persyaratan jaringan sesuai dengan kemampuan komputasi. Fabric jaringan yang kurang dimensi menciptakan bottleneck yang membuang kapasitas GPU.
Gabungkan delapan rak NV72L untuk membentuk DGX SuperPOD Blackwell Ultra penuh: 288 CPU Grace, 576 GPU Blackwell Ultra, 300 terabyte memori HBM3e, dan 11,5 exaflops komputasi FP4.³² Skala tersebut mewakili apa yang diterapkan lab AI frontier untuk melatih model terbesar.
Persyaratan infrastruktur
Persyaratan daya dan pendinginan melebihi apa yang disediakan sebagian besar fasilitas yang ada. Sistem HGX B300 4U menggunakan teknologi DLC-2 Supermicro untuk menangkap hingga 98% panas melalui pendinginan cair.³³ Pendinginan udara tidak dapat menghilangkan output termal. Organisasi yang merencanakan penerapan Blackwell harus mengimplementasikan infrastruktur pendinginan cair.
Sistem HGX B300 berpendingin cair OCP 2-OU memungkinkan hingga 144 GPU per rak untuk hyperscale dan penyedia cloud.³⁴ Satu rak ORV3 mendukung hingga 18 node dengan total 144 GPU, diskalakan dengan switch Quantum-X800 InfiniBand dan unit distribusi pendingin in-row 1,8-megawatt.³⁵ Delapan rak komputasi HGX B300, tiga rak jaringan Quantum-X800 InfiniBand, dan dua CDU in-row membentuk unit skalabel SuperCluster dengan 1.152 GPU.³⁶
Jaringan membutuhkan konektivitas 800-gigabit. Baik platform 2-OU OCP maupun 4U menggandakan throughput jaringan fabric komputasi menjadi 800 gigabit per detik melalui ConnectX-8 SuperNIC terintegrasi.³⁷ Modul I/O ConnectX-8 SuperNIC menampung dua perangkat ConnectX-8 untuk 800 gigabit per detik konektivitas jaringan per GPU.³⁸ Organisasi dengan infrastruktur 400-gigabit menghadapi persyaratan upgrade.
Ketersediaan hyperscaler dan enterprise
Google Cloud menjadi hyperscaler pertama yang mengumumkan ketersediaan preview penawaran berbasis B200.³⁹ AWS, Google Cloud, Microsoft Azure, dan Oracle Cloud Infrastructure adalah di antara penyedia cloud pertama yang menawarkan instance berbasis Blackwell.⁴⁰ Ketersediaan hyperscaler menyediakan akses berbasis cloud untuk organisasi yang belum siap menerapkan infrastruktur on-premises.
HPE mengirimkan solusi keluarga NVIDIA Blackwell pertamanya, GB200 NVL72, pada Februari 2025.⁴¹ Pembuat sistem global Cisco, Dell, HPE, Lenovo, dan Supermicro menawarkan NVIDIA-Certified RTX PRO Server dengan Blackwell.⁴² Ekosistem vendor matang dengan cepat dari pengumuman hingga ketersediaan produksi.
Pegatron dan 5C berhasil menerapkan rak berpendingin cair berbasis HGX B200 dengan integrasi CDU in-row di pusat data Maryland bersama sistem berpendingin udara.⁴³ Penerapan tersebut menunjukkan infrastruktur siap produksi untuk organisasi yang membangun AI factory mereka sendiri.
Kendala pasokan mempengaruhi ketersediaan. Permintaan dari hyperscaler dan lab AI membanjiri kapasitas produksi.⁴⁴ Hyperscaler besar dan perusahaan AI memesan banyak node sementara organisasi lebih kecil hanya mampu membeli jumlah terbatas.⁴⁵ NVIDIA menghadapi backlog chip Blackwell, sebagian karena masalah desain dalam produksi awal.⁴⁶ Mengoperasikan kluster besar biasanya membutuhkan tiga bulan tambahan setelah pengiriman awal.⁴⁷
Rekomendasi penerapan
Organisasi harus menentukan apakah kemampuan Blackwell membenarkan investasi infrastruktur. Untuk beban kerja yang didominasi inferensi, keuntungan efisiensi Blackwell terbukti menarik. Untuk beban kerja pelatihan yang membutuhkan presisi FP64, Hopper mungkin tetap sesuai.
Organisasi dapat terus melatih model besar pada GPU H100 atau H200 sambil menggunakan B200 atau B300 untuk tugas inferensi dan penerapan di mana Blackwell memberikan keuntungan throughput dan latensi terbesar.⁴⁸ Pendekatan hibrida mengoptimalkan investasi infrastruktur di seluruh jenis beban kerja.
Harga mencerminkan peningkatan kemampuan. Daftar awal menyarankan B200 192GB SXM seharga $45.000 hingga $50.000 per GPU.⁴⁹ Sistem server 8x B200 lengkap dapat melebihi $500.000.⁵⁰ Persyaratan modal mendukung organisasi dengan model pendapatan AI yang jelas atau mandat strategis.
B200 cocok untuk inferensi model pada skala besar, komputasi ilmiah, beban kerja FP64, dan sistem multi-GPU dengan 4 hingga 8 GPU.⁵¹ B300 terbukti terbaik untuk pelatihan LLM dengan throughput lebih tinggi dan fabric NVLink, inferensi model pada skala besar, dan superkomputer.⁵² Perbedaan tersebut membantu organisasi memilih konfigurasi yang tepat.
Keputusan investasi infrastruktur harus memperhitungkan persyaratan pendinginan cair, jaringan 800-gigabit, dan daya Blackwell. Organisasi dengan fasilitas berpendingin udara yang ada menghadapi biaya retrofit atau konstruksi baru. Mereka yang tidak memiliki infrastruktur jaringan 800-gigabit membutuhkan upgrade fabric. Fasilitas tanpa kepadatan daya yang memadai tidak dapat menampung sistem Blackwell terlepas dari persiapan lainnya.
Kesenjangan infrastruktur antara persyaratan Hopper dan Blackwell melebihi transisi generasi NVIDIA mana pun sebelumnya. Organisasi yang mulai merencanakan sekarang memposisikan diri untuk penerapan ketika sistem tersedia. Mereka yang menunda akan menemukan kendala fasilitas membatasi kemampuan AI mereka terlepas dari anggaran GPU.
Poin-poin utama
Untuk arsitek infrastruktur: - B300: 15 PFLOPS FP4, 288GB HBM3e (tumpukan 12-tinggi), bandwidth memori 8TB/s, TDP 1.400W per GPU - GB300 NVL72: 72 GPU, 1,1 exaflops FP4, bandwidth NVLink 1,8TB/s per GPU; DGX SuperPOD: 576 GPU, 11,5 exaflops - Progresi daya: H100 (700W) → B200 (1.000W) → B300 (1.400W); kesenjangan infrastruktur melebihi transisi generasi mana pun sebelumnya
Untuk tim pengadaan: - B200 192GB SXM: $45.000-$50.000 per GPU; sistem server 8x B200 lengkap melebihi $500.000 - Kendala pasokan berlanjut; permintaan dari hyperscaler membanjiri kapasitas produksi dengan lag penerapan 3+ bulan setelah pengiriman - HPE mengirimkan GB200 pertama
[Konten dipotong untuk terjemahan]