NVIDIA Blackwell UltraとB300:次世代GPUが求めるインフラ要件
2025年12月11日更新
2025年12月アップデート: B300は15 PFLOPS FP4、288GB HBM3e(12段スタック)、8TB/s帯域幅、1,400W TDPを実現。GB300 NVL72ラックは1.1 EXAFLOPSを達成—単一ノードでエクサスケールを実現。DGX B200はHopper比で学習性能3倍、推論性能15倍を達成。システムは2025年下半期に出荷開始。液体冷却、800Gbpsネットワーク、既存施設の多くが対応できない電力密度が必要。
NVIDIA Blackwell Ultra GPUは、15ペタフロップスの高密度FP4演算、B200比50%増のメモリ、1.5倍高速なパフォーマンスを提供する。¹ 単一のGB300 NVL72ラックは1.1エクサフロップスのFP4演算を達成し、単一ノードでエクサスケールスーパーコンピューターとして動作する。² 8基のNVIDIA Blackwell GPUを搭載したDGX B200は、前世代Hopperシステム比で学習性能3倍、推論性能15倍を実現する。³ Blackwellのインフラ要件は、これまで組織が導入してきたものとは大きく異なり、液体冷却、800ギガビットネットワーク、既存施設の多くが対応できない電力密度を必要とする。
NVIDIAはGTC 2025でB300を発表し、システムは2025年下半期に出荷される。⁴ このタイミングは、ハードウェア到着前に施設準備、電力確保、運用能力構築が必要な組織にとって、計画の緊急性を生み出している。Blackwellのインフラ要件を今理解することが、システムが利用可能になった際に効果的に導入できるかどうかを決定する。
Blackwell Ultraの仕様
Blackwell Ultra GPUは、NVIDIAのHigh-Bandwidth Interfaceで接続された2つのダイにまたがる2080億トランジスタと160ストリーミングマルチプロセッサを備えたデュアルレティクル設計を採用している。⁵ B200は2080億トランジスタを搭載し、H100の800億トランジスタと比較される。⁶ このトランジスタ数は、フロンティアスケールのAIワークロードに必要なアーキテクチャの複雑さを反映している。
B300はGPUあたり288ギガバイトのHBM3eメモリを提供し、B200の8段構成ではなく12段メモリスタックによって実現される。⁷ メモリ帯域幅は毎秒8テラバイトに達する。⁸ このメモリ容量により、以前はマルチGPU構成を必要としたモデルを単一GPUで処理できるようになる。
電力要件は大幅に増加する。各B300チップはGB300の中核として1,400ワットを消費する。⁹ B200は1,000ワット、H100は700ワットを消費していた。¹⁰ 3世代にわたるGPUあたり700から1,000、そして1,400ワットへの推移は、組織が計画すべき電力軌道を示している。
高密度FP4性能はB300で14ペタフロップス、B200の9ペタフロップスと比較して55.6%向上している。¹¹ FP4演算能力により、FP8と比較してメモリ使用量を約1.8倍削減しながら、ほぼ同等の精度を維持できる。¹² この低精度能力は、品質を犠牲にせずにスループットを向上させる推論ワークロードに対応している。
Hopperとの性能比較
検証済み性能データによると、Hopper世代と比較してGPUあたり最大11〜15倍高速なLLMスループットを示している。¹³ HGX B200はHGX H100比で推論最大15倍、学習3倍の改善を実現し、エネルギーとコストを12分の1に削減する。¹⁴ GB200 NVL72クラスターはH100クラスター比で学習4倍高速、リアルタイム推論30倍高速を提供する。¹⁵
B200は単一GPUから20ペタフロップスのAI性能を提供する。単一H100のAI演算能力は最大4ペタフロップスだった。¹⁶ GPUあたり5倍の改善は、大規模導入の経済性を変える。組織は、より少ないGPUで同等の能力を達成するか、同等のGPU数で大幅に高い能力を得ることができる。
メモリの改善が演算の向上を補完する。B200は192ギガバイトのHBM3eを搭載し、H100の80ギガバイトHBM3と比較される。¹⁷ メモリ帯域幅は毎秒8テラバイトに達し、H100の毎秒3.35テラバイトの2.4倍高速である。¹⁸ このメモリ容量により、以前は複雑なマルチGPU構成を必要としたモデルを単一GPUで処理できる。
推論ワークロードについて、BlackwellはH100と比較して推論あたりのエネルギーを25分の1に削減する。¹⁹ 単一のB200がLlama 3推論で5倍のH100ノードを置き換え、コストとカーボンフットプリントを削減する。²⁰ 効率向上は、推論が演算需要の大部分を占める大規模導入で複合的に効果を発揮する。
Hopperとのアーキテクチャの違い
Hopperは、FP64とFP32の従来精度に焦点を当てた、高性能コンピューティングとAIワークロードの幅広い組み合わせをターゲットとしている。²¹ Blackwellは大規模生成AIタスクに明示的に最適化されている。²² このアーキテクチャの焦点は、AIワークロード、特に推論がGPU需要を支配するというNVIDIAの評価を反映している。
Blackwellは、4ビットと6ビット演算をサポートする超低精度モードを備えた第5世代テンソルコアを導入している。²³ 低精度能力は、量子化モデルが許容可能な品質を維持する推論ワークロードを加速する。より高い精度を必要とする学習ワークロードは、アーキテクチャの変更からの恩恵が少ない。
NVLink接続性は劇的に増加する。各Blackwell GPUは18本の第5世代NVLink接続を持ち、H100で利用可能だった数の18倍となる。²⁴ 各接続は毎秒50ギガバイトの双方向帯域幅を提供する。²⁵ 拡張されたインターコネクトにより、72基のGPUが統合された演算ファブリックとして動作するGB300 NVL72のアーキテクチャが可能になる。
倍精度を使用する行列代数、流体力学、分子動力学を含む純粋なHPC数値タスクについては、ワットあたりのFP64性能、大容量共有メモリ、FP32向けの十分なキャッシュにおけるHopperの強みが優位性を維持する。²⁶ 従来のHPCワークロードを持つ組織は、Blackwellがすべてのユースケースを同等に改善すると想定すべきではない。
GB300 NVL72ラックアーキテクチャ
液体冷却GB300 NVL72ラックは、NVLink 5とNVLink Switchingで相互接続された36基のGrace Blackwell Superchipを統合している。²⁷ ラックには72基のB300 GPU(各288ギガバイトのHBM3eメモリ搭載)が含まれる。²⁸ 各GPUが毎秒1.8テラバイトのNVLink帯域幅で相互接続されており、システムは単一のエクサスケールノードとして動作する。²⁹
GB300 NVL72は、Hopperプラットフォーム比でレイテンシ10倍改善とメガワットあたりスループット5倍向上を組み合わせ、50倍高いAIファクトリー出力を可能にする。³⁰ 効率向上は、液体冷却要件がオーバーヘッドではなく投資を意味する理由を示している。
DGX B300システムは、800ギガビットネットワーク用の8基のConnectX-8 SuperNICを備えた2.3テラバイトのHBM3eメモリを提供する。³¹ ネットワーク要件は演算能力に匹敵する。不十分なネットワークファブリックはGPU容量を無駄にするボトルネックを生み出す。
8台のNV72Lラックを組み合わせて完全なBlackwell Ultra DGX SuperPODを形成:288基のGrace CPU、576基のBlackwell Ultra GPU、300テラバイトのHBM3eメモリ、11.5エクサフロップスのFP4演算。³² このスケールは、最大規模のモデル学習のためにフロンティアAI研究所が導入するものを表している。
インフラ要件
電力と冷却の要件は、ほとんどの既存施設が提供できる範囲を超えている。4U HGX B300システムは、SupermicroのDLC-2技術を使用して液体冷却により最大98%の熱を回収する。³³ 空冷では熱出力を放散できない。Blackwell導入を計画する組織は、液体冷却インフラを実装する必要がある。
2-OU OCP液体冷却HGX B300システムは、ハイパースケールおよびクラウドプロバイダー向けにラックあたり最大144 GPUを可能にする。³⁴ 単一のORV3ラックは最大18ノード、合計144 GPUをサポートし、Quantum-X800 InfiniBandスイッチと1.8メガワットの列内冷却液分配ユニットでスケールする。³⁵ 8台のHGX B300演算ラック、3台のQuantum-X800 InfiniBandネットワークラック、2台の列内CDUが、1,152 GPUのSuperClusterスケーラブルユニットを形成する。³⁶
ネットワークには800ギガビット接続が必要である。2-OU OCPと4Uプラットフォームの両方が、統合ConnectX-8 SuperNICを介して演算ファブリックネットワークスループットを毎秒800ギガビットに倍増させる。³⁷ ConnectX-8 SuperNICのI/Oモジュールは、GPUあたり毎秒800ギガビットのネットワーク接続用に2つのConnectX-8デバイスをホストする。³⁸ 400ギガビットインフラを持つ組織はアップグレードが必要となる。
ハイパースケーラーとエンタープライズの可用性
Google Cloudは、B200ベースのオファリングのプレビュー可用性を発表した最初のハイパースケーラーとなった。³⁹ AWS、Google Cloud、Microsoft Azure、Oracle Cloud Infrastructureは、Blackwell搭載インスタンスを提供する最初のクラウドプロバイダーに含まれる。⁴⁰ ハイパースケーラーの可用性は、オンプレミスインフラを導入する準備ができていない組織にクラウドベースのアクセスを提供する。
HPEは2025年2月に最初のNVIDIA Blackwellファミリーソリューション、GB200 NVL72を出荷した。⁴¹ グローバルシステムメーカーのCisco、Dell、HPE、Lenovo、SupermicroがBlackwell搭載のNVIDIA認定RTX PRO Serverを提供している。⁴² ベンダーエコシステムは発表から本番可用性まで急速に成熟した。
PegatronとWistronの5Cは、空冷システムと並んでメリーランド州のデータセンターで列内CDU統合によるHGX B200ベースの液体冷却ラックの導入に成功した。⁴³ この導入は、独自のAIファクトリーを構築する組織向けの本番対応インフラを示している。
供給制約が可用性に影響を与えている。ハイパースケーラーとAI研究所からの需要が生産能力を圧倒している。⁴⁴ 主要ハイパースケーラーとAI企業が多数のノードを注文する一方、小規模組織は限られた数量しか購入できない。⁴⁵ NVIDIAは初期生産の設計問題も一因で、Blackwellチップのバックログに直面している。⁴⁶ 大規模クラスターの運用開始には、通常、初期納品後さらに3ヶ月かかる。⁴⁷
導入推奨事項
組織は、Blackwellの能力がインフラ投資を正当化するかどうかを判断すべきである。推論主体のワークロードについては、Blackwellの効率向上は説得力がある。FP64精度を必要とする学習ワークロードについては、Hopperが依然として適切かもしれない。
組織は、Blackwellが最大のスループットとレイテンシ向上を提供する推論と展開タスクにB200またはB300を使用しながら、H100またはH200 GPUで大規模モデルの学習を継続できる。⁴⁸ このハイブリッドアプローチは、ワークロードタイプ全体でインフラ投資を最適化する。
価格設定は能力向上を反映している。初期リストではB200 192GB SXMがGPUあたり45,000〜50,000ドルと示唆されている。⁴⁹ 完全な8x B200サーバーシステムは500,000ドルを超える可能性がある。⁵⁰ 資本要件は、明確なAI収益モデルまたは戦略的使命を持つ組織に有利である。
B200は、大規模モデル推論、科学計算、FP64ワークロード、4〜8 GPUのマルチGPUシステムに適している。⁵¹ B300は、より高いスループットとNVLinkファブリックを持つLLM学習、大規模モデル推論、スーパーコンピューターに最適である。⁵² この区別は、組織が適切な構成を選択するのに役立つ。
インフラ投資の決定は、Blackwellの液体冷却、800ギガビットネットワーク、電力要件を考慮すべきである。既存の空冷施設を持つ組織は、改修コストまたは新規建設に直面する。800ギガビットネットワークインフラを持たない組織は、ファブリックのアップグレードが必要である。十分な電力密度を持たない施設は、他の準備に関係なくBlackwellシステムをホストできない。
HopperとBlackwell要件間のインフラギャップは、以前のどのNVIDIA世代移行よりも大きい。今から計画を始める組織は、システムが利用可能になった時に導入の準備ができる。遅れる組織は、GPUの予算に関係なく、施設の制約がAI能力を制限することになる。
重要ポイント
インフラアーキテクト向け: - B300:15 PFLOPS FP4、288GB HBM3e(12段スタック)、8TB/sメモリ帯域幅、GPUあたり1,400W TDP - GB300 NVL72:72 GPU、1.1エクサフロップスFP4、GPUあたり1.8TB/s NVLink帯域幅;DGX SuperPOD:576 GPU、11.5エクサフロップス - 電力推移:H100(700W)→ B200(1,000W)→ B300(1,400W);インフラギャップは以前のどの世代移行よりも大きい
調達チーム向け: - B200 192GB SXM:GPUあたり45,000〜50,000ドル;完全な8x B200サーバーシステムは500,000ドル超 - 供給制約が継続;ハイパースケーラーからの需要が生産能力を圧倒し、納品後3ヶ月以上の導入遅延 - HPEが最初のGB200を出荷
[翻訳のためコンテンツ省略]