AI最適化ストレージ:NVMe-oF、GPUDirect、並列ファイルシステム 2025

AIストレージ市場は2035年までに360億ドルから3,220億ドルに成長。DDNはNVIDIA Eosに4TB/sを提供。GPUDirect、NVMe-oF、並列ファイルシステムが大規模GPUクラスターにデータを供給。

AI最適化ストレージ:NVMe-oF、GPUDirect、並列ファイルシステム 2025

AI最適化ストレージ:GPUクラスターにデータを供給する技術スタック

2025年12月11日更新

2025年12月アップデート: AIストレージ市場は2025年の360億ドルから2035年には3,220億ドルに成長予測。DDN EXAScalerがNVIDIA Eosスーパーコンピュータに4TB/sを供給。GPUDirect Storageが40+ GB/sの直接転送を実現、NVIDIAの2025年11月のSCADA技術がCPUの最後の関与を排除。NVMe-oFはCAGR 27.8%で成長中、組織がネットワーク全体でPCIeレベルのレイテンシーを拡張。

ストレージのボトルネックはGPUをアイドル状態にする。DDN EXAScalerの単一実装がNVIDIAのEosスーパーコンピュータに毎秒4テラバイトを供給し、576台のDGX H100システムから18.4エクサフロップスのAI性能を引き出している。¹ GPUが1台あたり数万ドルのコストで、トレーニングクラスターが数千台のアクセラレータに達する場合、データスループットを維持できないストレージインフラは数百万ドルのコンピューティングリソースを無駄にする。AI搭載ストレージ市場は緊急性を反映し、2025年の362.8億ドルから2035年には3,219.3億ドルへ、年間複合成長率24.4%で成長すると予測されている。²

現代のAIワークロードは、従来のエンタープライズアプリケーションとは根本的に異なるストレージ性能特性を要求する。ペタバイト単位のトレーニングデータセットには、持続的なシーケンシャルスループットが必要だ。チェックポイント操作は、トレーニングの中断を最小限に抑えるため、数秒で完了する必要がある。推論ワークロードは、小さなランダム読み取りとバースト書き込みが混在する予測不可能なI/Oパターンを生成する。大規模にAIインフラを展開する組織は現在、従来のIOPSベンチマークではなく、GPU使用率メトリクスに基づいてストレージシステムを評価している。

NVMe-oFがネットワーク全体でフラッシュ性能を拡張

NVMe over Fabrics(NVMe-oF)は、高性能イーサネットまたはInfiniBandファブリック上でNVMe SSDの低レイテンシー共有を提供することで、大規模な高性能ワークロードを可能にする。³ このプロトコルは、ローカル接続のNVMe SSDと同様の性能を提供しながら、組織がコンピュート、GPU、メモリ割り当てとは独立してストレージリソースをスケーリングできる。⁴

従来のストレージプロトコルは、回転ディスク向けに最適化されたソフトウェアスタックを通じてミリ秒単位のレイテンシーを追加する。NVMe-oFはこれらのレイヤーを排除し、RDMAトランスポートを使用して数千ノードにスケーリングしても数十マイクロ秒のレイテンシーを達成する。⁵ TCPトランスポートは、レガシーNFSやiSCSIプロトコルと比較して大幅な性能向上を提供しながら、コモディティイーサネット上での展開を可能にする。⁶

AIインフラにおいて、NVMe-oFはマイクロ秒単位が重要な場面で威力を発揮する:GPUがデータ待ちでアイドル状態になるトレーニングパイプライン、厳格な時間枠内で完了する必要があるチェックポイント操作、サブミリ秒の応答時間を必要とする推論ワークロードだ。⁷ 公開されたベンチマークでは、GPUDirect Storage統合で毎秒351 GiBのシーケンシャル読み取りを示し、I/Oバウンド構成では有効GPU使用率が2〜3倍向上すると予想されている。⁸

2025年にかけて業界での採用が加速している。Western DigitalとIngrasysは2025年5月にパートナーシップを確立し、GPUサーバーの専門知識とNVMe-oFおよびファブリック接続ストレージ機能を組み合わせた。⁹ 日立ヴァンタラは2025年11月にVirtual Storage Platform One Block High Endを発表、ミッションクリティカルおよびAIワークロード向けに設計された次世代オールフラッシュNVMeブロックストレージソリューションだ。¹⁰ NVMe-oFシステムは、組織が分散AIクラスターでGPU使用率を向上させるためにネットワーク全体でPCIeレベルのレイテンシーを拡張する中、年間複合成長率27.80%が予測されている。¹¹

GPUDirect StorageがCPUボトルネックを排除

NVIDIAのGPUDirect Storageは、CPUとシステムメモリを経由せずに、ストレージからGPUメモリへの直接データ転送を可能にする。¹² この技術は、大規模なデータセットが処理のためにGPUメモリに継続的に流入する必要があるAIトレーニングパイプラインにおける根本的な性能障壁を取り除く。

ディープラーニングトレーニングには、トレーニングされたネットワークの重みを様々なトレーニング段階でディスクに保存する、頻繁なチェックポイント操作が含まれる。定義上、チェックポイントはクリティカルI/Oパス上にある。¹³ 1,000億パラメータのモデルは1回のチェックポイントで約800GB〜1.6TBを生成し、16,000アクセラレータでの大規模トレーニングでは1日155回のチェックポイントが必要だ。¹⁴ オーバーヘッドを5%未満に抑えるには、その規模でチェックポイント操作を28秒未満で完了する必要があり、100,000アクセラレータクラスターでは4.4秒に短縮される。¹⁵

GPUDirect Storageは、ストレージからGPUメモリへの40+ GBpsの直接転送速度を可能にすることで、これらの要件に対応する。¹⁶ Lenovo/NVIDIAのリファレンスアーキテクチャは、線形スケーリング機能を備えたノードあたり20 GBpsを提供し、LLMトレーニング、推論、チェックポイント機能をサポートする。¹⁷ NVIDIAの2025年11月のSCADA技術は、ストレージ制御パスさえもGPUにオフロードすることでGPUDirectをさらに進化させ、ストレージ操作における最後のCPU関与を排除した。¹⁸

ハードウェア実装はエコシステム全体に広がっている。HighPoint Rocker 7638Dアダプターは、最大64 GB/sの帯域幅と予測可能なレイテンシーでGPUDirect Storageワークフローを実現し、特に大規模トレーニングデータセットに有用だ。¹⁹ DDN、Pure Storage、WEKA、VAST Dataなどのストレージベンダーは、NVIDIA DGXおよびHGXシステムとのGPUDirect統合についてプラットフォームを認定している。

並列ファイルシステムがエクサスケールAIを支える

並列ファイルシステムは、データとメタデータを複数のサーバーに分散し、ストレージノード数に応じてスケーリングする総合スループットを実現する。AIとHPCの展開では、Lustre、IBM Storage Scale(旧GPFS)、WekaFSの3つのプラットフォームが主流だ。

Lustreは並列ファイルシステムで41%の市場シェアを占め、IBM Storage Scaleが17%、WEKAが6%で続く。²⁰ 各アーキテクチャは異なるワークロード特性に最適化されている。

Lustreは、科学シミュレーションやビデオレンダリングパイプラインを含む大規模なシーケンシャル操作が主流の環境で優れている。²¹ このアーキテクチャは小さなファイルの処理よりも持続的な帯域幅を優先し、帯域幅集約型のワークロードに対してObject Storage Servers(OSS)の追加でほぼ線形の性能スケーリングを達成する。²² LustreはInfiniBandファブリックで最高の性能を発揮し、世界のほとんどのスーパーコンピュータを支えている。DDNのEXAScaler製品は、性能最適化とエンタープライズ管理機能を備えたLustreをパッケージ化している。

IBM Storage Scaleは、メタデータ集約型の操作で優れた性能を提供する。²³ 分散メタデータアプローチは、Lustreの集中型メタデータサーバーアーキテクチャよりも効率的に小さなファイルを作成し、属性を変更し、複雑なディレクトリ構造を構築する。²⁴ Storage Scaleは様々なI/Oパターンで一貫した性能を提供し、GPUDirectサポートを備えたNVIDIA DGX SuperPODリファレンスアーキテクチャに統合されている。²⁵

WekaFSは特にAI/MLワークロードをターゲットにしており、回転ディスクアーキテクチャから改修されたものではなく、最初からNVMe SSD向けに設計されている。²⁶ WEKAの分散メタデータは、レガシー並列ファイルシステムを制約するメタデータサーバーのボトルネックを排除する。²⁷ ベンチマークでは、WekaFSが同等の容量でFSx for Lustreを300%以上上回り、I/Oレイテンシーが競合ソリューションの30%未満になることもある。²⁸ WekaFSはpNFS、SMB、S3プロトコルをサポートし、AIパイプラインで一般的なマルチプロトコルアクセスパターンを実現する。

DDN、Pure Storage、VAST Dataがベンダー市場をリード

3つのストレージベンダーが、GPUクラスターワークロード向けに特別に設計された製品でAIインフラ展開を主導している。

DDNは最も注目度の高いAIスーパーコンピュータを支えている。NVIDIAのEosシステムは、576台のDGX H100システムと48台のDDN A³Iアプライアンスを組み込み、3ラック未満でわずか100 kWの電力を使用しながら、毎秒4テラバイトのスループットで12ペタバイトのストレージを提供する。²⁹ DDNは2025年3月にBlackwell認定を発表し、DGX GB200およびDGX B200システムを搭載したDGX SuperPOD向けにEXAScalerとInfinia 2.0を最適化した。³⁰ 単一のDDN AI400X2-TurboはDGX B200と組み合わせて、読み取りと書き込み操作の両方で1 GBps/GPUの最小要件の10倍を達成し、最大96%のネットワーク使用率を提供する。³¹ DDNはインドのソブリンAIイニシアチブのためにYottaと提携し、8,000台のNVIDIA B200 GPUを動かすEXAScaler AI400X3システムを展開した。³²

Pure Storageは2025年3月にFlashBlade//EXAを発表し、単一ネームスペースで毎秒10テラバイト以上の読み取り性能を予測している。³³ このプラットフォームは、1〜数万台のGPUを実行し、1 TB/秒から50 TB/秒のストレージスループットを必要とする顧客をターゲットにしている。³⁴ FlashBlade//EXAのディスアグリゲートアーキテクチャは、サードパーティのデータノードを使用してデータとメタデータを独立してスケーリングし、大規模な並列性能を実現する。³⁵ Pure StorageはNVIDIA DGX SuperPODとのFlashBlade//S500認定を取得し、GPUDirect StorageサポートでNVIDIA AI Data Platformリファレンスデザインを統合した。³⁶

VAST Dataは2025年5月までに累計ソフトウェア予約額20億ドルに達した。³⁷ DASE(Distributed and Shared Everything)アーキテクチャは、毎秒テラバイトで100k+以上のGPUクラスター向けに画期的な並列性を提供し、AIデータのボトルネックを排除する。³⁸ VASTは要求の厳しいAIワークロードに対して、抜本的な効率化により総所有コストを50%以上削減すると主張している。³⁹ このプラットフォームは、業界標準のNFS、SMB、S3、Kubernetes CSIアクセスでエクサバイト規模のオールフラッシュストレージをサポートする。⁴⁰ Microsoft Azureは2025年11月にVASTのAI Operating Systemとの統合を発表し、オンプレミスのAIパイプラインをGPUアクセラレーションクラウドインフラに拡張する。⁴¹

チェックポイントアーキテクチャが速度と信頼性のバランスを取る

モデルのチェックポイントは、AIトレーニングにおいて最も厳しいストレージ要件を生み出す。チェックポイントサイズはパラメータ数に比例する:混合精度トレーニングではパラメータあたり約8〜12バイトなので、1,000億パラメータのモデルは1回のチェックポイントで800GB〜1.2TBを生成する。⁴² 頻度要件はクラスター規模に伴って増加し、100,000アクセラレータの展開では1.5分ごとにチェックポイントに達する。⁴³

現代のトレーニングシステムは、階層化されたチェックポイントアーキテクチャを採用している。高速層チェックポイントは数分ごとにノードローカルNVMeストレージに書き込む。中間層チェックポイントは30分ごとに共有ファイルシステムに伝播する。耐久性チェックポイントは数時間ごとにのみAmazon S3などのオブジェクトストレージに到達する。⁴⁴ 非同期チェックポイントにより、バックグラウンドプロセスがローカルストレージをグローバル層にドレインする間もトレーニングを継続できる。⁴⁵

グローバルチェックポイント帯域幅要件は、大規模であっても驚くほど控えめだ。実際のシステムにおける85,000のチェックポイントの分析では、1兆パラメータモデルでも帯域幅は通常1 TB/s未満であることがわかった。⁴⁶ チェックポイント時にはクラスター全体のサイズに関係なく単一のデータ並列レプリカのみが書き込むため、GPUあたりのチェックポイント帯域幅はモデルサイズが大きくなるにつれて減少する。⁴⁷

報告されるスループットは実装によって大きく異なる。Geminiは3.13 GB/sのチェックポイントスループットを報告。MicrosoftのNebula(DeepSpeed)は1-4 GB/sを達成。これらの数値は、チェックポイント頻度、ストレージ層、許容可能なトレーニングオーバーヘッド間のアーキテクチャ上のトレードオフを反映している。⁴⁸

コンピューテーショナルストレージが処理をデータに近づける

コンピューテーショナルストレージデバイス(CSD)は、ストレージハードウェア内にコンピュート機能を組み込み、転送前にデータを処理してI/O帯域幅要件を削減する。⁴⁹ このアーキテクチャは、限られた計算リソース、厳格な電力予算、リアルタイムレイテンシー要件に直面するエッジAI展開において特に価値がある。⁵⁰

高度なCSDアプリケーションには、ストレージデバイス上で直接データベース、機械学習モデル、分析を実行することが含まれる。一部の実装は完全なLinuxオペレーティングシステムをサポートし、ドライブ自体でAI/ML推論を可能にする。⁵¹ エッジ展開は、ストレージレイヤーでの初期処理から恩恵を受け、メインプロセッサへの送信前に結果をフィルタリングする。⁵²

この技術はエッジAI特有の制約に対応する。アクセシビリティ、カスタマイズ性、効率性を向上させるため、推論の実行はますますエッジデバイスにシフトしている。⁵³ Ciscoは2025年11月にUnified Edgeを発表、リアルタイムAI向けにコンピュート、ネットワーキング、ストレージ、セキュリティを統合した統合コンピューティングプラットフォームだ。

[翻訳のためコンテンツを省略]

お見積り依頼_

プロジェクトについてお聞かせください。72時間以内にご回答いたします。

> TRANSMISSION_COMPLETE

リクエストを受信しました_

お問い合わせありがとうございます。弊社チームがリクエストを確認し、72時間以内に回答いたします。

QUEUED FOR PROCESSING