DPUとSmartNIC:データセンターコンピューティングの第三の柱

DPU SmartNIC市場は2024年に11.1億ドルに達し、2034年には44.4億ドル(CAGR 15%)に成長見込み。クラウドプロバイダーの50%がDPUを採用、AIトレーニングの35%がDPUにオフロード。BlueField-3は300CPUコア相当のサービスオフロードを実現。BlueField-4は800Gbpsと6倍のコンピューティング性能で発表。AMD Pensando Elbaはデュアル200GbEとP4プログラマビリティで出荷中。

DPUとSmartNIC:データセンターコンピューティングの第三の柱

DPUとSmartNIC:データセンターコンピューティングの第三の柱

2025年12月11日更新

2025年12月アップデート: DPU SmartNIC市場は2024年に11.1億ドルに達し、2034年には44.4億ドルへと年平均成長率14.89%で成長する見込みです。クラウドサービスプロバイダーの約50%がワークロード最適化にDPUを活用しています。AIモデルトレーニングタスクの約35%が効率性とパフォーマンス向上のためにDPUにオフロードされています。業界リーダーたちはDPUをCPUやGPUと並ぶコンピューティングの第三の柱として捉えるようになっています—インフラストラクチャ全体でデータを安全に移動させる専用プロセッサとして。

AIクラスターはデータセンター内のトラフィックパターンを一変させました。現在、ほとんどのトラフィックはアプリケーションとインターネット間の南北方向ではなく、モデルトレーニングやチェックポイント処理時にGPU間を東西方向に流れています。DPUはオプションのアクセラレータから、CPUボトルネックがGPU利用率を制約することを防ぐ必要不可欠なインフラストラクチャへと進化しました。AIインフラストラクチャを構築する組織は、GPUやCPUの選定と同様に慎重にDPUの選定を評価する必要があります。

NVIDIA BlueField-3:インフラストラクチャの標準

NVIDIA BlueField-3は第三世代のデータセンターインフラストラクチャ・オン・チップであり、クラウドからコアデータセンター、エッジまでソフトウェア定義のハードウェアアクセラレーテッドITインフラストラクチャを構築することを可能にします。220億トランジスタを搭載したこのDPUは、ソフトウェア定義のネットワーキング、ストレージ、セキュリティ、管理機能をオフロード、加速、分離します。

ネットワーク接続はEthernetまたはNDR InfiniBand経由で毎秒400ギガビットに達します。ポート構成は1、2、または4ポートで、様々な帯域幅の組み合わせオプションがあります。オンボードメモリは16ギガバイトのDDR5を搭載し、フォームファクターオプションにはハーフハイト・ハーフレングスおよびフルハイト・ハーフレングスのPCIeカードがあります。

BlueField-3は前世代の10倍のアクセラレーテッドコンピューティング性能を提供します。プロセッサコンプレックスは16個のARM A78コアを搭載し、BlueField-2の4倍の暗号化アクセラレーションを実現します。ネットワーク帯域幅は2倍、コンピューティング性能は4倍、メモリ帯域幅は約5倍に向上しました。

性能等価性が物語っています。1つのBlueField-3 DPUは最大300 CPUコア相当のデータセンターサービスを提供し、貴重なCPUサイクルをビジネスクリティカルなアプリケーションのために解放します。このオフロード比率は、CPU容量がワークロード展開を制約している組織にとってDPU投資を正当化します。

BlueField-3は第5世代PCIeをサポートし、時刻同期されたデータセンターアクセラレーションを提供する初のDPUです。最大消費電力は150ワットを超えません。

ユースケースはインフラストラクチャスタック全体に及びます:ストレージ向けの暗号化、データ整合性、重複排除、圧縮解除、イレージャーコーディングを備えたハイパーコンバージドインフラストラクチャ;セキュリティ向けの分散ファイアウォール、IDS/IPS、ルートオブトラスト、マイクロセグメンテーション、DDoS防御;HPC/AI向けのマルチテナンシーと通信アクセラレーションを備えたクラウドネイティブスーパーコンピューティング;通信およびエッジアプリケーション向けのCloud RAN、仮想化エッジゲートウェイ、VNFアクセラレーション。

NVIDIAは後継としてBlueField-4を発表しました—ギガスケールAIファクトリー向けの毎秒800ギガビットインフラストラクチャプラットフォームで、BlueField-3の6倍のコンピューティング性能と、ネットワーキング、データストレージ、サイバーセキュリティ向けのアクセラレーションを提供します。

AMD Pensando:ハイパースケーラーの選択

AMDは2022年にPensando Systemsを買収し、P4プログラマブルDPU技術をAMDのデータセンターポートフォリオに取り込みました。Pensando DPUは、最大規模のハイパースケールデータセンターのフロントエンドネットワーキングソリューションとして広く採用、検証、テストされています。

第2世代のAMD Pensando Elba DPUは完全なP4プログラマビリティを備え、高スループットに最適化されており、デュアル毎秒200ギガビットのラインレートでネットワーキング、ストレージ、セキュリティサービスの高度なオフロードを可能にします。

Elba SoCは16個のARM Cortex-A72コア、デュアルDDR4/DDR5メモリコントローラ、32レーンのPCIe Gen3またはGen4接続、最大デュアル200GbEまたはクアッド100GbEネットワーキング、ストレージおよび暗号化オフロード機能を搭載しています。

アーキテクチャはMatch-Processing Units(MPU)を中心に構成され、ソフトウェア・イン・シリコンが実行され、アクセラレーテッドファストパスサービスを提供します。システムメモリは汎用ARMコアとドメイン固有のMPUの両方に接続されています。P4パイプラインはネットワーキング、ストレージ、テレメトリ、SDN、セキュリティ、輻輳管理、RDMAを性能を損なうことなく同時に処理します。

プログラマブルパイプラインはVxLANトンネルのカプセル化と解除、IPv4/v6ルーティング、ステートレスおよびステートフルセキュリティルール、ネットワークアドレス変換、サーバー負荷分散、暗号化サービス、VLANからVPCへのマッピング、VPCピアリングをラインレートで提供します。

AMDはPensando DPU上でSONiC OSを実行するSAI(Switch Abstraction Interface)リファレンスパイプラインを提供しています。この統合により、ルーティングスタック、管理インターフェース、監視を含むSONiC提供サービスを利用しながら、SSDKを通じてDPUの全機能を活用できます。

AMDはフロントエンドネットワークアプリケーションでNVIDIA BlueField-3と直接競合するよう設計された400G後継機としてPensando Salinaを発表しました。Pensando Pollara 400 AI NICは2025年前半に商用化され、RDMAや輻輳制御などの高度な機能を通じてAIおよびHPCネットワーキングを最適化します。

新しいGiglio DPUはElbaをベースに構築され、ソースコード互換性を持ち、既存顧客が最小限のソフトウェア変更で新しいプラットフォームを採用できます。

VMwareを運用している企業にとって、実質的な選択肢はNVIDIA BlueField-2またはAMD Pensando DSC2に絞られます。VMwareエコシステムのサポートにより、その仮想化プラットフォームにコミットしている組織のオプションは限定されます。

Intel IPU E2100:クラウドネイティブアプローチ

IntelのInfrastructure Processing Unit(IPU)Adapter E2100は、インフラストラクチャアクセラレーション、仮想ストレージ有効化、強化されたセキュリティ機能を提供します。E2100 SoCは電力、性能、スケールに最適化されたインフラストラクチャアクセラレーションプラットフォームです。

ハードウェアは200GbE帯域幅を持つ豊富なパケット処理パイプラインを備え、NVMe、圧縮、暗号化アクセラレータを含みます。ARM Neoverse N1コンピュートコンプレックスにより、複雑なパケット処理パイプラインからストレージトランスポート、デバイス管理、テレメトリまで、顧客提供のソフトウェアで機能を実行できます。

E2100は16個のARM Neoverse N1コアと32メガバイトのキャッシュ、3チャネルの16GB LPDDR4xメモリ(合計48ギガバイト)を搭載しています。

モデルバリアントは異なる展開要件に対応します。E2100-CCQDA2は2024年第1四半期に発売され、150W TDPでデュアルポート構成、PCIe 4.0経由で200/100/50/25/10GbEデータレートをサポートし、ハーフレングス、フルハイト、シングルスロットフォームファクターです。E2100-CCQDA2HLは2024年第4四半期に発売され、同じデュアルポート構成で75W TDPに低減されています。

接続にはQSFP56ポートを使用し、DAC、光学モジュール、AOCケーブルをサポートします。仮想化サポートにはVirtual Machine Device Queues(VMDq)、PCI-SIG SR-IOV、RoCEv2/RDMAが含まれます。

Intel IPUの系譜は、AWS Nitroのように機能するよう設計されたMt Evansプロジェクトにさかのぼり、特にGoogle Cloud向けにNVMe over Fabricとネットワークセキュリティをオフロードします。E2100はGoogle以外の顧客が利用可能な最初のイテレーションです。

ユースケースには、インフラストラクチャワークロードの分離と隔離、アクセラレータがより効率的にタスクを処理するIPUへの仮想化ネットワークのオフロード、ローカルディスクストレージの分離された仮想化ストレージへの置き換えが含まれます。

市場動向と採用パターン

DPU市場は明確なユースケースセグメントに分かれています。データセンターオフロードがリードしており、ハイパースケールデータセンターの拡大と、複雑でデータ集約型のコンピューティングワークロードの需要増大によって推進されています。北米が最大の収益シェアを占め、サイバーセキュリティ脅威の増大、ゼロトラストセキュリティフレームワークの採用拡大、AIおよび機械学習インフラストラクチャへの大規模投資によって牽引されています。

採用パターンは明確なワークロードアラインメントを示しています。展開の約30%がAIワークロードに焦点を当て、20%がゼロトラストセキュリティアーキテクチャをターゲットにしています。ハードウェアベースのセキュリティアクセラレーションを備えたDPUは採用が30%増加しており、ゼロトラスト原則に対する業界の優先度を反映しています。

AIトラフィックパターンがDPUの必要性を駆動しています。トレーニング中のGPU間の東西トラフィックが現代のAIクラスター通信を支配しています。ホストCPUはこのトラフィックをラインレートで処理することができず、ボトルネックになってしまいます。DPUは、そうでなければオーケストレーションやコントロールプレーン機能に必要なCPUサイクルを消費してしまうネットワーク処理を担当します。

競争環境は、それぞれ異なるポジショニングを持つ3つの主要ベンダーで構成されています。NVIDIAはBlueFieldをより広範なAIインフラストラクチャエコシステムに統合し、最も強力なInfiniBandサポートでリードしています。AMD Pensandoは実証済みの本番スケールとP4プログラマビリティでハイパースケーラー展開を支配しています。IntelはNitroにインスパイアされたIPU設計でクラウドネイティブアーキテクチャをターゲットにしています。

MarvellのOCTEON 10は次世代の挑戦者です—ARM Neoverse N2コアを搭載した業界初の5nm DPUで、前世代比3倍のコンピューティング性能と50%の消費電力削減を実現します。インラインML/AI向けの革新的なハードウェアアクセラレータは、ソフトウェアベースの推論と比較して100倍の性能向上を提供します。

ゼロトラストセキュリティの実装

DPUはホストCPUを介さずにネットワークエッジでゼロトラストセキュリティの適用を可能にします。このアーキテクチャは、ネットワーク集約ポイントではなくデータソースにポリシー適用を配置します。

L4ファイアウォールはDPU上で直接実行され、トラフィックがホストに到達する前にポリシーを適用します。NVIDIAのBlueField DPUはマイクロセグメンテーションをサポートし、オペレーターがホストCPUを介さずにGPUワークロードにゼロトラスト原則を適用できます。

セキュリティモデルは特にマルチテナントAIインフラストラクチャにおいて重要です。複数の顧客がGPUクラスターを共有する場合、DPUはネットワークレベルでテナント間の隔離を強制します。ホストオペレーティングシステムは他のテナント宛のトラフィックを見ることがなく、攻撃対象領域を削減します。

ルートオブトラストはインフラストラクチャコンポーネントの暗号検証を確立します。DPUはネットワークアクセスを許可する前に、ファームウェア、オペレーティングシステム、アプリケーションを検証します。侵害されたホストはDPUが強制する検証に合格しなければネットワーク上で通信できません。

DPUはクラウドおよびエッジインスタンス全体にわたる高度に分散されたゼロトラスト環境でのネットワーク監視、テレメトリ、オブザーバビリティ機能を可能にします。この可視性は、ソフトウェアベースの復号化による性能ペナルティなしにハードウェアアクセラレーテッドTLSインスペクションを通じて暗号化トラフィックにまで及びます。

AIインフラストラクチャの統合

AIクラスターは一般的なデータセンターワークロードとは異なる特定のDPU要件を提示します。分散トレーニング中のGPU間の東西トラフィックパターンは、従来のNICがCPUの支援なしでは処理できない持続的な帯域幅需要を生み出します。

コレクティブオペレーション—all-reduce、all-gather、broadcast—は分散トレーニングの通信バックボーンを形成します。DPUはハードウェアオフロードを通じてこれらのオペレーションを加速し、レイテンシを削減し、GPUコンピューティングを実際のモデル実行のために解放します。

RDMAサポートはAIワークロードにとって不可欠です。DPUはRoCEv2(RDMA over Converged Ethernet)またはInfiniBand RDMA処理をハードウェアで処理し、ホストネットワークスタックを完全にバイパスします。GPUメモリとネットワーク間のゼロコピーデータ転送により、レイテンシを最小化し、帯域幅利用率を最大化します。

AIクラスタースケールでは輻輳制御が重要になります。DPUはDCQCN(Data Center Quantized Congestion Notificati

[翻訳用にコンテンツを切り詰め]

お見積り依頼_

プロジェクトについてお聞かせください。72時間以内にご回答いたします。

> TRANSMISSION_COMPLETE

リクエストを受信しました_

お問い合わせありがとうございます。弊社チームがリクエストを確認し、72時間以内に回答いたします。

QUEUED FOR PROCESSING