マルチテナントGPUセキュリティ:共有インフラストラクチャのための分離戦略

AIを導入している組織は90%に達する一方、セキュリティ対策に自信を持っている組織はわずか5%。侵害を受けた組織の97%が適切なAIアクセス制御を欠いていた。NVIDIAは7件のセキュリティ脆弱性を公開...

マルチテナントGPUセキュリティ:共有インフラストラクチャのための分離戦略

マルチテナントGPUセキュリティ:共有インフラストラクチャのための分離戦略

2025年12月11日更新

2025年12月更新: AIを導入している組織は90%に達する一方、セキュリティ対策に自信を持っている組織はわずか5%。侵害を受けた組織の97%が適切なAIアクセス制御を欠いていた。NVIDIAは2025年1月27日に7件のセキュリティ脆弱性を公開し、その中にはContainer Toolkitのバイパスによるroot権限取得を可能にするCVE-2025-23266も含まれていた。米国のAIインフラストラクチャセキュリティ市場は29.9億ドルに達し、年平均成長率22.8%で拡大している。

組織の90%がAIシステムを導入しているにもかかわらず、セキュリティ対策に自信を持っているのはわずか5%に過ぎない。¹ AI専用のセキュリティ自動化を実装している組織は、侵害1件あたり190万ドルのコスト削減を達成し、インシデント対応期間を80日短縮している。² 一方で、侵害を受けた組織の97%は適切なAIアクセス制御を欠いていた。³ GPUインフラストラクチャがエンタープライズAIの基盤となるにつれ、共有GPUリソースのセキュリティモデルが、組織がワークロードを安全に統合できるか、あるいはテナントごとに高価な専用ハードウェアを維持しなければならないかを決定する。

この課題は従来の仮想化セキュリティの範囲を超えている。GPUは、組織の知的財産を表すモデルの重み、学習データ、推論入力などの機密データを扱う。GPUレベルでの侵害は、AIシステムの「頭脳」を危険にさらす可能性がある。⁴ マルチテナントGPU環境は、CPUベースの仮想化とは根本的に異なる攻撃対象領域をもたらし、GPUアーキテクチャに特化したセキュリティ戦略が必要となる。

マルチテナントGPUセキュリティの現状

2025年1月27日、NVIDIAはGPUディスプレイドライバーおよび仮想GPUソフトウェアに影響する7件の新しいセキュリティ脆弱性を公開した。⁵ これらの重大な欠陥は、エンタープライズAIインフラストラクチャからクラウドコンピューティングプラットフォームまで、数百万のシステムに影響を与える。NVIDIA Container Toolkitの脆弱性CVE-2025-23266により、悪意のある攻撃者が分離メカニズムをバイパスし、ホストシステムへのroot権限を取得することが可能だった。⁶ この公開は、組織が無視できないGPUソフトウェアスタックにおける体系的な弱点を浮き彫りにした。

米国のAIインフラストラクチャセキュリティ市場は29.9億ドルに達し、年平均成長率22.8%で拡大している。⁷ 2025年には、AI活用型の攻撃がすべての侵害の16%を占めた。⁸ この投資は、GPUインフラストラクチャが一般的なデータセンター保護を超えた専門的なセキュリティ対策を必要とするという認識の高まりを反映している。

GPUセキュリティはCPUセキュリティとは根本的に異なる。GPUは処理中に非常に機密性の高いデータを一時的に扱う。CPUとは異なり、GPUは特にマルチテナント環境において、常に堅牢なメモリ分離を備えているわけではない。⁹ プロセス終了時にメモリが適切にクリアされない場合、攻撃者は他のユーザーのワークロードから残留データを取得できる可能性がある。¹⁰ 現代のGPUの共有アーキテクチャは、競合ベースのサイドチャネルを可能にし、攻撃者はそれを通じて機密情報を推測したり、同じ場所にあるワークロードを妨害したり、隠密通信チャネルを確立したりできる。¹¹

Multi-Instance GPUによるハードウェア分離

NVIDIAのMulti-Instance GPU技術は、高価値なGPUハードウェア上で安全なマルチテナンシーを可能にするハードウェアレベルの分離を提供する。¹² Ampereアーキテクチャ以降、MIGは1つのGPUをCUDAアプリケーション用に最大7つの独立したインスタンスに分割できる。¹³ BlackwellおよびHopper GPUはMIG機能を拡張し、仮想化環境でマルチテナント・マルチユーザー構成を実現し、ハードウェアおよびハイパーバイザーレベルでコンフィデンシャルコンピューティングにより各インスタンスを保護する。¹⁴

このアーキテクチャは真のハードウェア分離を提供する。各MIGパーティションのプロセッサは、メモリシステム全体を通じて分離された独立したパスを持つ。¹⁵ オンチップクロスバーポート、L2キャッシュバンク、メモリコントローラ、DRAMアドレスバスは、個々のインスタンスに固有に割り当てられる。¹⁶ あるテナントが別のテナントのGPUメモリを読み取ったり上書きしたりすることはできない。フォールト分離により、あるユーザーのクラッシュしたコードがGPU全体に影響したり、他のユーザーに影響を与えたりすることを防ぐ。¹⁷

MIGはLinuxオペレーティングシステム、Docker Engineを使用したコンテナ化ワークロード、Kubernetesによるオーケストレーション、およびRed Hat VirtualizationやVMware vSphereなどのハイパーバイザーによる仮想化環境をサポートする。¹⁸ 幅広いプラットフォームサポートにより、組織は既存のインフラストラクチャ内でGPU分離を実装でき、大規模なアーキテクチャ変更は不要である。

MIGの制限は粒度にある。現在のハードウェアでは7分割が最大の細分化である。より細かい粒度の共有を必要とする組織や、古いGPU世代をサポートする組織は、代替アプローチを検討する必要がある。

vGPUとタイムスライシングの代替手段

NVIDIA仮想GPUソフトウェアは、完全な入出力メモリ管理ユニット保護を持つ複数の仮想マシンが、単一の物理GPUに同時にアクセスすることを可能にする。¹⁹ セキュリティ以外にも、vGPUはライブマイグレーションによるVM管理や、混在するVDIおよびコンピュートワークロードの実行を可能にする。²⁰ ハイパーバイザーはGPUを仮想化し、複数のVMにスライスを割り当て、各VMはそのワークロード用にGPUの仮想化された部分を認識する。

タイムスライシングは異なる共有モデルを提供する。システム管理者がGPUのレプリカセットを定義し、それぞれがKubernetesでワークロードを実行するPodに独立して渡される。²¹ MIGとは異なり、タイムスライシングはレプリカ間のメモリまたはフォールト分離を提供しない。²² 1つのタスクがクラッシュしたり誤動作したりすると、GPUを共有している他のタスクに影響を与える可能性がある。²³ このトレードオフは分離よりもアクセスを優先する:タイムスライシングはより多くのユーザーによる共有を可能にし、MIGをサポートしない古いGPU世代へのアクセスを提供する。²⁴

セキュリティへの影響を明確に理解する必要がある。タイムスライシングは、開発環境、テスト、テナント間で信頼関係があるワークロード、またはデータの機密性がハードウェア分離を必要としないワークロードに適している。マルチテナントセキュリティ要件を持つ本番環境では、タイムスライシングよりもMIGまたは専用GPUを優先すべきである。

ハイブリッドアプローチは両方の技術を組み合わせる。組織はGPUをグループ分離を確保するMIGインスタンスに分割し、各インスタンス内でタイムスライシングスケジューラを実行できる。²⁵ Kubernetesクラスタでは、名前空間ごとにMIGスライスを割り当て、各スライス内でジョブをタイムシェアすることで、セキュリティとコスト効率のバランスを取る。²⁶

GPUにおけるコンフィデンシャルコンピューティング

NVIDIA H100 Tensor Core GPUは、オンダイのハードウェアRoot of Trustに基づくハードウェアベースのトラステッド実行環境により、GPUにコンフィデンシャルコンピューティングを導入した。²⁷ H100以前は、コンフィデンシャルコンピューティング機能はAMDおよびIntelのCPUにのみ存在していた。²⁸ H100は、機密情報を含むAIの学習および推論ワークロードにデータ保護を提供する。²⁹

技術アーキテクチャは、CPUのコンフィデンシャル仮想マシン機能に基づいている。GPUソリューションは、CPUのAMD SEV-SNPまたはIntel TDXによって有効化されるコンフィデンシャルVMトラステッド実行環境に依存する。³⁰ PCIeファイアウォールは、ほとんどのレジスタとすべてのGPU保護メモリへのCPUアクセスをブロックする。NVLinkファイアウォールは、保護メモリへのピアGPUアクセスをブロックする。³¹ CVMとGPU間の通信は、ホストシステムから保護するためにセッションキーを使用したAES-GCM暗号化を使用する。³²

H100のDMAエンジンは、CPUとGPU間のデータ転送にAES GCM 256暗号化をサポートする。³³ コンフィデンシャルコンピューティングモードのGPUは、内部メモリへの直接アクセスをブロックし、サイドチャネル攻撃を可能にする可能性のあるパフォーマンスカウンタを無効にする。³⁴ このアーキテクチャは以前のセキュリティ機能から進化した:Volta以降のファームウェアのAES認証、TuringおよびAmpere以降の暗号化ファームウェアと失効、そして現在はHopperでのハードウェアRoot of Trustによる完全な測定済み認証済みブートである。³⁵

Microsoft Azureは、NVIDIA H100 GPUを搭載したコンフィデンシャルVMをプレビューで提供しており、Stable Diffusionや大規模言語モデルなどのモデルの学習、ファインチューニング、サービングをコンフィデンシャルコンピューティング保護付きで実行できる。³⁶ Blackwellアーキテクチャは、LLMでも暗号化モデルと非暗号化モデルの実行でほぼ同一のパフォーマンスを実現し、コンフィデンシャルAIをさらに進化させている。³⁷

KubernetesにおけるGPUセキュリティの考慮事項

Kubernetesの名前空間分離は、マルチテナントGPUスケジューリングには十分なセキュリティを提供しない。³⁸ GPUを使用したベアメタルKubernetesでAIワークロードを実行する組織は、追加のコントロールを実装する必要がある。NVIDIA GPU Operatorはタイムスライシングとmig設定を可能にするが、セキュリティは適切な設定とハードニングに依存する。

2024年9月のNVIDIA Container Toolkitセキュリティ速報により、緊急のアップグレードが促された。組織はContainer Toolkit v1.16.2以上、またはGPU Operator v24.6.2以上を実行すべきである。³⁹ これらの脆弱性は、コンテナエスケープ攻撃が上位レベルで適切に設定されていてもGPU分離を危険にさらす可能性があることを示した。

サードパーティソリューションは、ネイティブのKubernetes GPU管理のギャップに対処する。Volcanoは、高性能ワークロード向けの優先度と公平性をきめ細かく制御できるクラウドネイティブなバッチスケジューラを提供する。⁴⁰ 現在NVIDIAの一部となったRun:aiは、マルチテナント環境向けに設計された機能を持ち、AIワークロード向けにGPUリソースを管理・最適化する。⁴¹ vCluster Labsは、KubeCon North America 2025でAI向けInfrastructure Tenancy Platformを発表し、NVIDIA GPUインフラストラクチャ向けのKubernetesネイティブな基盤を提供した。⁴²

vClusterを使用する組織は、動的なマルチテナントオーケストレーションにより、GPU使用率の40%向上とインフラコストの60%削減を報告している。⁴³ この効率化の成果は、適切なマルチテナントアーキテクチャが専用GPU割り当てと比較してセキュリティと経済性の両方を向上させることを示している。

サイドチャネル攻撃と新たな脅威

GPUメモリ攻撃は、マルチテナント環境における共有アーキテクチャを悪用して、データの機密性を侵害し、パフォーマンスを低下させる。⁴⁴ 競合ベースのサイドチャネルを使用する攻撃者は、同じ場所にあるワークロードから機密情報を推測できる。⁴⁵ GPUメモリ攻撃は、テナント間の情報漏洩や隠密チャネルを促進するために共有メモリを標的にする。⁴⁶

以前はCPUメモリに影響することが知られていたRowhammerハードウェア攻撃が、GDDRメモリを搭載したGPUを危険にさらし、AIモデルの精度に深刻な損失を引き起こす。⁴⁷ この攻撃はGPUの並列性を悪用してビットフリップを誘発し、攻撃者がターゲットワークロードと同じ場所に配置される可能性があるクラウド環境で特にリスクをもたらす。⁴⁸

仮想化GPU環境における主なリスクは、仮想マシン間攻撃である。⁴⁹ 同じ物理GPU上でワークロードを実行する複数のテナントは、分離メカニズムの欠陥がスヌーピングを可能にする機会を作り出す。これはクラウドセキュリティモデルを根本的に破壊し、データの機密性に深刻なリスクをもたらす。⁵⁰

緩和策には、機密性の高いワークロードと機密性の低いワークロードを同じGPU上で実行しない強力なワークロード分離、共有キャッシュへの露出を減らすキャッシュパーティショニング、タイミングベースの攻撃を複雑にするランダム化スケジューリングが含まれる。⁵¹ Single Root I/O Virtualizationまたは同様のセキュリティ強化仮想化技術は追加の保護を提供する。⁵² コンフィデンシャルGPUは次のフロンティアを代表し、GPUメモリと実行フローにTEEのような保護を拡張する。⁵³

エンタープライズセキュリティのベストプラクティス

共有GPUインフラストラクチャを展開する組織は、リスク許容度と規制要件に適したセキュリティコントロールを実装すべきである。

機密性の高いワークロードについては、GPUを共有しないシングルテナントオプションがサイドチャネル攻撃のリスクを軽減し、コンプライアンス要件に適合する。⁵⁴ 一部の認証では、特定のデータタイプに対して専用ハードウェアが必要である。⁵⁵ 専用GPUのコストプレミアムは、セキュリティ要件によって正当化される場合がある。

ドライバーとファームウェアのセキュリティには、最新のセキュリティパッチによる一貫した更新が必要である。⁵⁶ NVIDIAは、定期メンテナンスウィンドウ中に四半期ごとのファームウェア更新とドライバー検証を推奨している。⁵⁷ 2025年1月の脆弱性公開は、タイムリーなパッチ適用の重要性を示している。

セッション間のメモリハイジーンはデータ漏洩を防ぐ。セッション間でGPUメモリをゼロクリアすることで、最小限のパフォーマンス

[翻訳のためコンテンツを省略]

お見積り依頼_

プロジェクトについてお聞かせください。72時間以内にご回答いたします。

> TRANSMISSION_COMPLETE

リクエストを受信しました_

お問い合わせありがとうございます。弊社チームがリクエストを確認し、72時間以内に回答いたします。

QUEUED FOR PROCESSING