AI向けディスアグリゲーテッドコンピューティング:コンポーザブルインフラストラクチャアーキテクチャ
2025年12月11日更新
2025年12月アップデート: CXLメモリプーリングは、LLM推論において200G RDMAと比較して3.8倍、100G RDMAと比較して6.5倍の高速化を達成。Jensen Huang氏は次のように述べています:「アクセラレータをデータセンター内のどこにでも配置し、特定のワークロードに合わせて構成・再構成できるようになった時—それは革命です。」コンポーザブルインフラストラクチャは、固定されたサーバー比率を打破し、AIワークロードの正確な要件に動的に対応します。
CXLメモリプーリングは、大規模言語モデル推論を実行するGPUサーバー間でメモリを共有する際、200G RDMAと比較して3.8倍、100G RDMAと比較して6.5倍の高速化を達成しています。[^1] このデモンストレーションでは、NVIDIA H100 GPUを搭載した2台のサーバーでOPT-6.7Bモデルを実行し、共有CXLメモリが従来のネットワーキングを超えてAIワークロードを加速させることを示しました。NVIDIAのJensen Huang氏が指摘したように:「統合サーバーを分解でき、アクセラレータをデータセンター内のどこにでも配置し、その特定のワークロードに合わせてデータセンターを構成・再構成できるようになった時—それは革命です。」[^2]
コンポーザブルインフラストラクチャは、コンピュート、ストレージ、ネットワーキングリソースが、ソフトウェア定義のコントロールプレーンを通じて独立して管理される抽象化されたプールとして存在するアーキテクチャアプローチを表します。[^3] CPU、メモリ、ストレージ、ネットワーキングを特定のサーバーに結合する従来のアーキテクチャとは異なり、コンポーザブルインフラストラクチャはハードウェアリソースをワークロード間で動的に割り当てられる柔軟なプールとして扱います。このアプローチは、AIインフラストラクチャのリソース利用率とデプロイメントの柔軟性の劇的な改善を約束します。
サーバー境界の打破
従来のサーバーは、CPU、メモリ、GPU、ストレージの固定比率をパッケージ化しています。AIワークロードがこれらの固定比率に一致することはほとんどありません。トレーニングジョブは、比較的控えめなCPU要件で最大のGPU密度を要求します。推論ワークロードは、標準構成が提供するよりも多くのGPUあたりメモリを必要とする場合があります。前処理パイプラインは、GPUなしでCPUとストレージ容量を必要とします。
コンポーザブルインフラストラクチャはサーバー境界を打破し、組織が正確なワークロード要件に一致する仮想システムを組み立てることを可能にします。[^4] トレーニングワークロードは、8つのGPU、最小限のCPU、高帯域幅ストレージの構成を受け取ります。推論ワークロードは、拡張メモリを持つ2つのGPUを受け取ります。同じ物理リソースが、ハードウェアの再構成なしに異なる時間に両方のワークロードにサービスを提供します。
ディスアグリゲーションモデル
ディスアグリゲーテッドアーキテクチャは、物理ノードをコンピュートノード、メモリノード、GPUノード、ストレージノードなどの専用リソースタイプに分離します。[^5] 高速ファブリックがノードを接続し、ソフトウェアが分散した物理リソースから論理システムを構成できるようにします。構成は物理的な再配線なしにソフトウェアで行われます。
リソースは特定のワークロードを待ってアイドル状態になることがなくなります。GPUノードはピーク時にトレーニングジョブにサービスを提供し、夜間は推論ジョブにサービスを提供します。メモリノードは、すべてのサーバーをオーバープロビジョニングすることなく、メモリ集約型ワークロードの容量を拡張します。この柔軟性により、総ハードウェア要件を削減しながら利用率が向上します。
CXLがメモリプーリングを実現
Compute Express Link(CXL)は、実用的なメモリディスアグリゲーションを可能にするキャッシュコヒーレントインターコネクトを提供します。[^6] CXLは、NVMeの約100マイクロ秒、ストレージベースのメモリ共有の10ミリ秒以上と比較して、200〜500ナノ秒範囲のレイテンシでメモリセマンティックアクセスを提供します。[^7] このレイテンシの改善により、コンピュートノード間で真に動的できめ細かなメモリ共有が可能になります。
CXLメモリプーリングの仕組み
CXLメモリプールは、組織がAIインフラストラクチャを構築する方法を再形成する、高速でディスアグリゲートされたメモリの新しい層を作成します。[^8] CPUノードは、CXLファブリックがコヒーレンシとデータ移動を透過的に処理しながら、ローカルに接続されているかのようにプールされたメモリにアクセスします。アプリケーションは変更なしに拡張されたメモリ容量を認識します。
CXL Memory Boxは、複数のGPUサーバー間でメモリプーリングを可能にし、個々のサーバーが提供するよりも大きなメモリプールへのアクセスを可能にします。[^9] ローカルメモリ容量を超えるデータセットを処理するAIワークロードは、従来のリモートメモリアクセスのパフォーマンスペナルティなしにプールされたメモリの恩恵を受けます。このアプローチにより、個々のサーバーをアップグレードすることなく、より大きなバッチサイズとより長いコンテキストウィンドウが可能になります。
メモリを超えて:完全なリソースプーリング
CXLはメモリプーリング以上のことを可能にします。この標準は、CPU、メモリバッファ、アクセラレータ間のコンポーザブル接続をサポートします。[^10] GPU、FPGA、DPU、その他のアクセラレータは、ワークロード間での動的割り当てのためにCXLファブリックを通じて接続されます。
このビジョンは、リソースが他のリソースに恒久的に結合されない完全なリソースディスアグリゲーションにまで拡張されます。組織は、ワークロードごとのピーク需要ではなく、総需要に合わせてサイズ設定されたリソースプールを構築します。ソフトウェアオーケストレーションは、各ワークロードに適切なリソースをリアルタイムで構成します。
業界ソリューション
いくつかのベンダーが、AIワークロード要件に対応するコンポーザブルインフラストラクチャソリューションを提供しています。
Liqidコンポーザブルプラットフォーム
Liqidは、最大100TBのディスアグリゲートされたコンポーザブルメモリをサポートするCXL 2.0メモリプーリングを備えたコンポーザブルGPUサーバーをリリースしました。[^11] このプラットフォームには、NVIDIA H200、RTX Pro 6000、Intel Gaudi 3アクセラレータを含む600W GPUをサポートするEX-5410P 10スロットGPUボックスが含まれています。Matrixソフトウェアは、ハードウェアプラットフォーム全体でリソース構成をオーケストレートします。
Liqidのアプローチは、顧客がコンポーネントからディスアグリゲートされたシステムを設計することを要求するのではなく、コンポーザビリティを統合ソリューションにパッケージ化しています。組織は、ファブリック設計とオーケストレーションソフトウェア開発の専門知識を構築することなく、コンポーザビリティの利点を得ることができます。
IBM Researchコンポーザブルシステム
IBM Researchは、高速・低レイテンシファブリックを介して完全にコンポーザブルなシステムを構築するためのCXL標準を探求しています。[^12] 彼らのアーキテクチャでは、リソースはサーバーに静的にグループ化されるのではなく、ネットワークファブリックを通じて接続された大規模なプールの一部として存在します。コンポーザブルリソースはグループ化されて、特定のワークロード要件に一致するサーバー抽象化を再作成します。
この研究プログラムは、コンポーザブルAIインフラストラクチャのファブリックトポロジー設計、レイテンシ最適化、ソフトウェアオーケストレーションなどの課題に取り組んでいます。この研究は、本番規模のコンポーザブルシステムがどのように動作すべきかの理解を進めています。
GigaIOとMicrochipのコラボレーション
GigaIOとMicrochipは、PCIeとCXL技術を組み合わせたクラウドクラスのコンポーザブルディスアグリゲートインフラストラクチャを開発しました。[^13] このアプローチは、直接接続されたハードウェアのパフォーマンス特性を持つコンポーザブルリソースの柔軟性を必要とするデータセンターを対象としています。
アーキテクチャの考慮事項
コンポーザブルインフラストラクチャを実装するには、ファブリック設計、オーケストレーションソフトウェア、ワークロード管理にまたがるアーキテクチャ上の決定が必要です。
ファブリックトポロジー
インターコネクトファブリックは、ディスアグリゲートされたリソース間で達成可能なレイテンシと帯域幅を決定します。CXLファブリックは、許容範囲内のレイテンシを維持しながら、メモリ速度のアクセスパターンに十分な帯域幅を提供する必要があります。ファブリックトポロジーはパフォーマンスとコストの両方に影響します。
スイッチベースのトポロジーは柔軟性を提供しますが、直接接続と比較してレイテンシが増加します。トポロジーの複雑さとレイテンシ予算のトレードオフは、特定のワークロード要件によって異なります。メモリ集約型ワークロードは、ストレージ集約型ワークロードよりも低いレイテンシを要求します。
オーケストレーション要件
ソフトウェアオーケストレーションは、リソース構成を管理し、割り当て要求を処理し、リソース状態を追跡し、構成間の分離を維持します。オーケストレーション層は、ボトルネックにならずに動的なワークロード変更をサポートするのに十分な速さで応答する必要があります。
Kubernetes統合により、コンポーザブルリソースは使い慣れたオーケストレーションプリミティブを使用してコンテナ化されたAIワークロードにサービスを提供できます。GPU Operatorと同様の拡張機能がアクセラレータリソースを管理し、コンポーザビリティ拡張機能が動的なGPUプール割り当てを可能にします。
障害ドメインの考慮事項
ディスアグリゲーションは障害ドメインの特性を変更します。メモリノードの障害は、単一のサーバーではなく、そのメモリを使用するすべての構成に影響を与えます。コンポーネント障害の影響範囲は、統合サーバーアーキテクチャと比較して拡大します。
冗長性戦略は、ディスアグリゲートされた障害モードを考慮する必要があります。メモリプールには物理ノード間での冗長性が必要です。構成ポリシーは、共有リソースに重要なワークロードを集中させることを避けるべきです。監視は、個々のサーバーではなくファブリック全体の健全性を追跡する必要があります。
インフラストラクチャデプロイメントの専門知識
コンポーザブルインフラストラクチャの複雑さは、従来のサーバーデプロイメントを超えています。ファブリックのインストール、パフォーマンス検証、オーケストレーション構成には、ほとんどの組織が社内で持っていない専門知識が必要です。
Introlの550人のフィールドエンジニアは、コンポーザブルおよびディスアグリゲートシステムを含む高度なインフラストラクチャアーキテクチャを実装する組織をサポートしています。[^14] 同社は2025年Inc. 5000で14位にランクインし、3年間で9,594%の成長を達成し、プロフェッショナルインフラストラクチャサービスへの需要を反映しています。[^15] コンポーザブルデプロイメントは、高速ファブリックのインストールと検証の経験から恩恵を受けます。
257のグローバルロケーションにインフラストラクチャをデプロイするには、地理に関係なく一貫したプラクティスが必要です。[^16] Introlは、100,000 GPUに達するデプロイメントと40,000マイル以上の光ファイバーネットワークインフラストラクチャを管理し、コンポーザブルAIインフラストラクチャを構築する組織に運用規模を提供しています。[^17]
コンポーザブルな未来
ディスアグリゲートされたリソース共有アーキテクチャは、AI、機械学習、その他のデータ集約型技術に必要なペタバイトのデータを処理するためのインフラストラクチャを可能にします。[^18] 標準が成熟し、ベンダーソリューションが普及するにつれて、CXLの採用は加速するでしょう。
AIインフラストラクチャ投資を計画している組織は、ワークロードの変動性により固定比率サーバーが非効率になるデプロイメントについて、コンポーザブルアーキテクチャを評価すべきです。柔軟性の利点はスケールとともに複合します:より大規模なデプロイメントは、リソースプーリングからより良い利用率向上を達成します。
統合型からコンポーザブルインフラストラクチャへの移行は、データセンターアーキテクチャの根本的な転換を表しています。コンポーザブルデプロイメントをマスターした組織は、コスト効率とデプロイメントの俊敏性に変換される柔軟性の優位性を得ます。Jensen Huang氏が説明した革命は、ディスアグリゲーションがインフラストラクチャ経済学をどのように変えるかを理解することから始まります。
重要なポイント
インフラストラクチャアーキテクト向け: - CXLメモリプーリングは、LLM推論ワークロードで200G RDMAと比較して3.8倍、100G RDMAと比較して6.5倍の高速化を達成 - CXLレイテンシ:200-500nsのメモリセマンティックアクセス vs NVMeの約100μs vs ストレージベース共有の10ms以上 - ディスアグリゲーションが可能にすること:同じハードウェアプールから、トレーニング用に8 GPU構成、推論用に2 GPU + 拡張メモリ
調達チーム向け: - Liqid EX-5410P:100TB CXLメモリプーリングを備えた600W GPU(H200、RTX Pro 6000、Gaudi 3)をサポートする10スロットGPUボックス - 従来の固定比率サーバーはリソースを浪費:トレーニングは控えめなCPUで最大GPUが必要;推論はGPUあたりより多くのメモリが必要 - コンポーザブルはワークロード間でリソースをプールすることで総ハードウェアを削減;GPUノードは昼間トレーニング、夜間推論にサービス
プラットフォームエンジニア向け: - IBM Researchが高速・低レイテンシファブリックを介した完全コンポーザブルシステムのためのCXLを探求 - GigaIO/Microchipコラボレーション:PCIeとCXL技術を組み合わせたクラウドクラスのコンポーザブル - GPU Operator拡張機能を通じたKubernetes統合により、使い慣れたオーケストレーションでコンポーザブルリソースを実現
運用チーム向け: - 障害ドメインの変化:メモリノードの障害は、統合アーキテクチャの単一サーバーではなく、それを使用するすべての構成に影響 - 冗長性戦略はディスアグリゲートされた障害モードを考慮する必要あり;共有リソースへのワークロード集中を回避 - ファブリック健全性監視が個々のサーバー監視に置き換わる;構成ポリシーが防止
[翻訳のため内容を省略]