Mixture of Experts インフラストラクチャ:本番AI向けスパースモデルのスケーリング
2025年、MoEはオープンソースAIモデルリリースの60%以上を支えています。Artificial Analysisリーダーボードのトップ10モデル(DeepSeek-R1、Kimi K2、Mistral Large 3)はすべてMoEを採用。NVIDIA GB200 NVL72はH200比でMoE性能を10倍向上。Wide Expert Parallelismで1.8倍のGPUあたりスループット向上を達成。vLLMとTensorRT-LLMがネイティブMoE最適化を追加。DeepSeek-V3は256基のH100で250 TFLOPs/sec/GPUを達成。メモリが主要な制約—フルDeepSeek-R1には13,719 GB/sの帯域幅が必要。
None