Infraestrutura Mixture of Experts: Escalando Modelos Esparsos para IA em Produção
MoE agora alimenta mais de 60% dos lançamentos de modelos de IA open-source em 2025. Os 10 principais modelos no ranking da Artificial Analysis (DeepSeek-R1, Kimi K2, Mistral Large 3) todos usam MoE. NVIDIA GB200 NVL72 entrega um salto de 10x em performance para MoE versus H200. Wide Expert Parallelism alcançando ganhos de 1,8x de throughput por GPU. vLLM e TensorRT-LLM adicionando otimizações nativas para MoE. DeepSeek-V3 atingindo 250 TFLOPs/seg/GPU em 256 H100s. Memória permanece a principal restrição—DeepSeek-R1 completo requer 13.719 GB/s de largura de banda.
None