Armazenamento Otimizado para IA: A Pilha Tecnológica que Alimenta Clusters de GPU
Atualizado em 11 de dezembro de 2025
Atualização de dezembro de 2025: O mercado de armazenamento para IA está crescendo de US$ 36B (2025) para US$ 322B até 2035. O DDN EXAScaler está entregando 4TB/s ao supercomputador NVIDIA Eos. O GPUDirect Storage permite transferências diretas de mais de 40 GB/s; a tecnologia SCADA da NVIDIA de novembro de 2025 elimina o último envolvimento da CPU. O NVMe-oF cresce a uma CAGR de 27,8% à medida que as organizações estendem a latência de nível PCIe através das redes.
Gargalos de armazenamento deixam GPUs ociosas. Uma única implementação do DDN EXAScaler entrega quatro terabytes por segundo ao supercomputador Eos da NVIDIA, alimentando 18,4 exaflops de desempenho de IA a partir de 576 sistemas DGX H100.¹ Quando GPUs custam dezenas de milhares de dólares por unidade e clusters de treinamento chegam a milhares de aceleradores, uma infraestrutura de armazenamento que não consegue manter a vazão de dados desperdiça milhões em recursos computacionais. O mercado de armazenamento alimentado por IA reflete essa urgência, projetado para crescer de US$ 36,28 bilhões em 2025 para US$ 321,93 bilhões até 2035, a uma taxa de crescimento anual composta de 24,4%.²
Cargas de trabalho modernas de IA exigem características de desempenho de armazenamento fundamentalmente diferentes das aplicações empresariais tradicionais. Conjuntos de dados de treinamento medidos em petabytes requerem vazão sequencial sustentada. Operações de checkpointing devem ser concluídas em segundos para minimizar a interrupção do treinamento. Cargas de trabalho de inferência geram padrões de I/O imprevisíveis, misturando pequenas leituras aleatórias com rajadas de escrita. Organizações que implantam infraestrutura de IA em escala agora avaliam sistemas de armazenamento com base em métricas de utilização de GPU em vez de benchmarks tradicionais de IOPS.
NVMe-oF estende o desempenho flash através da rede
O NVMe over Fabrics (NVMe-oF) permite cargas de trabalho de alto desempenho em escala, fornecendo compartilhamento de baixa latência de SSDs NVMe através de fabrics Ethernet ou InfiniBand de alto desempenho.³ O protocolo entrega desempenho similar ao de SSDs NVMe conectados localmente, permitindo que as organizações escalem recursos de armazenamento independentemente da alocação de computação, GPU e memória.⁴
Protocolos de armazenamento tradicionais adicionam milissegundos de latência através de pilhas de software otimizadas para discos giratórios. O NVMe-oF elimina essas camadas, alcançando latências na casa das dezenas de microssegundos mesmo quando escalado para milhares de nós usando transportes RDMA.⁵ Transportes TCP permitem implantação sobre Ethernet commodity enquanto ainda entregam melhorias substanciais de desempenho em comparação com protocolos legados NFS ou iSCSI.⁶
Para infraestrutura de IA, o NVMe-oF importa onde cada microssegundo conta: pipelines de treinamento onde GPUs ficam ociosas esperando dados, operações de checkpoint que devem ser concluídas dentro de janelas de tempo estritas, e cargas de trabalho de inferência que exigem tempos de resposta inferiores a milissegundos.⁷ Benchmarks publicados mostram 351 GiB por segundo de leituras sequenciais com integração GPUDirect Storage, com reduções de latência esperadas para elevar a utilização efetiva de GPU de 2 a 3 vezes em configurações limitadas por I/O.⁸
A adoção na indústria acelera ao longo de 2025. Western Digital e Ingrasys estabeleceram uma parceria em maio de 2025 combinando expertise em servidores GPU com capacidades de NVMe-oF e armazenamento fabric-attached.⁹ A Hitachi Vantara lançou o Virtual Storage Platform One Block High End em novembro de 2025, uma solução de armazenamento em bloco NVMe all-flash de próxima geração projetada para cargas de trabalho de missão crítica e IA.¹⁰ Sistemas NVMe-oF projetam uma taxa de crescimento anual composta de 27,80% à medida que as organizações estendem a latência de nível PCIe através das redes para aumentar a utilização de GPU em clusters de IA distribuídos.¹¹
GPUDirect Storage elimina o gargalo da CPU
O GPUDirect Storage da NVIDIA permite transferência direta de dados do armazenamento para a memória da GPU sem passar pela CPU e memória do sistema.¹² A tecnologia remove uma barreira fundamental de desempenho em pipelines de treinamento de IA onde grandes conjuntos de dados devem fluir continuamente para a memória da GPU para processamento.
O treinamento de deep learning envolve operações frequentes de checkpointing onde os pesos da rede treinada são salvos em disco em vários estágios do treinamento. Por definição, o checkpointing está no caminho crítico de I/O.¹³ Um modelo de 100 bilhões de parâmetros gera aproximadamente 800GB a 1,6TB por checkpoint, e o treinamento em escala com 16.000 aceleradores requer 155 checkpoints diários.¹⁴ Para manter a sobrecarga abaixo de 5%, as operações de checkpoint devem ser concluídas em menos de 28 segundos nessa escala, reduzindo para 4,4 segundos para clusters de 100.000 aceleradores.¹⁵
O GPUDirect Storage atende a esses requisitos permitindo taxas de transferência direta de mais de 40 GBps do armazenamento para a memória da GPU.¹⁶ A arquitetura de referência Lenovo/NVIDIA entrega 20 GBps por nó com capacidades de escalonamento linear, suportando funções de treinamento de LLM, inferência e checkpointing.¹⁷ A tecnologia SCADA da NVIDIA de novembro de 2025 leva o GPUDirect ainda mais longe, descarregando até mesmo o caminho de controle de armazenamento para a GPU, eliminando o último envolvimento da CPU nas operações de armazenamento.¹⁸
Implementações de hardware proliferam por todo o ecossistema. O adaptador HighPoint Rocker 7638D permite fluxos de trabalho GPUDirect Storage com largura de banda de até 64 GB/s e latência previsível, particularmente útil para conjuntos de dados de treinamento em larga escala.¹⁹ Fornecedores de armazenamento incluindo DDN, Pure Storage, WEKA e VAST Data certificam suas plataformas para integração GPUDirect com sistemas NVIDIA DGX e HGX.
Sistemas de arquivos paralelos impulsionam a IA em escala exa
Sistemas de arquivos paralelos distribuem dados e metadados através de múltiplos servidores, permitindo vazão agregada que escala com a contagem de nós de armazenamento. Três plataformas dominam implantações de IA e HPC: Lustre, IBM Storage Scale (anteriormente GPFS) e WekaFS.
O Lustre comanda 41% de participação de mercado em sistemas de arquivos paralelos, seguido pelo IBM Storage Scale com 17% e WEKA com 6%.²⁰ Cada arquitetura otimiza para diferentes características de carga de trabalho.
Lustre se destaca em ambientes dominados por grandes operações sequenciais, incluindo simulações científicas e pipelines de renderização de vídeo.²¹ A arquitetura prioriza largura de banda sustentada sobre manipulação de arquivos pequenos, alcançando escalonamento de desempenho quase linear com Object Storage Servers (OSS) adicionais para cargas de trabalho intensivas em largura de banda.²² O Lustre tem melhor desempenho com fabrics InfiniBand e alimenta a maioria dos supercomputadores do mundo. O produto EXAScaler da DDN empacota o Lustre com otimizações de desempenho e capacidades de gerenciamento empresarial.
IBM Storage Scale fornece desempenho superior em operações intensivas de metadados.²³ A abordagem de metadados distribuídos cria arquivos pequenos, modifica atributos e estrutura diretórios complexos mais eficientemente do que a arquitetura de servidor de metadados centralizado do Lustre.²⁴ O Storage Scale entrega desempenho consistente através de padrões variados de I/O e integra-se às arquiteturas de referência NVIDIA DGX SuperPOD com suporte a GPUDirect.²⁵
WekaFS mira cargas de trabalho de IA/ML especificamente, projetado desde o início para SSDs NVMe em vez de adaptado de arquiteturas de discos giratórios.²⁶ Os metadados distribuídos do WEKA eliminam o gargalo do servidor de metadados que restringe sistemas de arquivos paralelos legados.²⁷ Benchmarks mostram o WekaFS superando o FSx for Lustre em 300% ou mais em capacidades similares, com latência de I/O às vezes inferior a 30% das soluções concorrentes.²⁸ O WekaFS suporta protocolos pNFS, SMB e S3, permitindo padrões de acesso multiprotocolo comuns em pipelines de IA.
DDN, Pure Storage e VAST Data lideram o cenário de fornecedores
Três fornecedores de armazenamento dominam implantações de infraestrutura de IA com produtos especificamente arquitetados para cargas de trabalho de clusters de GPU.
DDN alimenta os supercomputadores de IA de maior destaque. O sistema Eos da NVIDIA incorpora 576 sistemas DGX H100 com 48 appliances DDN A³I entregando 12 petabytes de armazenamento a quatro terabytes por segundo de vazão em menos de três racks usando apenas 100 kW de energia.²⁹ A DDN anunciou certificação Blackwell em março de 2025, otimizando EXAScaler e Infinia 2.0 para DGX SuperPOD com sistemas DGX GB200 e DGX B200.³⁰ Um único DDN AI400X2-Turbo alcança 10x o requisito mínimo de 1 GBps/GPU para operações de leitura e escrita pareado com DGX B200, entregando até 96% de utilização de rede.³¹ A parceria da DDN com a Yotta para a iniciativa de IA soberana da Índia implantou sistemas EXAScaler AI400X3 alimentando 8.000 GPUs NVIDIA B200.³²
Pure Storage introduziu o FlashBlade//EXA em março de 2025, projetando mais de 10 terabytes por segundo de desempenho de leitura em um único namespace.³³ A plataforma mira clientes executando entre uma e dezenas de milhares de GPUs requerendo vazão de armazenamento de 1 TB/seg a 50 TB/seg.³⁴ A arquitetura desagregada do FlashBlade//EXA escala dados e metadados independentemente usando nós de dados de terceiros, permitindo desempenho paralelo massivo.³⁵ A Pure Storage alcançou certificação FlashBlade//S500 com NVIDIA DGX SuperPOD, integrando o design de referência NVIDIA AI Data Platform com suporte a GPUDirect Storage.³⁶
VAST Data alcançou US$ 2 bilhões em reservas cumulativas de software até maio de 2025.³⁷ A arquitetura DASE (Distributed and Shared Everything) entrega paralelismo revolucionário para clusters de mais de 100k GPUs em terabytes por segundo, eliminando gargalos de dados de IA.³⁸ A VAST afirma mais de 50% menor custo total de propriedade para cargas de trabalho de IA exigentes através de eficiência radical.³⁹ A plataforma suporta exabytes de armazenamento all-flash com acesso por NFS, SMB, S3 e Kubernetes CSI padrão da indústria.⁴⁰ A Microsoft Azure anunciou integração com o AI Operating System da VAST em novembro de 2025 para estender pipelines de IA on-premises para infraestrutura de nuvem acelerada por GPU.⁴¹
Arquiteturas de checkpointing equilibram velocidade e confiabilidade
O checkpointing de modelos cria os requisitos de armazenamento mais exigentes no treinamento de IA. Os tamanhos de checkpoint escalam com a contagem de parâmetros: aproximadamente 8 a 12 bytes por parâmetro para treinamento de precisão mista significa que um modelo de 100 bilhões de parâmetros gera 800GB a 1,2TB por checkpoint.⁴² Os requisitos de frequência se intensificam com a escala do cluster, chegando a checkpoints a cada 1,5 minutos para implantações de 100.000 aceleradores.⁴³
Sistemas de treinamento modernos empregam arquiteturas de checkpointing em camadas. Checkpoints de camada rápida escrevem para armazenamento NVMe local do nó a cada poucos minutos. Checkpoints de camada intermediária propagam para sistemas de arquivos compartilhados a cada 30 minutos. Checkpoints duráveis alcançam armazenamento de objetos como Amazon S3 apenas a cada poucas horas.⁴⁴ Checkpointing assíncrono permite que o treinamento continue enquanto processos em segundo plano drenam o armazenamento local para camadas globais.⁴⁵
Os requisitos de largura de banda de checkpoint global permanecem surpreendentemente modestos mesmo em escala. A análise de 85.000 checkpoints em sistemas do mundo real encontrou largura de banda tipicamente bem abaixo de 1 TB/s mesmo para modelos de trilhões de parâmetros.⁴⁶ A largura de banda de checkpoint por GPU diminui à medida que o tamanho do modelo cresce porque apenas uma única réplica de dados paralelos escreve durante o checkpointing, independentemente do tamanho total do cluster.⁴⁷
A vazão reportada varia significativamente entre implementações. O Gemini reporta 3,13 GB/s de vazão de checkpoint. O Nebula (DeepSpeed) da Microsoft alcança 1-4 GB/s. Esses números refletem os tradeoffs arquiteturais entre frequência de checkpoint, camada de armazenamento e sobrecarga de treinamento aceitável.⁴⁸
Armazenamento computacional move o processamento para os dados
Dispositivos de armazenamento computacional (CSDs) incorporam funções de computação dentro do hardware de armazenamento, processando dados antes da transferência para reduzir os requisitos de largura de banda de I/O.⁴⁹ A arquitetura prova ser particularmente valiosa para implantações de IA de borda enfrentando recursos computacionais limitados, orçamentos de energia estritos e requisitos de latência em tempo real.⁵⁰
Aplicações avançadas de CSD incluem executar bancos de dados, modelos de machine learning e analytics diretamente em dispositivos de armazenamento. Algumas implementações suportam sistemas operacionais Linux completos, permitindo inferência de IA/ML no próprio drive.⁵¹ Implantações de borda se beneficiam do processamento inicial na camada de armazenamento, filtrando resultados antes da transmissão para os processadores principais.⁵²
A tecnologia aborda as restrições únicas da IA de borda. Executar inferência está cada vez mais mudando para dispositivos de borda para melhorar acessibilidade, customizabilidade e eficiência.⁵³ A Cisco lançou o Unified Edge em novembro de 2025, uma plataforma de computação integrada reunindo computação, rede, armazenamento e segurança para IA em tempo real
[Conteúdo truncado para tradução]