Arquitetura de Pipeline de Dados para IA: Alimentando Treinamento em Escala de Petabytes a 100GB/s

O Data PreProcessing Service (DPP) da Meta agora elimina interrupções de dados em clusters de treinamento em escala de exabytes. WEKApod alcançando 720GB/s de throughput com 8 nós de armazenamento alimentando 768 GPUs H100. SSDs NVMe PCIe Gen5...

Arquitetura de Pipeline de Dados para IA: Alimentando Treinamento em Escala de Petabytes a 100GB/s

Arquitetura de Pipeline de Dados para IA: Alimentando Treinamento em Escala de Petabytes a 100GB/s

Atualizado em 11 de dezembro de 2025

Atualização de Dezembro de 2025: O Data PreProcessing Service (DPP) da Meta agora elimina interrupções de dados em clusters de treinamento em escala de exabytes. WEKApod alcançando 720GB/s de throughput com 8 nós de armazenamento alimentando 768 GPUs H100. SSDs NVMe PCIe Gen5 ultrapassando 14GB/s de leituras sequenciais estão se tornando padrão para armazenamento de nível de treinamento. Feature stores e arquiteturas de cache em camadas reduzindo a latência de acesso a dados frios em 10x.

A Meta descobriu que 56% dos ciclos de GPU ficavam ociosos, aguardando dados de treinamento.[^1] A empresa armazena exabytes de dados de treinamento no Tectonic, seu sistema de arquivos distribuído, mas não tinha capacidade de armazenamento para manter datasets em escala de petabytes localmente no hardware de treinamento.[^2] A solução exigiu a construção de um Data PreProcessing Service (DPP) que escala para eliminar completamente as interrupções de dados. Organizações treinando grandes modelos enfrentam o mesmo desafio fundamental: as GPUs mais poderosas não realizam nada enquanto aguardam dados de entrada.

O armazenamento que alimenta o treinamento de IA determina se os investimentos em GPU entregam os retornos esperados. O WEKApod alcança mais de 720GB/s de throughput e 18 milhões de IOPS com latências abaixo de 150 microssegundos, alimentando 768 GPUs H100 com apenas 8 nós de armazenamento.[^3] O supercomputador RSC da Meta usa 46 petabytes de armazenamento em cache para manter as GPUs alimentadas.[^4] Treinar o GPT-4 exigiu aproximadamente 25.000 GPUs A100 processando 13 trilhões de tokens ao longo de 90-100 dias.[^5] Em escala, a arquitetura do pipeline de dados se torna tão crítica quanto a arquitetura de computação.

O desafio do pipeline de dados

Grandes modelos de linguagem requerem acesso a petabytes de dados pré-processados de alta qualidade. Sem armazenamento rápido e confiável, mesmo as GPUs mais poderosas ficam ociosas aguardando entrada.[^6] O nível de desempenho da infraestrutura de armazenamento permite o fluxo contínuo de dados através de estágios de pipeline intensivos em computação: normalização, tokenização e treinamento.

Um pipeline típico de machine learning envolve pré-processamento de dados gerenciado por CPUs, treinamento de modelos transferido para GPUs e pós-processamento retornado para CPUs.[^7] Gargalos ocorrem ao transferir dados entre RAM da CPU e DRAM da GPU. A incompatibilidade entre throughput de armazenamento, largura de banda de rede, computação de pré-processamento e consumo de GPU cria interrupções que desperdiçam capacidade cara de aceleradores.

Arquitetura de armazenamento e ingestão de dados da Meta

O pipeline DSI de ponta a ponta da Meta consiste em um data warehouse central construído sobre armazenamento distribuído e um Data PreProcessing Service que escala o pré-processamento independentemente da computação de treinamento.[^8] A arquitetura separa armazenamento, pré-processamento e treinamento em camadas escaláveis distintas.

O Tectonic serve como o sistema de arquivos distribuído em escala de exabytes da Meta, fornecendo infraestrutura de armazenamento desagregado para modelos de treinamento de IA.[^9] A empresa treina modelos em datasets de escala de terabytes a petabytes sem capacidade de armazenamento local correspondente a essas escalas. O armazenamento desagregado permite alocação flexível de recursos, mas requer redes de alta largura de banda conectando armazenamento à computação.

O DPP Master recebe especificações de sessão contendo tabelas de datasets, partições, features necessárias e operações de transformação.[^10] O Master divide cargas de trabalho de pré-processamento em petabytes de dados em itens de trabalho independentes e autocontidos chamados splits. DPP Workers solicitam splits do Master e executam transformações de pré-processamento, desacoplando o throughput de pré-processamento da capacidade de CPU dos nós de treinamento.

Hierarquia de armazenamento e cache

A Meta está construindo soluções de armazenamento em camadas combinando HDDs e SSDs, com SSDs servindo como camadas de cache para features de alta reutilização.[^11] Nem todos os dados de treinamento requerem os mesmos padrões de acesso: features frequentemente acessadas se beneficiam de armazenamento flash enquanto dados frios permanecem em mídia otimizada para capacidade.

A estratégia de cache reduz custos de armazenamento sem sacrificar o throughput de treinamento. Dados quentes residindo em camadas rápidas servem a maioria das leituras enquanto dados frios fluem do armazenamento de capacidade durante as épocas iniciais. Compreender os padrões de acesso aos dados permite decisões inteligentes de camadas que equilibram custo versus desempenho.

Tecnologias de armazenamento para treinamento de IA

Diferentes tecnologias de armazenamento servem diferentes papéis em pipelines de dados de IA. A escolha depende de padrões de acesso, requisitos de capacidade e restrições orçamentárias.

Sistemas de arquivos paralelos

Sistemas de arquivos paralelos como Lustre e GPFS entregam desempenho extremo com concorrência massiva, tornando-os ideais para cargas de trabalho de IA intensivas em I/O síncrono.[^12] Esses sistemas distribuem dados por muitos servidores de armazenamento, fornecendo largura de banda agregada que escala com a contagem de servidores.

O Google Cloud oferece Managed Lustre como um cache de alto desempenho sobre o Cloud Storage, acelerando cargas de trabalho de IA que requerem throughput extremamente alto e operações de I/O de baixa latência.[^13] As organizações importam e exportam dados entre Managed Lustre e Cloud Storage, usando o sistema de arquivos paralelo como uma camada de desempenho para treinamento ativo enquanto mantêm dados em object storage para durabilidade.

Armazenamento NVMe

SSDs NVMe PCIe Gen5 excedem 14 GB/s de throughput de leitura sequencial e lidam com milhões de IOPS de leitura aleatória.[^14] A tecnologia elimina o armazenamento como gargalo ao treinar modelos de IA em dezenas de terabytes de dados. A adoção do PCIe Gen5 ao longo de 2024-2025 dobrou o throughput por lane para aproximadamente 4 GB/s por lane, alcançando 64 GB/s em configurações x16.

NVMe-oF (NVMe over Fabrics) estende o desempenho NVMe através de redes, permitindo arquiteturas de armazenamento desagregadas que mantêm latências próximas às locais. Clusters de treinamento acessam pools de armazenamento NVMe compartilhados sem sacrificar as vantagens de desempenho de drives conectados diretamente.

Object storage para dados frios

Object storage fornece capacidade econômica para datasets em escala de petabytes que toleram latências mais altas. Uma grande empresa de e-commerce armazena centenas de petabytes de dados de treinamento no AWS S3, com cargas de trabalho de treinamento de IA/ML distribuídas por múltiplas regiões da AWS e data centers on-premises.[^15]

Object storage funciona melhor para padrões de ingestão em lote onde jobs de treinamento carregam dados em camadas mais rápidas antes do processamento intensivo começar. A economia favorece object storage para arquivamento e backup enquanto camadas de desempenho lidam com I/O de treinamento ativo.

Pré-processamento em escala

O pré-processamento de dados consome recursos de computação significativos e frequentemente se torna o gargalo que impede a utilização total da GPU. A experiência da Meta mostrou que CPUs nos nós de treinamento não conseguiam pré-processar dados rápido o suficiente para servir as GPUs, motivando a arquitetura distribuída do DPP.[^16]

Workers de pré-processamento distribuído

A arquitetura DPP escala workers de pré-processamento independentemente dos nós de treinamento.[^17] Adicionar capacidade de pré-processamento requer apenas adicionar instâncias de workers, não modificar a infraestrutura de treinamento. A separação permite que organizações dimensionem corretamente a computação de pré-processamento para datasets específicos e complexidade de transformação.

Instâncias de workers executam operações de transformação incluindo limpeza, normalização, tokenização e extração de features. Transformações complexas requerem mais computação de pré-processamento por unidade de throughput de treinamento. Transformações simples podem acompanhar o treinamento usando recursos mínimos de pré-processamento.

Pré-processamento acelerado

Esforços da indústria cada vez mais executam operações de transformação de pré-processamento em aceleradores ao invés de CPUs.[^18] NVIDIA DALI (Data Loading Library) transfere decodificação de imagem, augmentação e conversão de formato para GPUs. O pré-processamento acelerado elimina gargalos de CPU para pipelines de treinamento de imagem e vídeo.

Mover o pré-processamento para GPUs requer design cuidadoso de pipeline para evitar criar novos gargalos. Memória GPU usada para pré-processamento reduz a memória disponível para parâmetros e ativações do modelo. O trade-off entre aceleração de pré-processamento e capacidade de treinamento depende das características da carga de trabalho.

Feature stores

O Google recomenda usar o Vertex AI Feature Store para features prontas para serving online.[^19] Feature stores pré-computam e armazenam em cache valores de features, eliminando computação repetida entre execuções de treinamento. Agendar jobs de feature engineering para computar regularmente novos valores de features na cadência necessária garante dados frescos sem overhead de pré-processamento em tempo real.

Feature stores provam ser particularmente valiosos para modelos de recomendação onde a complexidade de computação de features excede os orçamentos de tempo por requisição. Tanto treinamento quanto inferência podem acessar as mesmas features pré-computadas, mantendo consistência entre desenvolvimento e produção.

Arquitetura de rede para pipelines de dados

Interconexões de alta largura de banda fornecem a fundação para arquiteturas de armazenamento desagregadas. InfiniBand e RoCE (RDMA over Converged Ethernet) entregam latência ultra-baixa e alto throughput essenciais para treinamento distribuído em clusters de GPU e acesso rápido a datasets.[^20]

Design de rede de armazenamento

Redes de armazenamento devem corresponder o throughput de leitura agregado ao consumo de treinamento da GPU. Um cluster de 1.000 GPUs H100 treinando uma carga de trabalho intensiva em dados pode requerer dezenas de gigabytes por segundo de throughput de armazenamento sustentado. A capacidade de rede entre camadas de armazenamento e computação deve exceder esse requisito com margem para padrões de burst.

A topologia de rede afeta o throughput alcançável. Topologias fat-tree fornecem largura de banda de bisseção total, mas custam mais que designs com oversubscription. Cargas de trabalho de treinamento com I/O de armazenamento pesado se beneficiam de fabrics non-blocking que eliminam congestionamento de rede como gargalo.

Otimização de transferência de dados

Técnicas de otimização de transferência de dados incluindo I/O paralelo, prefetching, cache, compressão e otimização de localidade de dados garantem movimento eficiente de dados entre sistemas de armazenamento e nós de computação.[^21] Prefetching antecipa requisitos de dados e prepara dados antes que nós de computação os solicitem. Compressão reduz requisitos de largura de banda de rede ao custo de ciclos de computação.

Agrupar dados em lotes reduz a frequência de transações, amortizando overhead por requisição em transferências maiores.[^22] Filtrar dados minimiza o tamanho da amostra antes de enviar para GPUs, reduzindo tanto leituras de armazenamento quanto transferências de rede. A combinação de técnicas pode reduzir significativamente os requisitos efetivos de largura de banda de armazenamento.

Construindo pipelines de dados em escala

Organizações implantando infraestrutura de treinamento em escala de petabytes precisam de abordagens integradas para armazenamento, pré-processamento e rede que correspondam à capacidade de computação GPU.

Planejamento de capacidade

O planejamento de capacidade de armazenamento deve considerar o crescimento de dados de treinamento junto com a escalabilidade do modelo. Datasets de treinamento crescem à medida que organizações acumulam mais dados e buscam modelos maiores requerendo mais tokens. Os requisitos de capacidade se compõem à medida que organizações retêm múltiplas versões de datasets para reprodutibilidade.

O planejamento de throughput prova ser mais desafiador que o planejamento de capacidade. A relação entre tamanho do modelo, tamanho do batch e requisitos de throughput de dados varia por arquitetura e configuração de treinamento. Benchmarking de cargas de trabalho específicas na infraestrutura alvo fornece os requisitos de throughput mais confiáveis.

Expertise em implantação de infraestrutura

A complexidade da infraestrutura de pipeline de dados iguala ou excede a complexidade da infraestrutura de computação. Sistemas de armazenamento, redes de alta velocidade e serviços de pré-processamento devem se integrar perfeitamente com clusters de GPU. Erros de configuração em qualquer componente criam gargalos que desperdiçam investimento em GPU.

A rede de 550 engenheiros de campo da Introl se especializa nas implantações de infraestrutura integrada que o treinamento de IA em larga escala requer.[^23] A empresa ficou em 14º lugar na Inc. 5000 de 2025 com 9.594% de crescimento em três anos, refletindo a demanda por serviços profissionais de infraestrutura.[^24] Organizações construindo clusters de treinamento se beneficiam de expertise em implantação que aborda armazenamento, rede e computação como um sistema integrado.

Gerenciar implantações alcançando 100.000 GPUs com mais de 64.000 quilômetros de infraestrutura de rede de fibra óptica requer escala operacional que corresponde às maiores iniciativas de treinamento.

Solicitar Orçamento_

Conte-nos sobre seu projeto e responderemos em até 72 horas.

> TRANSMISSÃO_CONCLUÍDA

Solicitação Recebida_

Obrigado por sua consulta. Nossa equipe analisará sua solicitação e responderá em até 72 horas.

EM FILA PARA PROCESSAMENTO