Arquitectura de Pipelines de Datos para IA: Alimentando Entrenamiento a Escala de Petabytes a 100GB/s
Actualizado el 11 de diciembre de 2025
Actualización de diciembre de 2025: El Servicio de Preprocesamiento de Datos (DPP) de Meta ahora elimina los bloqueos de datos en clústeres de entrenamiento a escala de exabytes. WEKApod logra un rendimiento de 720GB/s desde 8 nodos de almacenamiento alimentando 768 GPUs H100. Los SSDs NVMe PCIe Gen5 que superan los 14GB/s en lecturas secuenciales se están convirtiendo en estándar para almacenamiento de nivel de entrenamiento. Los feature stores y las arquitecturas de caché por niveles reducen la latencia de acceso a datos fríos en 10x.
Meta descubrió que el 56% de los ciclos de GPU permanecían bloqueados, esperando datos de entrenamiento.[^1] La empresa almacena exabytes de datos de entrenamiento en Tectonic, su sistema de archivos distribuido, pero carecía de la capacidad de almacenamiento para mantener conjuntos de datos a escala de petabytes localmente junto al hardware de entrenamiento.[^2] La solución requirió construir un Servicio de Preprocesamiento de Datos (DPP) que escala para eliminar por completo los bloqueos de datos. Las organizaciones que entrenan modelos grandes enfrentan el mismo desafío fundamental: las GPUs más potentes no logran nada mientras esperan datos de entrada.
El almacenamiento que alimenta el entrenamiento de IA determina si las inversiones en GPU entregan los retornos esperados. WEKApod logra más de 720GB/s de rendimiento y 18 millones de IOPS con latencias por debajo de 150 microsegundos, alimentando 768 GPUs H100 desde solo 8 nodos de almacenamiento.[^3] El supercomputador RSC de Meta utiliza 46 petabytes de almacenamiento en caché para mantener las GPUs alimentadas.[^4] Entrenar GPT-4 requirió aproximadamente 25,000 GPUs A100 procesando 13 billones de tokens durante 90-100 días.[^5] A escala, la arquitectura del pipeline de datos se vuelve tan crítica como la arquitectura de cómputo.
El desafío del pipeline de datos
Los modelos de lenguaje grandes requieren acceso a petabytes de datos preprocesados de alta calidad. Sin almacenamiento rápido y confiable, incluso las GPUs más potentes permanecen inactivas esperando entrada.[^6] El nivel de rendimiento de la infraestructura de almacenamiento permite el flujo continuo de datos a través de las etapas del pipeline intensivas en cómputo: normalización, tokenización y entrenamiento.
Un pipeline típico de aprendizaje automático involucra preprocesamiento de datos gestionado por CPUs, entrenamiento del modelo descargado a GPUs, y postprocesamiento devuelto a las CPUs.[^7] Los cuellos de botella ocurren al transferir datos entre la RAM de CPU y la DRAM de GPU. El desajuste entre el rendimiento del almacenamiento, el ancho de banda de red, el cómputo de preprocesamiento y el consumo de GPU crea bloqueos que desperdician costosa capacidad de aceleradores.
Arquitectura de almacenamiento e ingesta de datos de Meta
El pipeline DSI de extremo a extremo de Meta consiste en un almacén de datos central construido sobre almacenamiento distribuido y un Servicio de Preprocesamiento de Datos que escala el preprocesamiento independientemente del cómputo de entrenamiento.[^8] La arquitectura separa el almacenamiento, el preprocesamiento y el entrenamiento en niveles escalables distintos.
Tectonic sirve como el sistema de archivos distribuido a escala de exabytes de Meta, proporcionando infraestructura de almacenamiento desagregado para modelos de entrenamiento de IA.[^9] La empresa entrena modelos en conjuntos de datos de escala de terabytes a petabytes sin capacidad de almacenamiento local que coincida con esas escalas. El almacenamiento desagregado permite una asignación flexible de recursos pero requiere redes de alto ancho de banda conectando el almacenamiento al cómputo.
El DPP Master recibe especificaciones de sesión que contienen tablas de conjuntos de datos, particiones, características requeridas y operaciones de transformación.[^10] El Master divide las cargas de trabajo de preprocesamiento a través de petabytes de datos en elementos de trabajo independientes y autocontenidos llamados splits. Los DPP Workers solicitan splits al Master y ejecutan transformaciones de preprocesamiento, desacoplando el rendimiento de preprocesamiento de la capacidad de CPU de los nodos de entrenamiento.
Jerarquía de almacenamiento y caché
Meta avanza hacia soluciones de almacenamiento por niveles que combinan HDDs y SSDs, con los SSDs sirviendo como niveles de caché para características de alto reuso.[^11] No todos los datos de entrenamiento requieren los mismos patrones de acceso: las características accedidas frecuentemente se benefician del almacenamiento flash mientras que los datos fríos permanecen en medios optimizados para capacidad.
La estrategia de caché reduce los costos de almacenamiento sin sacrificar el rendimiento del entrenamiento. Los datos calientes que residen en niveles rápidos sirven la mayoría de las lecturas mientras que los datos fríos fluyen desde el almacenamiento de capacidad durante las épocas iniciales. Comprender los patrones de acceso a datos permite decisiones inteligentes de niveles que equilibran costo contra rendimiento.
Tecnologías de almacenamiento para entrenamiento de IA
Diferentes tecnologías de almacenamiento sirven diferentes roles en los pipelines de datos de IA. La elección depende de los patrones de acceso, requisitos de capacidad y restricciones presupuestarias.
Sistemas de archivos paralelos
Los sistemas de archivos paralelos como Lustre y GPFS entregan rendimiento extremo con concurrencia masiva, haciéndolos ideales para cargas de trabajo de IA síncronas e intensivas en I/O.[^12] Estos sistemas distribuyen datos a través de muchos servidores de almacenamiento, proporcionando ancho de banda agregado que escala con el número de servidores.
Google Cloud ofrece Managed Lustre como una caché de alto rendimiento sobre Cloud Storage, acelerando cargas de trabajo de IA que requieren rendimiento extremadamente alto y operaciones de I/O de baja latencia.[^13] Las organizaciones importan y exportan datos entre Managed Lustre y Cloud Storage, usando el sistema de archivos paralelo como un nivel de rendimiento para entrenamiento activo mientras mantienen los datos en almacenamiento de objetos para durabilidad.
Almacenamiento NVMe
Los SSDs NVMe PCIe Gen5 superan los 14 GB/s de rendimiento de lectura secuencial y manejan millones de IOPS de lectura aleatoria.[^14] La tecnología elimina el almacenamiento como cuello de botella al entrenar modelos de IA en decenas de terabytes de datos. La adopción de PCIe Gen5 a lo largo de 2024-2025 duplicó el rendimiento por carril a aproximadamente 4 GB/s por carril, alcanzando 64 GB/s en configuraciones x16.
NVMe-oF (NVMe over Fabrics) extiende el rendimiento de NVMe a través de redes, permitiendo arquitecturas de almacenamiento desagregado que mantienen latencias casi locales. Los clústeres de entrenamiento acceden a pools de almacenamiento NVMe compartidos sin sacrificar las ventajas de rendimiento de los discos conectados directamente.
Almacenamiento de objetos para datos fríos
El almacenamiento de objetos proporciona capacidad rentable para conjuntos de datos a escala de petabytes que toleran latencias más altas. Una gran empresa de comercio electrónico almacena cientos de petabytes de datos de entrenamiento en AWS S3, con cargas de trabajo de entrenamiento de IA/ML distribuidas en múltiples regiones de AWS y centros de datos locales.[^15]
El almacenamiento de objetos funciona mejor para patrones de ingesta por lotes donde los trabajos de entrenamiento cargan datos en niveles más rápidos antes de que comience el procesamiento intensivo. La economía favorece el almacenamiento de objetos para archivo y respaldo mientras que los niveles de rendimiento manejan el I/O de entrenamiento activo.
Preprocesamiento a escala
El preprocesamiento de datos consume recursos de cómputo significativos y a menudo se convierte en el cuello de botella que previene la utilización completa de GPU. La experiencia de Meta mostró que las CPUs en los nodos de entrenamiento no podían preprocesar datos lo suficientemente rápido para servir a las GPUs, motivando la arquitectura DPP distribuida.[^16]
Workers de preprocesamiento distribuidos
La arquitectura DPP escala los workers de preprocesamiento independientemente de los nodos de entrenamiento.[^17] Agregar capacidad de preprocesamiento requiere solo agregar instancias de workers, no modificar la infraestructura de entrenamiento. La separación permite a las organizaciones dimensionar correctamente el cómputo de preprocesamiento para conjuntos de datos específicos y complejidad de transformación.
Las instancias de workers ejecutan operaciones de transformación incluyendo limpieza, normalización, tokenización y extracción de características. Las transformaciones complejas requieren más cómputo de preprocesamiento por unidad de rendimiento de entrenamiento. Las transformaciones simples pueden mantener el ritmo del entrenamiento usando recursos mínimos de preprocesamiento.
Preprocesamiento acelerado
Los esfuerzos de la industria ejecutan cada vez más operaciones de transformación de preprocesamiento en aceleradores en lugar de CPUs.[^18] NVIDIA DALI (Data Loading Library) descarga la decodificación de imágenes, el aumento y la conversión de formato a las GPUs. El preprocesamiento acelerado elimina los cuellos de botella de CPU para pipelines de entrenamiento de imágenes y video.
Mover el preprocesamiento a GPUs requiere un diseño cuidadoso del pipeline para evitar crear nuevos cuellos de botella. La memoria de GPU usada para preprocesamiento reduce la memoria disponible para parámetros del modelo y activaciones. El intercambio entre aceleración del preprocesamiento y capacidad de entrenamiento depende de las características de la carga de trabajo.
Feature stores
Google recomienda usar Vertex AI Feature Store para características listas para servicio en línea.[^19] Los feature stores precomputan y almacenan en caché valores de características, eliminando el cómputo repetido entre ejecuciones de entrenamiento. Programar trabajos de ingeniería de características para calcular regularmente nuevos valores de características a la cadencia requerida asegura datos frescos sin sobrecarga de preprocesamiento en tiempo real.
Los feature stores resultan particularmente valiosos para modelos de recomendación donde la complejidad del cómputo de características excede los presupuestos de tiempo por solicitud. Tanto el entrenamiento como la inferencia pueden acceder a las mismas características precomputadas, manteniendo consistencia entre desarrollo y producción.
Arquitectura de red para pipelines de datos
Las interconexiones de alto ancho de banda proporcionan la base para arquitecturas de almacenamiento desagregado. InfiniBand y RoCE (RDMA over Converged Ethernet) entregan latencia ultra baja y alto rendimiento esenciales para entrenamiento distribuido a través de clústeres de GPU y acceso rápido a conjuntos de datos.[^20]
Diseño de red de almacenamiento
Las redes de almacenamiento deben igualar el rendimiento agregado de lectura con el consumo de entrenamiento de GPU. Un clúster de 1,000 GPUs H100 entrenando una carga de trabajo intensiva en datos puede requerir decenas de gigabytes por segundo de rendimiento sostenido de almacenamiento. La capacidad de red entre los niveles de almacenamiento y cómputo debe exceder este requisito con margen para patrones de ráfagas.
La topología de red afecta el rendimiento alcanzable. Las topologías fat-tree proporcionan ancho de banda de bisección completo pero cuestan más que los diseños con sobresubscripción. Las cargas de trabajo de entrenamiento con I/O de almacenamiento pesado se benefician de fabrics sin bloqueo que eliminan la congestión de red como cuello de botella.
Optimización de transferencia de datos
Las técnicas de optimización de transferencia de datos incluyendo I/O paralelo, prefetching, caché, compresión y optimización de localidad de datos aseguran movimiento eficiente de datos entre sistemas de almacenamiento y nodos de cómputo.[^21] El prefetching anticipa los requisitos de datos y prepara los datos antes de que los nodos de cómputo los soliciten. La compresión reduce los requisitos de ancho de banda de red a costa de ciclos de cómputo.
Agrupar datos reduce la frecuencia de transacciones, amortizando la sobrecarga por solicitud a través de transferencias más grandes.[^22] Filtrar datos minimiza el tamaño de muestra antes de enviar a las GPUs, reduciendo tanto las lecturas de almacenamiento como las transferencias de red. La combinación de técnicas puede reducir significativamente los requisitos efectivos de ancho de banda de almacenamiento.
Construyendo pipelines de datos a escala
Las organizaciones que despliegan infraestructura de entrenamiento a escala de petabytes necesitan enfoques integrados de almacenamiento, preprocesamiento y redes que igualen la capacidad de cómputo de GPU.
Planificación de capacidad
La planificación de capacidad de almacenamiento debe tener en cuenta el crecimiento de los datos de entrenamiento junto con el escalado de modelos. Los conjuntos de datos de entrenamiento crecen a medida que las organizaciones acumulan más datos y persiguen modelos más grandes que requieren más tokens. Los requisitos de capacidad se componen a medida que las organizaciones retienen múltiples versiones de conjuntos de datos para reproducibilidad.
La planificación del rendimiento resulta más desafiante que la planificación de capacidad. La relación entre el tamaño del modelo, el tamaño del batch y los requisitos de rendimiento de datos varía según la arquitectura y la configuración de entrenamiento. Realizar benchmarks de cargas de trabajo específicas en la infraestructura objetivo proporciona los requisitos de rendimiento más confiables.
Experiencia en despliegue de infraestructura
La complejidad de la infraestructura del pipeline de datos iguala o excede la complejidad de la infraestructura de cómputo. Los sistemas de almacenamiento, las redes de alta velocidad y los servicios de preprocesamiento deben integrarse sin problemas con los clústeres de GPU. Los errores de configuración en cualquier componente crean cuellos de botella que desperdician la inversión en GPU.
La red de 550 ingenieros de campo de Introl se especializa en los despliegues de infraestructura integrada que requiere el entrenamiento de IA a gran escala.[^23] La empresa se ubicó #14 en Inc. 5000 de 2025 con 9,594% de crecimiento en tres años, reflejando la demanda de servicios profesionales de infraestructura.[^24] Las organizaciones que construyen clústeres de entrenamiento se benefician de la experiencia en despliegue que aborda almacenamiento, redes y cómputo como un sistema integrado.
Gestionar despliegues que alcanzan 100,000 GPUs con más de 40,000 millas de infraestructura de red de fibra óptica requiere escala operacional que iguale las iniciativas de entrenamiento más grandes.