Almacenamiento Optimizado para IA: La Pila Tecnológica que Alimenta los Clústeres de GPU
Actualizado el 11 de diciembre de 2025
Actualización de diciembre de 2025: El mercado de almacenamiento para IA crece de $36B (2025) a $322B para 2035. DDN EXAScaler entrega 4TB/s al supercomputador NVIDIA Eos. GPUDirect Storage permite transferencias directas de más de 40 GB/s; la tecnología SCADA de NVIDIA de noviembre de 2025 elimina la última intervención de la CPU. NVMe-oF crece a una CAGR del 27,8% mientras las organizaciones extienden la latencia a nivel PCIe a través de las redes.
Los cuellos de botella de almacenamiento dejan las GPU inactivas. Una única implementación de DDN EXAScaler entrega cuatro terabytes por segundo al supercomputador Eos de NVIDIA, alimentando 18,4 exaflops de rendimiento de IA desde 576 sistemas DGX H100.¹ Cuando las GPU cuestan decenas de miles de dólares por unidad y los clústeres de entrenamiento alcanzan miles de aceleradores, una infraestructura de almacenamiento que no puede mantener el rendimiento de datos desperdicia millones en recursos de cómputo. El mercado de almacenamiento impulsado por IA refleja la urgencia, con una proyección de crecimiento de $36,28 mil millones en 2025 a $321,93 mil millones para 2035 a una tasa de crecimiento anual compuesto del 24,4%.²
Las cargas de trabajo modernas de IA demandan características de rendimiento de almacenamiento fundamentalmente diferentes de las aplicaciones empresariales tradicionales. Los conjuntos de datos de entrenamiento medidos en petabytes requieren un rendimiento secuencial sostenido. Las operaciones de checkpointing deben completarse en segundos para minimizar la interrupción del entrenamiento. Las cargas de trabajo de inferencia generan patrones de E/S impredecibles que mezclan pequeñas lecturas aleatorias con ráfagas de escritura. Las organizaciones que despliegan infraestructura de IA a escala ahora evalúan los sistemas de almacenamiento basándose en métricas de utilización de GPU en lugar de benchmarks tradicionales de IOPS.
NVMe-oF extiende el rendimiento flash a través de la red
NVMe over Fabrics (NVMe-oF) permite cargas de trabajo de alto rendimiento a escala proporcionando compartición de baja latencia de SSDs NVMe sobre fabrics Ethernet de alto rendimiento o InfiniBand.³ El protocolo ofrece un rendimiento similar a los SSDs NVMe conectados localmente mientras permite a las organizaciones escalar los recursos de almacenamiento independientemente de la asignación de cómputo, GPU y memoria.⁴
Los protocolos de almacenamiento tradicionales añaden milisegundos de latencia a través de pilas de software optimizadas para discos giratorios. NVMe-oF elimina estas capas, logrando latencias de decenas de microsegundos incluso cuando se escala a miles de nodos utilizando transportes RDMA.⁵ Los transportes TCP permiten el despliegue sobre Ethernet comercial mientras siguen entregando mejoras sustanciales de rendimiento en comparación con los protocolos heredados NFS o iSCSI.⁶
Para la infraestructura de IA, NVMe-oF importa donde cada microsegundo cuenta: pipelines de entrenamiento donde las GPU están inactivas esperando datos, operaciones de checkpoint que deben completarse dentro de ventanas de tiempo estrictas, y cargas de trabajo de inferencia que requieren tiempos de respuesta de menos de un milisegundo.⁷ Los benchmarks publicados muestran 351 GiB por segundo de lecturas secuenciales con integración de GPUDirect Storage, con reducciones de latencia que se espera eleven la utilización efectiva de GPU de 2 a 3 veces en configuraciones limitadas por E/S.⁸
La adopción en la industria se acelera durante 2025. Western Digital e Ingrasys establecieron una asociación en mayo de 2025 combinando experiencia en servidores GPU con capacidades de NVMe-oF y almacenamiento conectado por fabric.⁹ Hitachi Vantara lanzó Virtual Storage Platform One Block High End en noviembre de 2025, una solución de almacenamiento en bloque NVMe all-flash de próxima generación diseñada para cargas de trabajo críticas y de IA.¹⁰ Los sistemas NVMe-oF proyectan una tasa de crecimiento anual compuesto del 27,80% mientras las organizaciones extienden la latencia a nivel PCIe a través de las redes para impulsar la utilización de GPU en clústeres de IA distribuidos.¹¹
GPUDirect Storage elimina el cuello de botella de la CPU
GPUDirect Storage de NVIDIA permite la transferencia directa de datos desde el almacenamiento a la memoria de la GPU sin pasar por la CPU y la memoria del sistema.¹² La tecnología elimina una barrera de rendimiento fundamental en los pipelines de entrenamiento de IA donde grandes conjuntos de datos deben fluir continuamente hacia la memoria de la GPU para su procesamiento.
El entrenamiento de aprendizaje profundo implica operaciones frecuentes de checkpointing donde los pesos de red entrenados se guardan en disco en varias etapas del entrenamiento. Por definición, el checkpointing está en la ruta crítica de E/S.¹³ Un modelo de 100 mil millones de parámetros genera aproximadamente de 800GB a 1,6TB por checkpoint, y el entrenamiento a escala con 16.000 aceleradores requiere 155 checkpoints diarios.¹⁴ Para mantener la sobrecarga por debajo del 5%, las operaciones de checkpoint deben completarse en menos de 28 segundos a esa escala, reduciéndose a 4,4 segundos para clústeres de 100.000 aceleradores.¹⁵
GPUDirect Storage aborda estos requisitos permitiendo tasas de transferencia directa de más de 40 GBps desde el almacenamiento a la memoria de la GPU.¹⁶ La arquitectura de referencia de Lenovo/NVIDIA entrega 20 GBps por nodo con capacidades de escalado lineal, soportando entrenamiento de LLM, inferencia y funciones de checkpointing.¹⁷ La tecnología SCADA de NVIDIA de noviembre de 2025 lleva GPUDirect más allá descargando incluso la ruta de control de almacenamiento a la GPU, eliminando la última intervención de la CPU en las operaciones de almacenamiento.¹⁸
Las implementaciones de hardware proliferan en todo el ecosistema. El adaptador HighPoint Rocker 7638D permite flujos de trabajo de GPUDirect Storage con hasta 64 GB/s de ancho de banda y latencia predecible, particularmente útil para conjuntos de datos de entrenamiento a gran escala.¹⁹ Los proveedores de almacenamiento incluyendo DDN, Pure Storage, WEKA y VAST Data certifican sus plataformas para integración GPUDirect con sistemas NVIDIA DGX y HGX.
Los sistemas de archivos paralelos impulsan la IA a exaescala
Los sistemas de archivos paralelos distribuyen datos y metadatos a través de múltiples servidores, permitiendo un rendimiento agregado que escala con el número de nodos de almacenamiento. Tres plataformas dominan los despliegues de IA y HPC: Lustre, IBM Storage Scale (anteriormente GPFS) y WekaFS.
Lustre domina el 41% de la cuota de mercado en sistemas de archivos paralelos, seguido por IBM Storage Scale con el 17% y WEKA con el 6%.²⁰ Cada arquitectura optimiza para diferentes características de carga de trabajo.
Lustre sobresale en entornos dominados por grandes operaciones secuenciales incluyendo simulaciones científicas y pipelines de renderizado de video.²¹ La arquitectura prioriza el ancho de banda sostenido sobre el manejo de archivos pequeños, logrando un escalado de rendimiento casi lineal con Object Storage Servers (OSS) adicionales para cargas de trabajo intensivas en ancho de banda.²² Lustre rinde mejor con fabrics InfiniBand y alimenta la mayoría de los supercomputadores del mundo. El producto EXAScaler de DDN empaqueta Lustre con optimizaciones de rendimiento y capacidades de gestión empresarial.
IBM Storage Scale proporciona un rendimiento superior en operaciones intensivas en metadatos.²³ El enfoque de metadatos distribuidos crea archivos pequeños, modifica atributos y estructura directorios complejos de manera más eficiente que la arquitectura de servidor de metadatos centralizado de Lustre.²⁴ Storage Scale ofrece un rendimiento consistente a través de patrones de E/S variables y se integra en arquitecturas de referencia NVIDIA DGX SuperPOD con soporte GPUDirect.²⁵
WekaFS apunta específicamente a cargas de trabajo de IA/ML, diseñado desde su inicio para SSDs NVMe en lugar de ser adaptado desde arquitecturas de discos giratorios.²⁶ Los metadatos distribuidos de WEKA eliminan el cuello de botella del servidor de metadatos que limita los sistemas de archivos paralelos heredados.²⁷ Los benchmarks muestran que WekaFS supera a FSx for Lustre en un 300% o más a capacidades similares, con latencia de E/S a veces inferior al 30% de las soluciones competidoras.²⁸ WekaFS soporta protocolos pNFS, SMB y S3, permitiendo patrones de acceso multiprotocolo comunes en pipelines de IA.
DDN, Pure Storage y VAST Data lideran el panorama de proveedores
Tres proveedores de almacenamiento dominan los despliegues de infraestructura de IA con productos específicamente diseñados para cargas de trabajo de clústeres de GPU.
DDN alimenta los supercomputadores de IA de más alto perfil. El sistema Eos de NVIDIA incorpora 576 sistemas DGX H100 con 48 appliances DDN A³I entregando 12 petabytes de almacenamiento a cuatro terabytes por segundo de rendimiento en menos de tres racks usando solo 100 kW de potencia.²⁹ DDN anunció la certificación Blackwell en marzo de 2025, optimizando EXAScaler e Infinia 2.0 para DGX SuperPOD con sistemas DGX GB200 y DGX B200.³⁰ Un único DDN AI400X2-Turbo logra 10 veces el requisito mínimo de 1 GBps/GPU tanto para operaciones de lectura como de escritura emparejado con DGX B200, entregando hasta el 96% de utilización de red.³¹ La asociación de DDN con Yotta para la iniciativa de IA soberana de India desplegó sistemas EXAScaler AI400X3 alimentando 8.000 GPUs NVIDIA B200.³²
Pure Storage introdujo FlashBlade//EXA en marzo de 2025, proyectando más de 10 terabytes por segundo de rendimiento de lectura en un único namespace.³³ La plataforma apunta a clientes que ejecutan entre una y decenas de miles de GPUs que requieren de 1 TB/seg a 50 TB/seg de rendimiento de almacenamiento.³⁴ La arquitectura desagregada de FlashBlade//EXA escala datos y metadatos de forma independiente utilizando nodos de datos de terceros, permitiendo un rendimiento paralelo masivo.³⁵ Pure Storage logró la certificación FlashBlade//S500 con NVIDIA DGX SuperPOD, integrando el diseño de referencia NVIDIA AI Data Platform con soporte GPUDirect Storage.³⁶
VAST Data alcanzó $2 mil millones en reservas acumuladas de software para mayo de 2025.³⁷ La arquitectura DASE (Distributed and Shared Everything) ofrece un paralelismo revolucionario para clústeres de más de 100k GPUs a terabytes por segundo, eliminando los cuellos de botella de datos de IA.³⁸ VAST afirma más del 50% de menor costo total de propiedad para cargas de trabajo de IA exigentes a través de una eficiencia radical.³⁹ La plataforma soporta exabytes de almacenamiento all-flash con acceso NFS, SMB, S3 y Kubernetes CSI estándar de la industria.⁴⁰ Microsoft Azure anunció la integración con el Sistema Operativo de IA de VAST en noviembre de 2025 para extender pipelines de IA on-premises a infraestructura cloud acelerada por GPU.⁴¹
Las arquitecturas de checkpointing equilibran velocidad y fiabilidad
El checkpointing de modelos crea los requisitos de almacenamiento más exigentes en el entrenamiento de IA. Los tamaños de checkpoint escalan con el conteo de parámetros: aproximadamente de 8 a 12 bytes por parámetro para entrenamiento de precisión mixta significa que un modelo de 100 mil millones de parámetros genera de 800GB a 1,2TB por checkpoint.⁴² Los requisitos de frecuencia se intensifican con la escala del clúster, alcanzando checkpoints cada 1,5 minutos para despliegues de 100.000 aceleradores.⁴³
Los sistemas de entrenamiento modernos emplean arquitecturas de checkpointing por niveles. Los checkpoints de nivel rápido escriben al almacenamiento NVMe local del nodo cada pocos minutos. Los checkpoints de nivel medio se propagan a sistemas de archivos compartidos cada 30 minutos. Los checkpoints durables llegan al almacenamiento de objetos como Amazon S3 solo cada pocas horas.⁴⁴ El checkpointing asíncrono permite que el entrenamiento continúe mientras los procesos en segundo plano drenan el almacenamiento local a niveles globales.⁴⁵
Los requisitos de ancho de banda de checkpoint global permanecen sorprendentemente modestos incluso a escala. El análisis de 85.000 checkpoints a través de sistemas del mundo real encontró que el ancho de banda típicamente está muy por debajo de 1 TB/s incluso para modelos de un billón de parámetros.⁴⁶ El ancho de banda de checkpoint por GPU disminuye a medida que el tamaño del modelo crece porque solo una única réplica de datos paralelos escribe durante el checkpointing independientemente del tamaño total del clúster.⁴⁷
El rendimiento reportado varía significativamente entre implementaciones. Gemini reporta 3,13 GB/s de rendimiento de checkpoint. Nebula de Microsoft (DeepSpeed) logra 1-4 GB/s. Estas cifras reflejan los compromisos arquitectónicos entre frecuencia de checkpoint, nivel de almacenamiento y sobrecarga de entrenamiento aceptable.⁴⁸
El almacenamiento computacional mueve el procesamiento a los datos
Los dispositivos de almacenamiento computacional (CSDs) incorporan funciones de cómputo dentro del hardware de almacenamiento, procesando datos antes de la transferencia para reducir los requisitos de ancho de banda de E/S.⁴⁹ La arquitectura resulta particularmente valiosa para despliegues de IA en el edge que enfrentan recursos computacionales limitados, presupuestos de potencia estrictos y requisitos de latencia en tiempo real.⁵⁰
Las aplicaciones avanzadas de CSD incluyen ejecutar bases de datos, modelos de aprendizaje automático y analíticas directamente en dispositivos de almacenamiento. Algunas implementaciones soportan sistemas operativos Linux completos, permitiendo inferencia de IA/ML en el propio disco.⁵¹ Los despliegues en el edge se benefician del procesamiento inicial en la capa de almacenamiento, filtrando resultados antes de la transmisión a los procesadores principales.⁵²
La tecnología aborda las restricciones únicas de la IA en el edge. Ejecutar inferencia se traslada cada vez más a dispositivos edge para mejorar la accesibilidad, personalización y eficiencia.⁵³ Cisco lanzó Unified Edge en noviembre de 2025, una plataforma de computación integrada que reúne cómputo, redes, almacenamiento y seguridad para IA en tiempo real
[Contenido truncado para traducción]