Seguridad de GPU en entornos multi-tenant: estrategias de aislamiento para infraestructura compartida
Actualizado el 11 de diciembre de 2025
Actualización de diciembre de 2025: El 90% de las organizaciones despliegan IA, pero solo el 5% se sienten confiadas en su preparación de seguridad. El 97% de las organizaciones vulneradas carecían de controles de acceso adecuados para IA. NVIDIA divulgó siete vulnerabilidades de seguridad (27 de enero de 2025), incluyendo CVE-2025-23266 que permite acceso root mediante bypass del Container Toolkit. El mercado estadounidense de seguridad de infraestructura de IA alcanza los $2.99 mil millones (CAGR del 22.8%).
El noventa por ciento de las organizaciones despliegan sistemas de IA, pero solo el 5% se sienten confiadas en su preparación de seguridad.¹ Las organizaciones con automatización de seguridad específica para IA logran ahorros de $1.9 millones por brecha y reducen los ciclos de vida de incidentes en 80 días.² Mientras tanto, el 97% de las organizaciones vulneradas carecían de controles de acceso adecuados para IA.³ A medida que la infraestructura GPU se convierte en la base de la IA empresarial, el modelo de seguridad para recursos GPU compartidos determina si las organizaciones pueden consolidar cargas de trabajo de manera segura o deben mantener hardware dedicado costoso para cada tenant.
El desafío va más allá de la seguridad de virtualización tradicional. Las GPU manejan datos sensibles que incluyen pesos de modelos, datos de entrenamiento e inputs de inferencia que representan propiedad intelectual organizacional. Una brecha a nivel de GPU podría comprometer el "cerebro" de un sistema de IA.⁴ Los entornos GPU multi-tenant introducen superficies de ataque que difieren fundamentalmente de la virtualización basada en CPU, requiriendo estrategias de seguridad diseñadas específicamente para arquitecturas GPU.
El panorama de seguridad GPU multi-tenant
El 27 de enero de 2025, NVIDIA divulgó siete nuevas vulnerabilidades de seguridad que afectan los controladores de pantalla GPU y el software de GPU virtual.⁵ Estas fallas críticas impactan millones de sistemas, desde infraestructura de IA empresarial hasta plataformas de computación en la nube. La vulnerabilidad del NVIDIA Container Toolkit CVE-2025-23266 permitía a actores maliciosos evadir mecanismos de aislamiento y obtener acceso root a los sistemas host.⁶ La divulgación destacó debilidades sistémicas en las pilas de software GPU que las organizaciones no pueden ignorar.
El mercado estadounidense de seguridad de infraestructura de IA alcanzó los $2.99 mil millones y se expande a una tasa de crecimiento anual compuesto del 22.8%.⁷ Los ataques impulsados por IA representaron el 16% de todas las brechas en 2025.⁸ La inversión refleja el creciente reconocimiento de que la infraestructura GPU requiere atención de seguridad dedicada más allá de las protecciones generales del centro de datos.
La seguridad GPU difiere de la seguridad CPU de maneras fundamentales. Las GPU manejan temporalmente datos increíblemente sensibles durante el procesamiento. A diferencia de las CPU, las GPU no siempre tienen aislamiento de memoria robusto, especialmente en entornos multi-tenant.⁹ Si la memoria no se limpia correctamente cuando un proceso termina, un atacante podría recuperar datos residuales de la carga de trabajo de otro usuario.¹⁰ La arquitectura compartida de las GPU modernas habilita canales laterales basados en contención a través de los cuales los atacantes pueden inferir información sensible, interrumpir cargas de trabajo colocalizadas o establecer canales de comunicación encubiertos.¹¹
Aislamiento de hardware con Multi-Instance GPU
La tecnología Multi-Instance GPU de NVIDIA proporciona aislamiento a nivel de hardware que permite multi-tenancy seguro en hardware GPU de alto valor.¹² Comenzando con la arquitectura Ampere, MIG permite particionar una sola GPU en hasta siete instancias separadas para aplicaciones CUDA.¹³ Las GPU Blackwell y Hopper extienden las capacidades de MIG con configuraciones multi-tenant y multi-usuario en entornos virtualizados, asegurando cada instancia con computación confidencial a nivel de hardware e hipervisor.¹⁴
La arquitectura proporciona separación de hardware genuina. Los procesadores de cada partición MIG tienen rutas separadas y aisladas a través de todo el sistema de memoria.¹⁵ Los puertos del crossbar en chip, bancos de caché L2, controladores de memoria y buses de direcciones DRAM reciben asignación única a instancias individuales.¹⁶ Un tenant no puede leer ni sobrescribir la memoria GPU de otro tenant. El aislamiento de fallos previene que el código fallido de un usuario afecte a toda la GPU o impacte a otros.¹⁷
MIG soporta sistemas operativos Linux, cargas de trabajo en contenedores usando Docker Engine, orquestación con Kubernetes y entornos virtualizados a través de hipervisores incluyendo Red Hat Virtualization y VMware vSphere.¹⁸ El amplio soporte de plataformas permite a las organizaciones implementar aislamiento GPU dentro de la infraestructura existente sin cambios de arquitectura mayoristas.
La limitación de MIG radica en la granularidad. Una partición de 7 vías representa la subdivisión máxima en el hardware actual. Las organizaciones que requieren compartición más granular o que soportan generaciones de GPU más antiguas deben considerar enfoques alternativos.
Alternativas de vGPU y time-slicing
El software de GPU virtual de NVIDIA permite que múltiples máquinas virtuales con protección completa de unidad de gestión de memoria de entrada-salida accedan a una sola GPU física simultáneamente.¹⁹ Más allá de la seguridad, vGPU habilita la gestión de VM con migración en vivo y la capacidad de ejecutar cargas de trabajo mixtas de VDI y computación.²⁰ El hipervisor virtualiza la GPU y asigna porciones a múltiples VMs, con cada VM percibiendo una porción virtualizada de la GPU para sus cargas de trabajo.
El time-slicing proporciona un modelo de compartición diferente. Un administrador de sistemas define un conjunto de réplicas para una GPU, cada una de las cuales puede entregarse independientemente a un pod ejecutando cargas de trabajo en Kubernetes.²¹ A diferencia de MIG, el time-slicing no proporciona aislamiento de memoria o fallos entre réplicas.²² Si una tarea falla o se comporta mal, puede afectar a otras que comparten la GPU.²³ El compromiso favorece el acceso sobre el aislamiento: el time-slicing permite compartir por un mayor número de usuarios y proporciona acceso para generaciones de GPU más antiguas que no soportan MIG.²⁴
Las implicaciones de seguridad requieren comprensión clara. El time-slicing funciona para entornos de desarrollo, pruebas y cargas de trabajo donde los tenants confían entre sí o donde la sensibilidad de los datos no justifica el aislamiento de hardware. Los despliegues de producción con requisitos de seguridad multi-tenant deberían preferir MIG o GPUs dedicadas sobre time-slicing.
Los enfoques híbridos combinan ambas tecnologías. Las organizaciones pueden particionar una GPU en instancias MIG que aseguran aislamiento de grupo, luego ejecutar programadores de time-slicing dentro de cada instancia.²⁵ En clusters de Kubernetes, asignar una porción MIG por namespace y compartir por tiempo los trabajos dentro de cada porción equilibra la seguridad con la eficiencia de costos.²⁶
Computación confidencial en GPUs
La GPU NVIDIA H100 Tensor Core introdujo la computación confidencial a las GPUs, usando un entorno de ejecución confiable basado en hardware anclado en una raíz de confianza de hardware en el chip.²⁷ Antes del H100, las características de computación confidencial existían solo en CPUs de AMD e Intel.²⁸ El H100 proporciona protección de datos para cargas de trabajo de entrenamiento e inferencia de IA que involucran información sensible.²⁹
La arquitectura técnica se construye sobre las capacidades de máquina virtual confidencial de CPU. La solución GPU depende de un entorno de ejecución confiable de VM confidencial habilitado por AMD SEV-SNP o Intel TDX en la CPU.³⁰ El firewall PCIe bloquea el acceso de la CPU a la mayoría de los registros y toda la memoria protegida de la GPU. El firewall NVLink bloquea el acceso de GPUs pares a la memoria protegida.³¹ La comunicación entre CVM y GPU usa cifrado AES-GCM con claves de sesión para proteger contra el sistema host.³²
El motor DMA del H100 soporta cifrado AES GCM 256 para transferencias de datos entre CPU y GPU.³³ Una GPU en modo de computación confidencial bloquea el acceso directo a la memoria interna y deshabilita los contadores de rendimiento que podrían habilitar ataques de canal lateral.³⁴ La arquitectura evolucionó desde características de seguridad anteriores: autenticación AES en firmware desde Volta, firmware cifrado y revocación desde Turing y Ampere, y ahora arranque completamente medido y atestado con raíz de confianza de hardware en Hopper.³⁵
Microsoft Azure ofrece VMs confidenciales con GPUs NVIDIA H100 en vista previa, permitiendo entrenamiento, ajuste fino y servicio de modelos como Stable Diffusion y modelos de lenguaje grandes con protecciones de computación confidencial.³⁶ La arquitectura Blackwell avanza aún más la IA confidencial con rendimiento casi idéntico ya sea ejecutando modelos cifrados o no cifrados, incluso para LLMs.³⁷
Consideraciones de seguridad GPU en Kubernetes
El aislamiento de namespace en Kubernetes no proporciona seguridad suficiente para la programación de GPU multi-tenant.³⁸ Las organizaciones que ejecutan cargas de trabajo de IA en Kubernetes bare metal con GPUs deben implementar controles adicionales. El NVIDIA GPU Operator habilita la configuración de time-slicing y MIG, pero la seguridad depende de la configuración y el hardening adecuados.
El boletín de seguridad del NVIDIA Container Toolkit de septiembre de 2024 impulsó actualizaciones urgentes. Las organizaciones deberían ejecutar Container Toolkit v1.16.2 o superior, o GPU Operator v24.6.2 o superior.³⁹ Las vulnerabilidades demostraron que los ataques de escape de contenedores podrían comprometer el aislamiento GPU incluso cuando está correctamente configurado a niveles superiores.
Las soluciones de terceros abordan brechas en la gestión nativa de GPU de Kubernetes. Volcano proporciona un programador batch nativo de la nube con control granular sobre prioridades y equidad para cargas de trabajo de alto rendimiento.⁴⁰ Run:ai, ahora parte de NVIDIA, gestiona y optimiza recursos GPU para cargas de trabajo de IA con características diseñadas para entornos multi-tenant.⁴¹ vCluster Labs anunció su Infrastructure Tenancy Platform for AI en KubeCon North America 2025, entregando fundamentos nativos de Kubernetes para infraestructura GPU de NVIDIA.⁴²
Las organizaciones que usan vCluster reportan una mejora del 40% en la utilización de GPU y una reducción del 60% en costos de infraestructura a través de orquestación multi-tenant dinámica.⁴³ Las ganancias de eficiencia demuestran que arquitecturas multi-tenant adecuadas pueden mejorar tanto la seguridad como la economía en comparación con asignaciones de GPU dedicadas.
Ataques de canal lateral y amenazas emergentes
Los ataques a memoria GPU explotan la arquitectura compartida en entornos multi-tenant para vulnerar la confidencialidad de datos y degradar el rendimiento.⁴⁴ Los atacantes que usan canales laterales basados en contención pueden inferir información sensible de cargas de trabajo colocalizadas.⁴⁵ Los GPU Memory Attacks apuntan a memoria compartida para facilitar fugas de información y canales encubiertos entre tenants.⁴⁶
Un ataque de hardware Rowhammer, previamente conocido por afectar la memoria CPU, compromete GPUs con memoria GDDR y causa pérdida severa de precisión en modelos de IA.⁴⁷ El ataque explota el paralelismo GPU para inducir cambios de bits, presentando riesgos particulares en entornos cloud donde los atacantes pueden colocalizarse con cargas de trabajo objetivo.⁴⁸
El riesgo principal en entornos GPU virtualizados sigue siendo los ataques entre máquinas virtuales.⁴⁹ Múltiples tenants ejecutando cargas de trabajo en la misma GPU física crean oportunidades para que las fallas en los mecanismos de aislamiento habiliten el espionaje. Esto rompe fundamentalmente el modelo de seguridad cloud y presenta riesgos serios para la confidencialidad de datos.⁵⁰
Las estrategias de mitigación incluyen aislamiento fuerte de cargas de trabajo que evita ejecutar cargas de trabajo sensibles y no sensibles en la misma GPU, particionamiento de caché para reducir la exposición de caché compartida, y programación aleatorizada para complicar los ataques basados en temporización.⁵¹ Las tecnologías de virtualización con seguridad mejorada como Single Root I/O Virtualization proporcionan protección adicional.⁵² Las GPUs confidenciales representan la próxima frontera, extendiendo protecciones tipo TEE a la memoria GPU y los flujos de ejecución.⁵³
Mejores prácticas de seguridad empresarial
Las organizaciones que despliegan infraestructura GPU compartida deberían implementar controles de seguridad apropiados a su tolerancia al riesgo y requisitos regulatorios.
Para cargas de trabajo sensibles, las opciones de tenant único donde las GPUs no se comparten reducen el riesgo de ataques de canal lateral y se alinean con requisitos de cumplimiento.⁵⁴ Algunas certificaciones requieren hardware dedicado para ciertos tipos de datos.⁵⁵ La prima de costo por GPUs dedicadas puede justificarse por requisitos de seguridad.
La seguridad de controladores y firmware requiere actualizaciones consistentes con los parches de seguridad más recientes.⁵⁶ NVIDIA recomienda actualizaciones trimestrales de firmware y validaciones de controladores durante ventanas de mantenimiento programadas.⁵⁷ La divulgación de vulnerabilidades de enero de 2025 demuestra la importancia del parcheo oportuno.
La higiene de memoria entre sesiones previene fugas de datos. Poner a cero la memoria GPU entre sesiones elimina una clase importante de ataques con impacto mínimo en el rendimiento.