Segurança de GPU multi-tenant: estratégias de isolamento para infraestrutura compartilhada
Atualizado em 11 de dezembro de 2025
Atualização de dezembro de 2025: 90% das organizações implantando IA, apenas 5% se sentindo confiantes na prontidão de segurança. 97% das organizações violadas sem controles de acesso adequados para IA. NVIDIA divulgando sete vulnerabilidades de segurança (27 de janeiro de 2025) incluindo CVE-2025-23266 permitindo acesso root via bypass do Container Toolkit. Mercado de segurança de infraestrutura de IA dos EUA alcançando US$ 2,99B (CAGR de 22,8%).
Noventa por cento das organizações implantam sistemas de IA, mas apenas 5% se sentem confiantes em sua prontidão de segurança.¹ Organizações com automação de segurança específica para IA alcançam US$ 1,9 milhão em economia por violação e reduzem ciclos de incidentes em 80 dias.² Enquanto isso, 97% das organizações violadas não tinham controles de acesso adequados para IA.³ À medida que a infraestrutura de GPU se torna a base da IA empresarial, o modelo de segurança para recursos de GPU compartilhados determina se as organizações podem consolidar cargas de trabalho com segurança ou devem manter hardware dedicado caro para cada tenant.
O desafio vai além da segurança tradicional de virtualização. GPUs processam dados sensíveis incluindo pesos de modelos, dados de treinamento e entradas de inferência que representam propriedade intelectual organizacional. Uma violação no nível da GPU poderia comprometer o "cérebro" de um sistema de IA.⁴ Ambientes de GPU multi-tenant introduzem superfícies de ataque que diferem fundamentalmente da virtualização baseada em CPU, exigindo estratégias de segurança projetadas especificamente para arquiteturas de GPU.
O panorama de segurança de GPU multi-tenant
Em 27 de janeiro de 2025, a NVIDIA divulgou sete novas vulnerabilidades de segurança afetando drivers de exibição de GPU e software de GPU virtual.⁵ Essas falhas críticas impactam milhões de sistemas, desde infraestrutura de IA empresarial até plataformas de computação em nuvem. A vulnerabilidade do NVIDIA Container Toolkit CVE-2025-23266 permitia que agentes maliciosos contornassem mecanismos de isolamento e obtivessem acesso root a sistemas host.⁶ A divulgação destacou fraquezas sistêmicas em pilhas de software de GPU que as organizações não podem ignorar.
O mercado de segurança de infraestrutura de IA dos EUA alcançou US$ 2,99 bilhões e expande a uma taxa de crescimento anual composta de 22,8%.⁷ Ataques potencializados por IA representaram 16% de todas as violações em 2025.⁸ O investimento reflete o reconhecimento crescente de que a infraestrutura de GPU requer atenção dedicada à segurança além das proteções gerais de data center.
A segurança de GPU difere da segurança de CPU de maneiras fundamentais. GPUs processam temporariamente dados incrivelmente sensíveis durante o processamento. Diferente das CPUs, as GPUs nem sempre têm isolamento robusto de memória, especialmente em ambientes multi-tenant.⁹ Se a memória não for limpa adequadamente quando um processo termina, um atacante poderia recuperar dados residuais da carga de trabalho de outro usuário.¹⁰ A arquitetura compartilhada das GPUs modernas permite canais laterais baseados em contenção através dos quais atacantes podem inferir informações sensíveis, interromper cargas de trabalho co-localizadas ou estabelecer canais de comunicação ocultos.¹¹
Isolamento de hardware com Multi-Instance GPU
A tecnologia Multi-Instance GPU da NVIDIA fornece isolamento em nível de hardware que permite multi-tenancy seguro em hardware de GPU de alto valor.¹² A partir da arquitetura Ampere, o MIG permite particionar uma única GPU em até sete instâncias separadas para aplicações CUDA.¹³ As GPUs Blackwell e Hopper estendem as capacidades do MIG com configurações multi-tenant e multi-usuário em ambientes virtualizados, protegendo cada instância com computação confidencial no nível de hardware e hypervisor.¹⁴
A arquitetura fornece separação de hardware genuína. Os processadores de cada partição MIG têm caminhos separados e isolados através de todo o sistema de memória.¹⁵ As portas de crossbar on-chip, bancos de cache L2, controladores de memória e barramentos de endereço DRAM recebem atribuição única para instâncias individuais.¹⁶ Um tenant não pode ler ou sobrescrever a memória GPU de outro tenant. O isolamento de falhas impede que o código com erro de um usuário afete toda a GPU ou impacte outros.¹⁷
O MIG suporta sistemas operacionais Linux, cargas de trabalho containerizadas usando Docker Engine, orquestração com Kubernetes e ambientes virtualizados através de hypervisors incluindo Red Hat Virtualization e VMware vSphere.¹⁸ O amplo suporte de plataforma permite que as organizações implementem isolamento de GPU dentro da infraestrutura existente sem mudanças arquitetônicas completas.
A limitação do MIG está na granularidade. Uma partição de 7 vias representa a subdivisão máxima no hardware atual. Organizações que requerem compartilhamento de granularidade mais fina ou suportam gerações de GPU mais antigas devem considerar abordagens alternativas.
Alternativas de vGPU e time-slicing
O software de GPU virtual da NVIDIA permite que múltiplas máquinas virtuais com proteção completa de unidade de gerenciamento de memória de entrada-saída acessem uma única GPU física simultaneamente.¹⁹ Além da segurança, o vGPU permite gerenciamento de VM com migração ao vivo e a capacidade de executar cargas de trabalho mistas de VDI e computação.²⁰ O hypervisor virtualiza a GPU e atribui fatias a múltiplas VMs, com cada VM percebendo uma porção virtualizada da GPU para suas cargas de trabalho.
O time-slicing fornece um modelo de compartilhamento diferente. Um administrador de sistema define um conjunto de réplicas para uma GPU, cada uma das quais pode ser distribuída independentemente para um pod executando cargas de trabalho no Kubernetes.²¹ Diferente do MIG, o time-slicing não fornece isolamento de memória ou falhas entre réplicas.²² Se uma tarefa travar ou se comportar mal, pode afetar outras compartilhando a GPU.²³ A compensação favorece o acesso sobre o isolamento: o time-slicing permite compartilhamento por números maiores de usuários e fornece acesso para gerações de GPU mais antigas que não suportam MIG.²⁴
As implicações de segurança requerem entendimento claro. O time-slicing funciona para ambientes de desenvolvimento, testes e cargas de trabalho onde os tenants confiam uns nos outros ou onde a sensibilidade dos dados não justifica isolamento de hardware. Implantações de produção com requisitos de segurança multi-tenant devem preferir MIG ou GPUs dedicadas ao time-slicing.
Abordagens híbridas combinam ambas as tecnologias. As organizações podem particionar uma GPU em instâncias MIG que garantem isolamento de grupo, então executar agendadores de time-slicing dentro de cada instância.²⁵ Em clusters Kubernetes, alocar uma fatia MIG por namespace e compartilhar tempo de jobs dentro de cada fatia equilibra segurança com eficiência de custos.²⁶
Computação confidencial em GPUs
A GPU NVIDIA H100 Tensor Core introduziu computação confidencial para GPUs, usando um ambiente de execução confiável baseado em hardware ancorado em uma raiz de confiança de hardware on-die.²⁷ Antes da H100, recursos de computação confidencial existiam apenas em CPUs da AMD e Intel.²⁸ A H100 fornece proteção de dados para cargas de trabalho de treinamento e inferência de IA envolvendo informações sensíveis.²⁹
A arquitetura técnica se baseia nas capacidades de máquina virtual confidencial da CPU. A solução de GPU depende de um ambiente de execução confiável de VM confidencial habilitado pelo AMD SEV-SNP ou Intel TDX na CPU.³⁰ O firewall PCIe bloqueia o acesso da CPU à maioria dos registradores e toda a memória protegida da GPU. O firewall NVLink bloqueia o acesso de GPU peer à memória protegida.³¹ A comunicação entre CVM e GPU usa criptografia AES-GCM com chaves de sessão para proteção contra o sistema host.³²
O motor DMA da H100 suporta criptografia AES GCM 256 para transferências de dados entre CPU e GPU.³³ Uma GPU em modo de computação confidencial bloqueia acesso direto à memória interna e desabilita contadores de desempenho que poderiam permitir ataques de canal lateral.³⁴ A arquitetura evoluiu de recursos de segurança anteriores: autenticação AES em firmware desde Volta, firmware criptografado e revogação desde Turing e Ampere, e agora boot medido e atestado completo com raiz de confiança de hardware em Hopper.³⁵
O Microsoft Azure oferece VMs confidenciais com GPUs NVIDIA H100 em preview, permitindo treinamento, fine-tuning e servir modelos como Stable Diffusion e grandes modelos de linguagem com proteções de computação confidencial.³⁶ A arquitetura Blackwell avança a IA confidencial ainda mais com desempenho quase idêntico seja executando modelos criptografados ou não criptografados, mesmo para LLMs.³⁷
Considerações de segurança de GPU no Kubernetes
O isolamento de namespace no Kubernetes não fornece segurança suficiente para agendamento de GPU multi-tenant.³⁸ Organizações executando cargas de trabalho de IA em Kubernetes bare metal com GPUs devem implementar controles adicionais. O NVIDIA GPU Operator permite configuração de time-slicing e MIG, mas a segurança depende de configuração e hardening adequados.
O boletim de segurança do NVIDIA Container Toolkit de setembro de 2024 provocou atualizações urgentes. As organizações devem executar Container Toolkit v1.16.2 ou superior, ou GPU Operator v24.6.2 ou superior.³⁹ As vulnerabilidades demonstraram que ataques de escape de container poderiam comprometer o isolamento de GPU mesmo quando configurado adequadamente em níveis superiores.
Soluções de terceiros abordam lacunas no gerenciamento nativo de GPU do Kubernetes. Volcano fornece um agendador de lote nativo de nuvem com controle de granularidade fina sobre prioridades e justiça para cargas de trabalho de alto desempenho.⁴⁰ Run:ai, agora parte da NVIDIA, gerencia e otimiza recursos de GPU para cargas de trabalho de IA com recursos projetados para ambientes multi-tenant.⁴¹ vCluster Labs anunciou sua Infrastructure Tenancy Platform for AI no KubeCon North America 2025, entregando fundações nativas de Kubernetes para infraestrutura de GPU NVIDIA.⁴²
Organizações usando vCluster relatam 40% de melhoria na utilização de GPU e 60% de redução nos custos de infraestrutura através de orquestração multi-tenant dinâmica.⁴³ Os ganhos de eficiência demonstram que arquiteturas multi-tenant adequadas podem melhorar tanto a segurança quanto a economia em comparação com alocações dedicadas de GPU.
Ataques de canal lateral e ameaças emergentes
Ataques de memória GPU exploram arquitetura compartilhada em ambientes multi-tenant para violar a confidencialidade de dados e degradar o desempenho.⁴⁴ Atacantes usando canais laterais baseados em contenção podem inferir informações sensíveis de cargas de trabalho co-localizadas.⁴⁵ Ataques de Memória GPU visam memória compartilhada para facilitar vazamento de informações e canais ocultos entre tenants.⁴⁶
Um ataque de hardware Rowhammer, anteriormente conhecido por afetar memória de CPU, compromete GPUs com memória GDDR e causa perda severa de precisão em modelos de IA.⁴⁷ O ataque explora o paralelismo de GPU para induzir inversões de bits, apresentando riscos particulares em ambientes de nuvem onde atacantes podem co-localizar com cargas de trabalho alvo.⁴⁸
O risco primário em ambientes de GPU virtualizados permanece ataques entre máquinas virtuais.⁴⁹ Múltiplos tenants executando cargas de trabalho na mesma GPU física criam oportunidades para falhas em mecanismos de isolamento permitirem espionagem. Isso fundamentalmente quebra o modelo de segurança de nuvem e apresenta riscos sérios à confidencialidade de dados.⁵⁰
Estratégias de mitigação incluem forte isolamento de carga de trabalho que evita executar cargas de trabalho sensíveis e não sensíveis na mesma GPU, particionamento de cache para reduzir exposição de cache compartilhado, e agendamento randomizado para complicar ataques baseados em timing.⁵¹ Tecnologias de virtualização com segurança aprimorada como Single Root I/O Virtualization fornecem proteção adicional.⁵² GPUs confidenciais representam a próxima fronteira, estendendo proteções tipo TEE para memória e fluxos de execução de GPU.⁵³
Melhores práticas de segurança empresarial
Organizações implantando infraestrutura de GPU compartilhada devem implementar controles de segurança apropriados à sua tolerância a riscos e requisitos regulatórios.
Para cargas de trabalho sensíveis, opções de tenant único onde GPUs não são compartilhadas reduzem o risco de ataques de canal lateral e se alinham com requisitos de conformidade.⁵⁴ Algumas certificações requerem hardware dedicado para certos tipos de dados.⁵⁵ O prêmio de custo para GPUs dedicadas pode ser justificado por requisitos de segurança.
A segurança de driver e firmware requer atualizações consistentes com os patches de segurança mais recentes.⁵⁶ A NVIDIA recomenda atualizações trimestrais de firmware e validações de driver durante janelas de manutenção programadas.⁵⁷ A divulgação de vulnerabilidades de janeiro de 2025 demonstra a importância de patching oportuno.
A higiene de memória entre sessões previne vazamento de dados. Zerar a memória GPU entre sessões elimina uma classe importante de ataques com impacto mínimo no desempenho