多租户GPU安全:共享基础设施的隔离策略
更新于2025年12月11日
2025年12月更新: 90%的组织正在部署AI,但只有5%对安全准备状态感到有信心。97%遭遇数据泄露的组织缺乏适当的AI访问控制。NVIDIA于2025年1月27日披露了七个安全漏洞,其中包括CVE-2025-23266——该漏洞允许通过Container Toolkit绕过机制获取root权限。美国AI基础设施安全市场规模达到29.9亿美元(年复合增长率22.8%)。
90%的组织部署了AI系统,但只有5%对其安全准备状态感到有信心。¹ 采用AI专用安全自动化的组织在每次数据泄露中可节省190万美元,并将事件处理周期缩短80天。² 与此同时,97%遭遇数据泄露的组织缺乏适当的AI访问控制。³ 随着GPU基础设施成为企业AI的基石,共享GPU资源的安全模型决定了组织能否安全地整合工作负载,还是必须为每个租户维护昂贵的专用硬件。
这一挑战超越了传统的虚拟化安全范畴。GPU处理的敏感数据包括模型权重、训练数据和推理输入——这些都代表着组织的知识产权。GPU层面的安全漏洞可能会危及AI系统的"大脑"。⁴ 多租户GPU环境引入的攻击面与基于CPU的虚拟化有本质区别,需要专门针对GPU架构设计的安全策略。
多租户GPU安全格局
2025年1月27日,NVIDIA披露了七个影响GPU显示驱动程序和虚拟GPU软件的新安全漏洞。⁵ 这些关键缺陷影响了数百万个系统,从企业AI基础设施到云计算平台。NVIDIA Container Toolkit漏洞CVE-2025-23266允许恶意行为者绕过隔离机制并获取主机系统的root访问权限。⁶ 这次披露凸显了GPU软件堆栈中组织不可忽视的系统性弱点。
美国AI基础设施安全市场规模达到29.9亿美元,年复合增长率为22.8%。⁷ 2025年,AI驱动的攻击占所有数据泄露事件的16%。⁸ 这一投资反映出人们日益认识到GPU基础设施需要超越一般数据中心保护的专门安全关注。
GPU安全与CPU安全在本质上存在差异。GPU在处理过程中临时处理极其敏感的数据。与CPU不同,GPU并不总是具有强健的内存隔离,尤其是在多租户环境中。⁹ 如果进程结束时内存未正确清除,攻击者可能会获取另一个用户工作负载的残留数据。¹⁰ 现代GPU的共享架构使基于争用的侧信道攻击成为可能,攻击者可以通过这些信道推断敏感信息、干扰共置的工作负载或建立隐蔽通信通道。¹¹
Multi-Instance GPU的硬件隔离
NVIDIA的Multi-Instance GPU(MIG)技术提供硬件级隔离,可在高价值GPU硬件上实现安全的多租户。¹² 从Ampere架构开始,MIG允许将单个GPU划分为最多七个独立的CUDA应用实例。¹³ Blackwell和Hopper GPU扩展了MIG功能,支持虚拟化环境中的多租户、多用户配置,在硬件和Hypervisor层面通过机密计算保护每个实例。¹⁴
该架构提供真正的硬件分离。每个MIG分区的处理器在整个内存系统中具有独立隔离的路径。¹⁵ 片上交叉开关端口、L2缓存库、内存控制器和DRAM地址总线被唯一分配给各个实例。¹⁶ 一个租户无法读取或覆盖另一个租户的GPU内存。故障隔离机制防止一个用户崩溃的代码影响整个GPU或其他用户。¹⁷
MIG支持Linux操作系统、使用Docker Engine的容器化工作负载、使用Kubernetes的编排,以及通过Red Hat Virtualization和VMware vSphere等Hypervisor的虚拟化环境。¹⁸ 广泛的平台支持使组织能够在现有基础设施内实施GPU隔离,无需进行大规模架构变更。
MIG的局限性在于粒度。在当前硬件上,7路分区代表了最大细分程度。需要更细粒度共享或支持旧GPU代产品的组织必须考虑替代方案。
vGPU和时间分片替代方案
NVIDIA虚拟GPU软件使具有完整输入输出内存管理单元保护的多个虚拟机能够同时访问单个物理GPU。¹⁹ 除安全性外,vGPU还支持实时迁移的VM管理以及运行混合VDI和计算工作负载的能力。²⁰ Hypervisor虚拟化GPU并将切片分配给多个VM,每个VM感知到用于其工作负载的GPU虚拟化部分。
时间分片提供了一种不同的共享模型。系统管理员为GPU定义一组副本,每个副本可以独立分配给在Kubernetes中运行工作负载的pod。²¹ 与MIG不同,时间分片不提供副本之间的内存或故障隔离。²² 如果一个任务崩溃或行为异常,可能会影响共享GPU的其他任务。²³ 这种权衡倾向于访问而非隔离:时间分片使更多用户能够共享,并为不支持MIG的旧GPU代产品提供访问。²⁴
安全影响需要清楚理解。时间分片适用于开发环境、测试以及租户相互信任或数据敏感性不需要硬件隔离的工作负载。具有多租户安全要求的生产部署应优先选择MIG或专用GPU,而非时间分片。
混合方法结合了两种技术。组织可以将GPU划分为确保组隔离的MIG实例,然后在每个实例内运行时间分片调度程序。²⁵ 在Kubernetes集群中,为每个命名空间分配一个MIG切片并在每个切片内进行作业时间共享,可以平衡安全性与成本效率。²⁶
GPU上的机密计算
NVIDIA H100 Tensor Core GPU将机密计算引入GPU,使用基于硬件的可信执行环境,该环境锚定于片上硬件信任根。²⁷ 在H100之前,机密计算功能仅存在于AMD和Intel的CPU中。²⁸ H100为涉及敏感信息的AI训练和推理工作负载提供数据保护。²⁹
技术架构建立在CPU机密虚拟机功能之上。GPU解决方案依赖于由CPU上的AMD SEV-SNP或Intel TDX启用的机密VM可信执行环境。³⁰ PCIe防火墙阻止CPU访问大多数寄存器和所有GPU受保护内存。NVLink防火墙阻止对等GPU访问受保护内存。³¹ CVM和GPU之间的通信使用带有会话密钥的AES-GCM加密来防范主机系统。³²
H100的DMA引擎支持CPU和GPU之间数据传输的AES GCM 256加密。³³ 处于机密计算模式的GPU会阻止对内部内存的直接访问,并禁用可能启用侧信道攻击的性能计数器。³⁴ 该架构从早期的安全功能演进而来:自Volta以来的固件AES认证、自Turing和Ampere以来的加密固件和撤销功能,以及现在Hopper中具有硬件信任根的完整测量和证明启动。³⁵
Microsoft Azure提供带有NVIDIA H100 GPU的机密VM预览版,可使用机密计算保护来训练、微调和服务Stable Diffusion和大型语言模型等模型。³⁶ Blackwell架构进一步推进机密AI,无论运行加密还是未加密模型,性能几乎相同,即使对于LLM也是如此。³⁷
Kubernetes GPU安全考量
Kubernetes中的命名空间隔离不足以为多租户GPU调度提供充分的安全性。³⁸ 在裸机Kubernetes上使用GPU运行AI工作负载的组织必须实施额外的控制措施。NVIDIA GPU Operator支持时间分片和MIG配置,但安全性取决于正确的配置和加固。
2024年9月的NVIDIA Container Toolkit安全公告促使紧急升级。组织应运行Container Toolkit v1.16.2或更高版本,或GPU Operator v24.6.2或更高版本。³⁹ 这些漏洞表明,即使在更高层面正确配置,容器逃逸攻击仍可能破坏GPU隔离。
第三方解决方案解决了原生Kubernetes GPU管理中的差距。Volcano提供云原生批处理调度程序,对高性能工作负载具有细粒度的优先级和公平性控制。⁴⁰ Run:ai(现为NVIDIA的一部分)管理和优化AI工作负载的GPU资源,具有专为多租户环境设计的功能。⁴¹ vCluster Labs在KubeCon North America 2025上宣布了其AI基础设施租户平台,为NVIDIA GPU基础设施提供Kubernetes原生基础。⁴²
使用vCluster的组织报告称,通过动态多租户编排,GPU利用率提高了40%,基础设施成本降低了60%。⁴³ 效率提升表明,与专用GPU分配相比,适当的多租户架构可以同时改善安全性和经济性。
侧信道攻击和新兴威胁
GPU内存攻击利用多租户环境中的共享架构来破坏数据机密性并降低性能。⁴⁴ 使用基于争用的侧信道的攻击者可以从共置的工作负载中推断敏感信息。⁴⁵ GPU内存攻击针对共享内存,以促进租户之间的信息泄露和隐蔽通道。⁴⁶
Rowhammer硬件攻击此前已知会影响CPU内存,现在也会破坏具有GDDR内存的GPU,并导致严重的AI模型精度损失。⁴⁷ 该攻击利用GPU并行性来诱导位翻转,在攻击者可能与目标工作负载共置的云环境中构成特殊风险。⁴⁸
虚拟化GPU环境中的主要风险仍然是跨虚拟机攻击。⁴⁹ 多个租户在同一物理GPU上运行工作负载,为隔离机制缺陷创造了窥探机会。这从根本上破坏了云安全模型,对数据机密性构成严重风险。⁵⁰
缓解策略包括:强工作负载隔离——避免在同一GPU上运行敏感和非敏感工作负载;缓存分区——减少共享缓存暴露;以及随机调度——使基于时序的攻击复杂化。⁵¹ Single Root I/O Virtualization或类似的安全增强虚拟化技术提供额外保护。⁵² 机密GPU代表下一个前沿,将类似TEE的保护扩展到GPU内存和执行流。⁵³
企业安全最佳实践
部署共享GPU基础设施的组织应实施与其风险承受能力和监管要求相适应的安全控制。
对于敏感工作负载,不共享GPU的单租户选项可降低侧信道攻击风险并符合合规要求。⁵⁴ 某些认证要求某些数据类型使用专用硬件。⁵⁵ 专用GPU的成本溢价可能因安全要求而合理。
驱动程序和固件安全需要使用最新的安全补丁进行一致更新。⁵⁶ NVIDIA建议在计划维护窗口期间进行季度固件更新和驱动程序验证。⁵⁷ 2025年1月的漏洞披露证明了及时修补的重要性。
会话之间的内存清理可防止数据泄露。在会话之间将GPU内存归零可以以最小的性能影响消除一大类攻击。