멀티테넌트 GPU 보안: 공유 인프라를 위한 격리 전략
2025년 12월 11일 업데이트
2025년 12월 업데이트: AI를 도입하는 조직의 90%가 보안 준비 상태에 자신감을 느끼는 비율은 단 5%에 불과합니다. 침해를 당한 조직의 97%가 적절한 AI 접근 제어를 갖추지 못했습니다. NVIDIA는 2025년 1월 27일 Container Toolkit 우회를 통한 루트 접근(CVE-2025-23266)을 포함한 7건의 보안 취약점을 공개했습니다. 미국 AI 인프라 보안 시장은 29억 9천만 달러 규모에 도달했습니다(연평균 성장률 22.8%).
조직의 90%가 AI 시스템을 도입하고 있지만, 보안 준비 상태에 자신감을 느끼는 비율은 단 5%에 불과합니다.¹ AI 전용 보안 자동화를 갖춘 조직은 침해당 190만 달러의 비용을 절감하고 사고 대응 주기를 80일 단축합니다.² 한편, 침해를 당한 조직의 97%는 적절한 AI 접근 제어를 갖추지 못했습니다.³ GPU 인프라가 기업 AI의 기반이 됨에 따라, 공유 GPU 리소스의 보안 모델이 조직이 워크로드를 안전하게 통합할 수 있는지, 아니면 모든 테넌트에 대해 비용이 많이 드는 전용 하드웨어를 유지해야 하는지를 결정합니다.
이 과제는 기존의 가상화 보안을 넘어섭니다. GPU는 조직의 지적 재산을 나타내는 모델 가중치, 학습 데이터, 추론 입력 등 민감한 데이터를 처리합니다. GPU 수준에서의 침해는 AI 시스템의 "두뇌"를 손상시킬 수 있습니다.⁴ 멀티테넌트 GPU 환경은 CPU 기반 가상화와 근본적으로 다른 공격 표면을 도입하며, GPU 아키텍처에 맞게 특별히 설계된 보안 전략이 필요합니다.
멀티테넌트 GPU 보안 현황
2025년 1월 27일, NVIDIA는 GPU 디스플레이 드라이버와 가상 GPU 소프트웨어에 영향을 미치는 7건의 새로운 보안 취약점을 공개했습니다.⁵ 이러한 치명적인 결함은 기업 AI 인프라에서 클라우드 컴퓨팅 플랫폼에 이르기까지 수백만 개의 시스템에 영향을 미칩니다. NVIDIA Container Toolkit 취약점 CVE-2025-23266은 악의적인 행위자가 격리 메커니즘을 우회하고 호스트 시스템에 대한 루트 접근 권한을 얻을 수 있게 했습니다.⁶ 이 공개는 조직이 무시할 수 없는 GPU 소프트웨어 스택의 시스템적 약점을 부각시켰습니다.
미국 AI 인프라 보안 시장은 29억 9천만 달러에 도달했으며 연평균 22.8%의 성장률로 확대되고 있습니다.⁷ AI 기반 공격은 2025년 전체 침해의 16%를 차지했습니다.⁸ 이러한 투자는 GPU 인프라가 일반적인 데이터센터 보호를 넘어 전용 보안 관심을 필요로 한다는 인식이 높아지고 있음을 반영합니다.
GPU 보안은 근본적인 면에서 CPU 보안과 다릅니다. GPU는 처리 중에 매우 민감한 데이터를 일시적으로 처리합니다. CPU와 달리 GPU는 특히 멀티테넌트 환경에서 항상 강력한 메모리 격리를 갖추고 있지 않습니다.⁹ 프로세스가 종료될 때 메모리가 제대로 지워지지 않으면, 공격자는 다른 사용자의 워크로드에서 남은 데이터를 검색할 수 있습니다.¹⁰ 최신 GPU의 공유 아키텍처는 공격자가 민감한 정보를 추론하거나, 동일 위치의 워크로드를 방해하거나, 은밀한 통신 채널을 구축할 수 있는 경합 기반 사이드 채널을 가능하게 합니다.¹¹
Multi-Instance GPU를 통한 하드웨어 격리
NVIDIA의 Multi-Instance GPU 기술은 고가치 GPU 하드웨어에서 안전한 멀티테넌시를 가능하게 하는 하드웨어 수준의 격리를 제공합니다.¹² Ampere 아키텍처부터 MIG는 단일 GPU를 CUDA 애플리케이션용으로 최대 7개의 개별 인스턴스로 분할할 수 있습니다.¹³ Blackwell 및 Hopper GPU는 가상화된 환경에서 멀티테넌트, 다중 사용자 구성으로 MIG 기능을 확장하여, 하드웨어 및 하이퍼바이저 수준에서 기밀 컴퓨팅으로 각 인스턴스를 보호합니다.¹⁴
이 아키텍처는 진정한 하드웨어 분리를 제공합니다. 각 MIG 파티션의 프로세서는 전체 메모리 시스템을 통해 분리되고 격리된 경로를 갖습니다.¹⁵ 온칩 크로스바 포트, L2 캐시 뱅크, 메모리 컨트롤러, DRAM 주소 버스는 개별 인스턴스에 고유하게 할당됩니다.¹⁶ 한 테넌트는 다른 테넌트의 GPU 메모리를 읽거나 덮어쓸 수 없습니다. 장애 격리는 한 사용자의 충돌한 코드가 전체 GPU에 영향을 미치거나 다른 사용자에게 영향을 주는 것을 방지합니다.¹⁷
MIG는 Linux 운영 체제, Docker Engine을 사용하는 컨테이너화된 워크로드, Kubernetes를 통한 오케스트레이션, Red Hat Virtualization 및 VMware vSphere를 포함한 하이퍼바이저를 통한 가상화 환경을 지원합니다.¹⁸ 광범위한 플랫폼 지원을 통해 조직은 전면적인 아키텍처 변경 없이 기존 인프라 내에서 GPU 격리를 구현할 수 있습니다.
MIG의 한계는 세분화에 있습니다. 7분할 파티션은 현재 하드웨어에서 최대 세분화를 나타냅니다. 더 세밀한 공유가 필요하거나 이전 세대 GPU를 지원해야 하는 조직은 대안적 접근 방식을 고려해야 합니다.
vGPU 및 타임슬라이싱 대안
NVIDIA 가상 GPU 소프트웨어는 완전한 입출력 메모리 관리 유닛 보호를 갖춘 여러 가상 머신이 단일 물리적 GPU에 동시에 접근할 수 있게 합니다.¹⁹ 보안 외에도 vGPU는 라이브 마이그레이션과 혼합 VDI 및 컴퓨트 워크로드 실행 기능을 갖춘 VM 관리를 가능하게 합니다.²⁰ 하이퍼바이저는 GPU를 가상화하고 여러 VM에 슬라이스를 할당하며, 각 VM은 자체 워크로드를 위해 GPU의 가상화된 부분을 인식합니다.
타임슬라이싱은 다른 공유 모델을 제공합니다. 시스템 관리자는 GPU에 대한 복제본 세트를 정의하며, 각 복제본은 Kubernetes에서 워크로드를 실행하는 파드에 독립적으로 전달될 수 있습니다.²¹ MIG와 달리 타임슬라이싱은 복제본 간에 메모리 또는 장애 격리를 제공하지 않습니다.²² 한 작업이 충돌하거나 오작동하면 GPU를 공유하는 다른 작업에 영향을 줄 수 있습니다.²³ 이러한 절충은 격리보다 접근을 선호합니다: 타임슬라이싱은 더 많은 사용자가 공유할 수 있게 하고 MIG를 지원하지 않는 이전 세대 GPU에 대한 접근을 제공합니다.²⁴
보안 영향에 대한 명확한 이해가 필요합니다. 타임슬라이싱은 개발 환경, 테스트, 테넌트가 서로를 신뢰하거나 데이터 민감도가 하드웨어 격리를 보장하지 않는 워크로드에 적합합니다. 멀티테넌트 보안 요구 사항이 있는 프로덕션 배포는 타임슬라이싱보다 MIG 또는 전용 GPU를 선호해야 합니다.
하이브리드 접근 방식은 두 기술을 결합합니다. 조직은 GPU를 그룹 격리를 보장하는 MIG 인스턴스로 분할한 다음 각 인스턴스 내에서 타임슬라이싱 스케줄러를 실행할 수 있습니다.²⁵ Kubernetes 클러스터에서 네임스페이스당 MIG 슬라이스를 할당하고 각 슬라이스 내에서 작업을 타임셰어링하면 보안과 비용 효율성의 균형을 맞출 수 있습니다.²⁶
GPU의 기밀 컴퓨팅
NVIDIA H100 Tensor Core GPU는 온다이 하드웨어 신뢰 루트에 기반한 하드웨어 기반 신뢰 실행 환경을 사용하여 GPU에 기밀 컴퓨팅을 도입했습니다.²⁷ H100 이전에는 기밀 컴퓨팅 기능이 AMD와 Intel의 CPU에만 존재했습니다.²⁸ H100은 민감한 정보가 포함된 AI 학습 및 추론 워크로드에 대한 데이터 보호를 제공합니다.²⁹
기술 아키텍처는 CPU 기밀 가상 머신 기능을 기반으로 합니다. GPU 솔루션은 CPU의 AMD SEV-SNP 또는 Intel TDX에 의해 활성화된 기밀 VM 신뢰 실행 환경에 의존합니다.³⁰ PCIe 방화벽은 대부분의 레지스터와 모든 GPU 보호 메모리에 대한 CPU 접근을 차단합니다. NVLink 방화벽은 보호된 메모리에 대한 피어 GPU 접근을 차단합니다.³¹ CVM과 GPU 간의 통신은 호스트 시스템으로부터 보호하기 위해 세션 키와 함께 AES-GCM 암호화를 사용합니다.³²
H100의 DMA 엔진은 CPU와 GPU 간의 데이터 전송에 대해 AES GCM 256 암호화를 지원합니다.³³ 기밀 컴퓨팅 모드의 GPU는 내부 메모리에 대한 직접 접근을 차단하고 사이드 채널 공격을 가능하게 할 수 있는 성능 카운터를 비활성화합니다.³⁴ 이 아키텍처는 이전 보안 기능에서 발전했습니다: Volta 이후 펌웨어에 대한 AES 인증, Turing 및 Ampere 이후 암호화된 펌웨어 및 해지, 그리고 이제 Hopper에서 하드웨어 신뢰 루트를 통한 완전한 측정 및 증명 부팅입니다.³⁵
Microsoft Azure는 NVIDIA H100 GPU가 탑재된 기밀 VM을 프리뷰로 제공하여 Stable Diffusion 및 대규모 언어 모델과 같은 모델의 학습, 미세 조정, 서비스를 기밀 컴퓨팅 보호와 함께 가능하게 합니다.³⁶ Blackwell 아키텍처는 LLM의 경우에도 암호화된 모델과 암호화되지 않은 모델을 실행할 때 거의 동일한 성능으로 기밀 AI를 더욱 발전시킵니다.³⁷
Kubernetes GPU 보안 고려 사항
Kubernetes의 네임스페이스 격리는 멀티테넌트 GPU 스케줄링에 충분한 보안을 제공하지 않습니다.³⁸ GPU가 있는 베어메탈 Kubernetes에서 AI 워크로드를 실행하는 조직은 추가 제어를 구현해야 합니다. NVIDIA GPU Operator는 타임슬라이싱 및 MIG 구성을 가능하게 하지만, 보안은 적절한 구성과 강화에 달려 있습니다.
2024년 9월 NVIDIA Container Toolkit 보안 공지는 긴급한 업그레이드를 촉구했습니다. 조직은 Container Toolkit v1.16.2 이상 또는 GPU Operator v24.6.2 이상을 실행해야 합니다.³⁹ 이 취약점은 상위 수준에서 적절하게 구성되었더라도 컨테이너 탈출 공격이 GPU 격리를 손상시킬 수 있음을 보여주었습니다.
타사 솔루션은 네이티브 Kubernetes GPU 관리의 격차를 해결합니다. Volcano는 고성능 워크로드에 대한 우선순위와 공정성의 세밀한 제어를 갖춘 클라우드 네이티브 배치 스케줄러를 제공합니다.⁴⁰ 현재 NVIDIA의 일부인 Run:ai는 멀티테넌트 환경을 위해 설계된 기능으로 AI 워크로드에 대한 GPU 리소스를 관리하고 최적화합니다.⁴¹ vCluster Labs는 KubeCon North America 2025에서 AI용 Infrastructure Tenancy Platform을 발표하여 NVIDIA GPU 인프라를 위한 Kubernetes 네이티브 기반을 제공했습니다.⁴²
vCluster를 사용하는 조직은 동적 멀티테넌트 오케스트레이션을 통해 GPU 활용도가 40% 향상되고 인프라 비용이 60% 감소했다고 보고합니다.⁴³ 이러한 효율성 향상은 적절한 멀티테넌트 아키텍처가 전용 GPU 할당에 비해 보안과 경제성을 모두 개선할 수 있음을 보여줍니다.
사이드 채널 공격 및 새로운 위협
GPU 메모리 공격은 멀티테넌트 환경에서 공유 아키텍처를 악용하여 데이터 기밀성을 침해하고 성능을 저하시킵니다.⁴⁴ 경합 기반 사이드 채널을 사용하는 공격자는 동일 위치의 워크로드에서 민감한 정보를 추론할 수 있습니다.⁴⁵ GPU Memory Attacks는 공유 메모리를 대상으로 하여 테넌트 간의 정보 누출 및 은밀한 채널을 용이하게 합니다.⁴⁶
이전에 CPU 메모리에 영향을 미치는 것으로 알려진 Rowhammer 하드웨어 공격은 GDDR 메모리가 있는 GPU를 손상시키고 심각한 AI 모델 정확도 손실을 야기합니다.⁴⁷ 이 공격은 GPU 병렬성을 악용하여 비트 플립을 유발하며, 공격자가 대상 워크로드와 동일 위치에 있을 수 있는 클라우드 환경에서 특히 위험합니다.⁴⁸
가상화된 GPU 환경에서의 주요 위험은 여전히 가상 머신 간 공격입니다.⁴⁹ 동일한 물리적 GPU에서 워크로드를 실행하는 여러 테넌트는 격리 메커니즘 결함이 스누핑을 가능하게 하는 기회를 만듭니다. 이것은 클라우드 보안 모델을 근본적으로 깨뜨리고 데이터 기밀성에 심각한 위험을 초래합니다.⁵⁰
완화 전략에는 동일한 GPU에서 민감한 워크로드와 비민감한 워크로드 실행을 피하는 강력한 워크로드 격리, 공유 캐시 노출을 줄이기 위한 캐시 파티셔닝, 타이밍 기반 공격을 복잡하게 만드는 무작위 스케줄링이 포함됩니다.⁵¹ Single Root I/O Virtualization 또는 유사한 보안 강화 가상화 기술은 추가 보호를 제공합니다.⁵² 기밀 GPU는 TEE와 유사한 보호를 GPU 메모리 및 실행 흐름으로 확장하는 다음 개척지를 나타냅니다.⁵³
기업 보안 모범 사례
공유 GPU 인프라를 배포하는 조직은 위험 허용 범위와 규제 요구 사항에 적합한 보안 제어를 구현해야 합니다.
민감한 워크로드의 경우, GPU를 공유하지 않는 단일 테넌트 옵션은 사이드 채널 공격의 위험을 줄이고 규정 준수 요구 사항에 부합합니다.⁵⁴ 일부 인증은 특정 데이터 유형에 대해 전용 하드웨어를 요구합니다.⁵⁵ 전용 GPU에 대한 비용 프리미엄은 보안 요구 사항에 의해 정당화될 수 있습니다.
드라이버 및 펌웨어 보안은 최신 보안 패치로 일관된 업데이트가 필요합니다.⁵⁶ NVIDIA는 예정된 유지 관리 기간 동안 분기별 펌웨어 업데이트 및 드라이버 검증을 권장합니다.⁵⁷ 2025년 1월 취약점 공개는 적시 패치의 중요성을 보여줍니다.
세션 간 메모리 위생은 데이터 누출을 방지합니다. 세션 간 GPU 메모리 초기화는 최소한의 성능 영향으로 주요 공격 유형을 제거합니다.
[콘텐츠가 번역을 위해 잘림]