AI 최적화 스토리지: NVMe-oF, GPUDirect 및 병렬 파일 시스템 2025

AI 스토리지 시장이 2035년까지 360억 달러에서 3,220억 달러로 성장합니다. DDN은 NVIDIA Eos에 4TB/s를 제공합니다. GPUDirect, NVMe-oF, 병렬 파일 시스템이 대규모 GPU 클러스터에 데이터를 공급합니다.

AI 최적화 스토리지: NVMe-oF, GPUDirect 및 병렬 파일 시스템 2025

AI 최적화 스토리지: GPU 클러스터에 데이터를 공급하는 기술 스택

2025년 12월 11일 업데이트

2025년 12월 업데이트: AI 스토리지 시장이 2025년 360억 달러에서 2035년 3,220억 달러로 성장 중입니다. DDN EXAScaler가 NVIDIA Eos 슈퍼컴퓨터에 4TB/s를 제공합니다. GPUDirect Storage가 40+ GB/s 직접 전송을 가능하게 하며, NVIDIA의 2025년 11월 SCADA 기술은 마지막 남은 CPU 개입마저 제거합니다. NVMe-oF는 조직들이 네트워크 전반에 PCIe 수준의 지연 시간을 확장함에 따라 연평균 27.8% 성장률을 기록하고 있습니다.

스토리지 병목 현상은 GPU를 유휴 상태로 만듭니다. 단일 DDN EXAScaler 구현은 NVIDIA의 Eos 슈퍼컴퓨터에 초당 4테라바이트를 제공하여 576대의 DGX H100 시스템에서 18.4엑사플롭스의 AI 성능을 지원합니다.¹ GPU 한 대당 수만 달러가 들고 학습 클러스터가 수천 개의 가속기에 달할 때, 데이터 처리량을 유지하지 못하는 스토리지 인프라는 수백만 달러의 컴퓨팅 자원을 낭비하게 됩니다. AI 기반 스토리지 시장은 이러한 긴급성을 반영하여 2025년 362.8억 달러에서 2035년 3,219.3억 달러로 연평균 24.4% 성장률로 확대될 것으로 예상됩니다.²

현대 AI 워크로드는 기존 엔터프라이즈 애플리케이션과 근본적으로 다른 스토리지 성능 특성을 요구합니다. 페타바이트 단위의 학습 데이터셋은 지속적인 순차 처리량이 필요합니다. 체크포인팅 작업은 학습 중단을 최소화하기 위해 몇 초 내에 완료되어야 합니다. 추론 워크로드는 작은 랜덤 읽기와 버스트 쓰기가 혼합된 예측 불가능한 I/O 패턴을 생성합니다. 대규모 AI 인프라를 배포하는 조직들은 이제 기존 IOPS 벤치마크 대신 GPU 활용률 지표를 기반으로 스토리지 시스템을 평가합니다.

NVMe-oF가 네트워크 전반으로 플래시 성능을 확장

NVMe over Fabrics(NVMe-oF)는 고성능 이더넷 또는 InfiniBand 패브릭을 통해 NVMe SSD의 저지연 공유를 제공함으로써 대규모 고성능 워크로드를 가능하게 합니다.³ 이 프로토콜은 로컬에 연결된 NVMe SSD와 유사한 성능을 제공하면서도 조직이 컴퓨팅, GPU, 메모리 할당과 독립적으로 스토리지 리소스를 확장할 수 있게 합니다.⁴

기존 스토리지 프로토콜은 회전 디스크에 최적화된 소프트웨어 스택을 통해 밀리초 단위의 지연 시간을 추가합니다. NVMe-oF는 이러한 계층을 제거하여 RDMA 전송을 사용할 때 수천 개의 노드로 확장하더라도 수십 마이크로초의 지연 시간을 달성합니다.⁵ TCP 전송은 일반 이더넷을 통한 배포를 가능하게 하면서도 기존 NFS나 iSCSI 프로토콜에 비해 상당한 성능 향상을 제공합니다.⁶

AI 인프라에서 NVMe-oF가 중요한 곳은 모든 마이크로초가 중요한 영역입니다: GPU가 데이터를 기다리며 유휴 상태가 되는 학습 파이프라인, 엄격한 시간 내에 완료해야 하는 체크포인트 작업, 밀리초 미만의 응답 시간이 필요한 추론 워크로드가 그것입니다.⁷ 발표된 벤치마크에 따르면 GPUDirect Storage 통합 시 초당 351 GiB의 순차 읽기가 가능하며, I/O 바운드 구성에서 지연 시간 감소로 효과적인 GPU 활용률이 2~3배 향상될 것으로 예상됩니다.⁸

2025년을 거치며 업계 도입이 가속화되고 있습니다. Western Digital과 Ingrasys는 2025년 5월 GPU 서버 전문성과 NVMe-oF 및 패브릭 연결 스토리지 역량을 결합하는 파트너십을 체결했습니다.⁹ Hitachi Vantara는 2025년 11월 미션 크리티컬 및 AI 워크로드를 위해 설계된 차세대 올플래시 NVMe 블록 스토리지 솔루션인 Virtual Storage Platform One Block High End를 출시했습니다.¹⁰ NVMe-oF 시스템은 조직들이 분산 AI 클러스터에서 GPU 활용률을 높이기 위해 네트워크 전반에 PCIe 수준의 지연 시간을 확장함에 따라 연평균 27.80% 성장률을 기록할 것으로 예측됩니다.¹¹

GPUDirect Storage가 CPU 병목 현상 제거

NVIDIA의 GPUDirect Storage는 CPU와 시스템 메모리를 거치지 않고 스토리지에서 GPU 메모리로 직접 데이터를 전송할 수 있게 합니다.¹² 이 기술은 대규모 데이터셋이 처리를 위해 GPU 메모리로 지속적으로 흘러들어가야 하는 AI 학습 파이프라인의 근본적인 성능 장벽을 제거합니다.

딥러닝 학습은 다양한 학습 단계에서 학습된 네트워크 가중치를 디스크에 저장하는 빈번한 체크포인팅 작업을 포함합니다. 정의상 체크포인팅은 중요한 I/O 경로에 위치합니다.¹³ 1,000억 개 파라미터 모델은 체크포인트당 약 800GB~1.6TB를 생성하며, 16,000개의 가속기로 대규모 학습 시 하루 155개의 체크포인트가 필요합니다.¹⁴ 오버헤드를 5% 미만으로 유지하려면 해당 규모에서 체크포인트 작업이 28초 이내에 완료되어야 하며, 100,000개 가속기 클러스터에서는 4.4초로 줄어듭니다.¹⁵

GPUDirect Storage는 스토리지에서 GPU 메모리로 40+ GBps의 직접 전송 속도를 제공하여 이러한 요구 사항을 해결합니다.¹⁶ Lenovo/NVIDIA 레퍼런스 아키텍처는 노드당 20 GBps를 선형 확장 기능과 함께 제공하여 LLM 학습, 추론 및 체크포인팅 기능을 지원합니다.¹⁷ NVIDIA의 2025년 11월 SCADA 기술은 스토리지 제어 경로까지 GPU로 오프로드하여 스토리지 작업에서 마지막 CPU 개입마저 제거함으로써 GPUDirect를 한 단계 더 발전시킵니다.¹⁸

생태계 전반에 걸쳐 하드웨어 구현이 확산되고 있습니다. HighPoint Rocker 7638D 어댑터는 최대 64 GB/s 대역폭과 예측 가능한 지연 시간으로 GPUDirect Storage 워크플로를 지원하며, 특히 대규모 학습 데이터셋에 유용합니다.¹⁹ DDN, Pure Storage, WEKA, VAST Data를 포함한 스토리지 벤더들이 NVIDIA DGX 및 HGX 시스템과의 GPUDirect 통합을 위해 자사 플랫폼을 인증하고 있습니다.

병렬 파일 시스템이 엑사스케일 AI를 구동

병렬 파일 시스템은 여러 서버에 데이터와 메타데이터를 분산하여 스토리지 노드 수에 따라 확장되는 총 처리량을 가능하게 합니다. AI 및 HPC 배포에서는 세 가지 플랫폼이 주도적입니다: Lustre, IBM Storage Scale(구 GPFS), WekaFS.

Lustre는 병렬 파일 시스템에서 41%의 시장 점유율을 차지하며, IBM Storage Scale이 17%, WEKA가 6%로 뒤따릅니다.²⁰ 각 아키텍처는 서로 다른 워크로드 특성에 최적화되어 있습니다.

Lustre는 과학 시뮬레이션 및 비디오 렌더링 파이프라인을 포함한 대용량 순차 작업이 주를 이루는 환경에서 탁월합니다.²¹ 이 아키텍처는 작은 파일 처리보다 지속적인 대역폭을 우선시하며, 대역폭 집약적 워크로드에 대해 추가 Object Storage Server(OSS)와 함께 거의 선형적인 성능 확장을 달성합니다.²² Lustre는 InfiniBand 패브릭과 함께 최상의 성능을 발휘하며 세계 대부분의 슈퍼컴퓨터를 구동합니다. DDN의 EXAScaler 제품은 성능 최적화 및 엔터프라이즈 관리 기능과 함께 Lustre를 패키징합니다.

IBM Storage Scale은 메타데이터 집약적 작업에서 우수한 성능을 제공합니다.²³ 분산 메타데이터 접근 방식은 Lustre의 중앙 집중식 메타데이터 서버 아키텍처보다 작은 파일 생성, 속성 수정, 복잡한 디렉토리 구조화를 더 효율적으로 수행합니다.²⁴ Storage Scale은 다양한 I/O 패턴에서 일관된 성능을 제공하며 GPUDirect 지원과 함께 NVIDIA DGX SuperPOD 레퍼런스 아키텍처에 통합됩니다.²⁵

WekaFS는 AI/ML 워크로드를 특별히 타겟으로 하며, 회전 디스크 아키텍처에서 개조된 것이 아닌 처음부터 NVMe SSD용으로 설계되었습니다.²⁶ WEKA의 분산 메타데이터는 기존 병렬 파일 시스템을 제한하는 메타데이터 서버 병목 현상을 제거합니다.²⁷ 벤치마크에 따르면 WekaFS는 유사한 용량에서 FSx for Lustre보다 300% 이상 뛰어난 성능을 보이며, I/O 지연 시간이 때로는 경쟁 솔루션의 30% 미만입니다.²⁸ WekaFS는 pNFS, SMB, S3 프로토콜을 지원하여 AI 파이프라인에서 흔한 다중 프로토콜 액세스 패턴을 가능하게 합니다.

DDN, Pure Storage, VAST Data가 벤더 환경을 선도

세 스토리지 벤더가 GPU 클러스터 워크로드를 위해 특별히 설계된 제품으로 AI 인프라 배포를 주도하고 있습니다.

DDN은 가장 주목받는 AI 슈퍼컴퓨터를 구동합니다. NVIDIA의 Eos 시스템은 576대의 DGX H100 시스템과 48대의 DDN A³I 어플라이언스를 통합하여 3랙 미만의 공간에서 100kW만 사용하면서 4테라바이트/초 처리량의 12페타바이트 스토리지를 제공합니다.²⁹ DDN은 2025년 3월 Blackwell 인증을 발표하여 DGX GB200 및 DGX B200 시스템이 포함된 DGX SuperPOD용으로 EXAScaler와 Infinia 2.0을 최적화했습니다.³⁰ 단일 DDN AI400X2-Turbo는 DGX B200과 페어링 시 읽기 및 쓰기 작업 모두에서 GPU당 1 GBps 최소 요구 사항의 10배를 달성하며 최대 96%의 네트워크 활용률을 제공합니다.³¹ 인도의 주권 AI 이니셔티브를 위한 DDN과 Yotta의 파트너십은 8,000개의 NVIDIA B200 GPU를 구동하는 EXAScaler AI400X3 시스템을 배포했습니다.³²

Pure Storage는 2025년 3월 FlashBlade//EXA를 출시하여 단일 네임스페이스에서 10테라바이트/초 이상의 읽기 성능을 예상합니다.³³ 이 플랫폼은 1~수만 개의 GPU를 실행하며 1 TB/초~50 TB/초의 스토리지 처리량이 필요한 고객을 타겟으로 합니다.³⁴ FlashBlade//EXA의 분리형 아키텍처는 타사 데이터 노드를 사용하여 데이터와 메타데이터를 독립적으로 확장하여 대규모 병렬 성능을 가능하게 합니다.³⁵ Pure Storage는 GPUDirect Storage 지원과 함께 NVIDIA AI Data Platform 레퍼런스 설계를 통합하여 NVIDIA DGX SuperPOD와 FlashBlade//S500 인증을 획득했습니다.³⁶

VAST Data는 2025년 5월까지 누적 소프트웨어 예약 20억 달러를 달성했습니다.³⁷ DASE(Distributed and Shared Everything) 아키텍처는 100,000개 이상의 GPU 클러스터에서 테라바이트/초의 획기적인 병렬 처리를 제공하여 AI 데이터 병목 현상을 제거합니다.³⁸ VAST는 급진적인 효율성을 통해 까다로운 AI 워크로드에서 50% 이상 낮은 총 소유 비용을 주장합니다.³⁹ 이 플랫폼은 업계 표준 NFS, SMB, S3, Kubernetes CSI 액세스와 함께 엑사바이트 규모의 올플래시 스토리지를 지원합니다.⁴⁰ Microsoft Azure는 2025년 11월 온프레미스 AI 파이프라인을 GPU 가속 클라우드 인프라로 확장하기 위한 VAST의 AI Operating System과의 통합을 발표했습니다.⁴¹

체크포인팅 아키텍처가 속도와 안정성의 균형을 맞춤

모델 체크포인팅은 AI 학습에서 가장 까다로운 스토리지 요구 사항을 생성합니다. 체크포인트 크기는 파라미터 수에 따라 확장됩니다: 혼합 정밀도 학습의 경우 파라미터당 약 8~12바이트가 필요하므로 1,000억 개 파라미터 모델은 체크포인트당 800GB~1.2TB를 생성합니다.⁴² 빈도 요구 사항은 클러스터 규모에 따라 강화되어 100,000개 가속기 배포에서는 1.5분마다 체크포인트가 필요합니다.⁴³

현대 학습 시스템은 계층화된 체크포인팅 아키텍처를 사용합니다. 고속 계층 체크포인트는 몇 분마다 노드 로컬 NVMe 스토리지에 기록됩니다. 중간 계층 체크포인트는 30분마다 공유 파일 시스템으로 전파됩니다. 내구성 있는 체크포인트는 몇 시간마다만 Amazon S3와 같은 오브젝트 스토리지에 도달합니다.⁴⁴ 비동기 체크포인팅은 백그라운드 프로세스가 로컬 스토리지를 글로벌 계층으로 드레인하는 동안 학습이 계속되도록 합니다.⁴⁵

글로벌 체크포인트 대역폭 요구 사항은 대규모에서도 놀랍도록 적당합니다. 실제 시스템에서 85,000개의 체크포인트를 분석한 결과, 조 단위 파라미터 모델에서도 대역폭이 일반적으로 1 TB/s 이하였습니다.⁴⁶ GPU당 체크포인트 대역폭은 모델 크기가 커질수록 감소하는데, 이는 체크포인팅 중 전체 클러스터 크기에 관계없이 단일 데이터 병렬 복제본만 기록하기 때문입니다.⁴⁷

보고된 처리량은 구현에 따라 크게 다릅니다. Gemini는 3.13 GB/s 체크포인트 처리량을 보고합니다. Microsoft의 Nebula(DeepSpeed)는 1-4 GB/s를 달성합니다. 이러한 수치는 체크포인트 빈도, 스토리지 계층, 허용 가능한 학습 오버헤드 간의 아키텍처적 트레이드오프를 반영합니다.⁴⁸

컴퓨테이셔널 스토리지가 처리를 데이터로 이동

컴퓨테이셔널 스토리지 디바이스(CSD)는 스토리지 하드웨어 내에 컴퓨팅 기능을 내장하여 전송 전에 데이터를 처리함으로써 I/O 대역폭 요구 사항을 줄입니다.⁴⁹ 이 아키텍처는 제한된 컴퓨팅 리소스, 엄격한 전력 예산, 실시간 지연 시간 요구 사항에 직면한 엣지 AI 배포에 특히 유용합니다.⁵⁰

고급 CSD 애플리케이션에는 스토리지 디바이스에서 직접 데이터베이스, 머신러닝 모델, 분석을 실행하는 것이 포함됩니다. 일부 구현은 전체 Linux 운영 체제를 지원하여 드라이브 자체에서 AI/ML 추론을 가능하게 합니다.⁵¹ 엣지 배포는 스토리지 계층에서 초기 처리를 수행하여 메인 프로세서로 전송하기 전에 결과를 필터링함으로써 이점을 얻습니다.⁵²

이 기술은 엣지 AI의 고유한 제약을 해결합니다. 추론 실행이 접근성, 맞춤화, 효율성을 향상시키기 위해 점점 더 엣지 디바이스로 이동하고 있습니다.⁵³ Cisco는 2025년 11월 실시간 AI를 위한 컴퓨팅, 네트워킹, 스토리지, 보안을 통합하는 통합 컴퓨팅 플랫폼인 Unified Edge를 출시했습니다.

[번역을 위해 콘텐츠 잘림]

견적 요청_

프로젝트에 대해 알려주시면 72시간 내에 답변드리겠습니다.

> 전송_완료

요청이 접수되었습니다_

문의해 주셔서 감사합니다. 저희 팀이 요청사항을 검토한 후 72시간 내에 답변드리겠습니다.

처리_대기_중