AI 데이터 파이프라인 아키텍처: 100GB/s로 페타바이트 규모 학습 데이터 공급하기

Meta의 데이터 전처리 서비스(DPP)가 엑사바이트 규모 학습 클러스터에서 데이터 지연을 완전히 제거합니다. WEKApod는 8개의 스토리지 노드에서 768개의 H100 GPU에 720GB/s 처리량을 제공합니다. PCIe Gen5...

AI 데이터 파이프라인 아키텍처: 100GB/s로 페타바이트 규모 학습 데이터 공급하기

AI 데이터 파이프라인 아키텍처: 100GB/s로 페타바이트 규모 학습 데이터 공급하기

2025년 12월 11일 업데이트

2025년 12월 업데이트: Meta의 데이터 전처리 서비스(DPP)가 엑사바이트 규모 학습 클러스터에서 데이터 지연을 완전히 제거합니다. WEKApod는 8개의 스토리지 노드로 768개의 H100 GPU를 지원하며 720GB/s 처리량을 달성했습니다. PCIe Gen5 NVMe SSD는 14GB/s 이상의 순차 읽기 속도를 제공하며 학습 계층 스토리지의 표준으로 자리잡고 있습니다. Feature store와 계층형 캐싱 아키텍처는 콜드 데이터 접근 지연 시간을 10배 단축합니다.

Meta는 GPU 사이클의 56%가 학습 데이터를 기다리며 유휴 상태에 있다는 것을 발견했습니다.[^1] 이 회사는 분산 파일 시스템인 Tectonic에 엑사바이트 규모의 학습 데이터를 저장하고 있지만, 페타바이트 규모의 데이터셋을 학습 하드웨어 로컬에 유지할 스토리지 용량이 부족했습니다.[^2] 해결책은 데이터 지연을 완전히 제거하도록 확장 가능한 데이터 전처리 서비스(DPP)를 구축하는 것이었습니다. 대규모 모델을 학습하는 조직들은 동일한 근본적인 문제에 직면합니다: 가장 강력한 GPU도 입력 데이터를 기다리는 동안에는 아무것도 할 수 없습니다.

AI 학습에 데이터를 공급하는 스토리지가 GPU 투자 대비 기대 수익을 결정합니다. WEKApod는 720GB/s 이상의 처리량과 1,800만 IOPS를 150마이크로초 미만의 지연 시간으로 달성하며, 단 8개의 스토리지 노드로 768개의 H100 GPU를 지원합니다.[^3] Meta의 RSC 슈퍼컴퓨터는 46페타바이트의 캐시 스토리지를 사용하여 GPU에 지속적으로 데이터를 공급합니다.[^4] GPT-4 학습에는 약 25,000개의 A100 GPU가 90-100일에 걸쳐 13조 개의 토큰을 처리해야 했습니다.[^5] 대규모에서 데이터 파이프라인 아키텍처는 컴퓨팅 아키텍처만큼 중요해집니다.

데이터 파이프라인의 과제

대규모 언어 모델은 페타바이트 규모의 고품질 전처리 데이터에 접근해야 합니다. 빠르고 안정적인 스토리지 없이는 가장 강력한 GPU도 입력을 기다리며 유휴 상태가 됩니다.[^6] 스토리지 인프라의 성능 계층은 정규화, 토큰화, 학습 등 컴퓨팅 집약적인 파이프라인 단계를 통한 데이터의 원활한 흐름을 가능하게 합니다.

일반적인 머신러닝 파이프라인은 CPU가 관리하는 데이터 전처리, GPU로 오프로드되는 모델 학습, CPU로 반환되는 후처리로 구성됩니다.[^7] CPU RAM과 GPU DRAM 간 데이터 전송 시 병목이 발생합니다. 스토리지 처리량, 네트워크 대역폭, 전처리 컴퓨팅, GPU 소비 간의 불일치는 비싼 가속기 용량을 낭비하는 지연을 발생시킵니다.

Meta의 데이터 스토리지 및 수집 아키텍처

Meta의 엔드투엔드 DSI 파이프라인은 분산 스토리지 기반의 중앙 데이터 웨어하우스와 학습 컴퓨팅과 독립적으로 전처리를 확장하는 데이터 전처리 서비스로 구성됩니다.[^8] 이 아키텍처는 스토리지, 전처리, 학습을 별도의 확장 가능한 계층으로 분리합니다.

Tectonic은 Meta의 엑사바이트 규모 분산 파일 시스템으로, AI 학습 모델을 위한 분리형 스토리지 인프라를 제공합니다.[^9] 이 회사는 해당 규모에 맞는 로컬 스토리지 용량 없이도 테라바이트에서 페타바이트 규모의 데이터셋으로 모델을 학습합니다. 분리형 스토리지는 유연한 리소스 할당을 가능하게 하지만, 스토리지와 컴퓨팅을 연결하는 고대역폭 네트워크가 필요합니다.

DPP Master는 데이터셋 테이블, 파티션, 필요한 피처, 변환 작업이 포함된 세션 명세를 수신합니다.[^10] Master는 페타바이트 데이터에 대한 전처리 작업 부하를 split이라고 불리는 독립적이고 자체 완결적인 작업 단위로 분할합니다. DPP Worker는 Master로부터 split을 요청하고 전처리 변환을 실행하여, 전처리 처리량을 학습 노드 CPU 용량과 분리합니다.

스토리지 계층 구조와 캐싱

Meta는 HDD와 SSD를 결합한 계층형 스토리지 솔루션을 구축하고 있으며, SSD는 재사용 빈도가 높은 피처를 위한 캐싱 계층으로 활용됩니다.[^11] 모든 학습 데이터가 동일한 접근 패턴을 필요로 하는 것은 아닙니다: 자주 접근하는 피처는 플래시 스토리지의 이점을 누리고, 콜드 데이터는 용량 최적화 미디어에 남습니다.

캐싱 전략은 학습 처리량을 희생하지 않으면서 스토리지 비용을 절감합니다. 빠른 계층에 있는 핫 데이터가 대부분의 읽기 요청을 처리하고, 콜드 데이터는 초기 에폭 동안 용량 스토리지에서 스트리밍됩니다. 데이터 접근 패턴을 이해하면 비용과 성능의 균형을 맞추는 지능적인 계층화 결정이 가능합니다.

AI 학습을 위한 스토리지 기술

다양한 스토리지 기술이 AI 데이터 파이프라인에서 각기 다른 역할을 수행합니다. 선택은 접근 패턴, 용량 요구 사항, 예산 제약에 따라 달라집니다.

병렬 파일 시스템

Lustre와 GPFS 같은 병렬 파일 시스템은 대규모 동시성으로 극한의 성능을 제공하며, 동기식 I/O 집약적 AI 워크로드에 이상적입니다.[^12] 이러한 시스템은 여러 스토리지 서버에 걸쳐 데이터를 스트라이핑하여, 서버 수에 따라 확장되는 총 대역폭을 제공합니다.

Google Cloud는 Cloud Storage 위의 고성능 캐시로 Managed Lustre를 제공하며, 극히 높은 처리량과 저지연 I/O 작업이 필요한 AI 워크로드를 가속화합니다.[^13] 조직들은 Managed Lustre와 Cloud Storage 간에 데이터를 가져오고 내보내며, 활성 학습을 위한 성능 계층으로 병렬 파일 시스템을 사용하면서 내구성을 위해 오브젝트 스토리지에 데이터를 유지합니다.

NVMe 스토리지

PCIe Gen5 NVMe SSD는 14GB/s 이상의 순차 읽기 처리량과 수백만의 랜덤 읽기 IOPS를 처리합니다.[^14] 이 기술은 수십 테라바이트의 데이터로 AI 모델을 학습할 때 스토리지 병목을 제거합니다. 2024-2025년에 걸친 PCIe Gen5 채택으로 레인당 처리량이 약 4GB/s로 두 배가 되었으며, x16 구성에서 64GB/s에 도달합니다.

NVMe-oF(NVMe over Fabrics)는 NVMe 성능을 네트워크로 확장하여, 로컬에 근접한 지연 시간을 유지하는 분리형 스토리지 아키텍처를 가능하게 합니다. 학습 클러스터는 직접 연결 드라이브의 성능 이점을 희생하지 않고 공유 NVMe 스토리지 풀에 접근합니다.

콜드 데이터를 위한 오브젝트 스토리지

오브젝트 스토리지는 높은 지연 시간을 허용하는 페타바이트 규모 데이터셋에 비용 효율적인 용량을 제공합니다. 한 대형 전자상거래 회사는 AWS S3에 수백 페타바이트의 학습 데이터를 저장하며, AI/ML 학습 워크로드를 여러 AWS 리전과 온프레미스 데이터 센터에 분산시킵니다.[^15]

오브젝트 스토리지는 집중적인 처리 전에 학습 작업이 더 빠른 계층으로 데이터를 로드하는 배치 수집 패턴에 가장 적합합니다. 경제성 측면에서 오브젝트 스토리지는 아카이브와 백업에 유리하고, 성능 계층이 활성 학습 I/O를 처리합니다.

대규모 전처리

데이터 전처리는 상당한 컴퓨팅 리소스를 소비하며 종종 완전한 GPU 활용을 방해하는 병목이 됩니다. Meta의 경험에 따르면 트레이너 노드의 CPU는 GPU를 공급할 만큼 빠르게 데이터를 전처리할 수 없었고, 이것이 분산 DPP 아키텍처의 동기가 되었습니다.[^16]

분산 전처리 Worker

DPP 아키텍처는 학습 노드와 독립적으로 전처리 worker를 확장합니다.[^17] 전처리 용량을 추가하려면 학습 인프라를 수정하지 않고 worker 인스턴스만 추가하면 됩니다. 이러한 분리를 통해 조직은 특정 데이터셋과 변환 복잡도에 맞게 전처리 컴퓨팅을 적절히 구성할 수 있습니다.

Worker 인스턴스는 정제, 정규화, 토큰화, 피처 추출을 포함한 변환 작업을 실행합니다. 복잡한 변환은 학습 처리량 단위당 더 많은 전처리 컴퓨팅을 필요로 합니다. 단순한 변환은 최소한의 전처리 리소스로 학습 속도를 따라갈 수 있습니다.

가속화된 전처리

업계는 점점 더 CPU 대신 가속기에서 전처리 변환 작업을 실행하고 있습니다.[^18] NVIDIA DALI(Data Loading Library)는 이미지 디코딩, 증강, 포맷 변환을 GPU로 오프로드합니다. 가속화된 전처리는 이미지 및 비디오 학습 파이프라인의 CPU 병목을 제거합니다.

전처리를 GPU로 이동하려면 새로운 병목을 만들지 않도록 신중한 파이프라인 설계가 필요합니다. 전처리에 사용되는 GPU 메모리는 모델 파라미터와 활성화에 사용할 수 있는 메모리를 줄입니다. 전처리 가속과 학습 용량 간의 트레이드오프는 워크로드 특성에 따라 달라집니다.

Feature Store

Google은 온라인 서빙에 준비된 피처에 Vertex AI Feature Store를 사용할 것을 권장합니다.[^19] Feature store는 피처 값을 사전 계산하고 캐시하여, 학습 실행 간 반복 계산을 제거합니다. 필요한 주기에 맞춰 정기적으로 새로운 피처 값을 계산하는 피처 엔지니어링 작업을 스케줄링하면 실시간 전처리 오버헤드 없이 신선한 데이터를 보장합니다.

Feature store는 피처 계산 복잡도가 요청당 시간 예산을 초과하는 추천 모델에서 특히 유용합니다. 학습과 추론 모두 동일한 사전 계산된 피처에 접근할 수 있어, 개발과 프로덕션 간 일관성을 유지합니다.

데이터 파이프라인을 위한 네트워크 아키텍처

고대역폭 인터커넥트는 분리형 스토리지 아키텍처의 기반을 제공합니다. InfiniBand와 RoCE(RDMA over Converged Ethernet)는 GPU 클러스터 전반의 분산 학습과 빠른 데이터셋 접근에 필수적인 초저지연과 높은 처리량을 제공합니다.[^20]

스토리지 네트워크 설계

스토리지 네트워크는 총 읽기 처리량을 GPU 학습 소비량과 일치시켜야 합니다. 데이터 집약적 워크로드를 학습하는 1,000개의 H100 GPU 클러스터는 초당 수십 기가바이트의 지속적인 스토리지 처리량이 필요할 수 있습니다. 스토리지와 컴퓨팅 계층 간 네트워크 용량은 버스트 패턴을 위한 여유 공간과 함께 이 요구 사항을 초과해야 합니다.

네트워크 토폴로지는 달성 가능한 처리량에 영향을 미칩니다. Fat-tree 토폴로지는 전체 이등분 대역폭을 제공하지만 과잉 구독 설계보다 비용이 더 듭니다. 스토리지 I/O가 많은 학습 워크로드는 네트워크 혼잡을 병목으로 제거하는 논블로킹 패브릭의 이점을 누립니다.

데이터 전송 최적화

병렬 I/O, 프리페칭, 캐싱, 압축, 데이터 지역성 최적화를 포함한 데이터 전송 최적화 기술은 스토리지 시스템과 컴퓨팅 노드 간 효율적인 데이터 이동을 보장합니다.[^21] 프리페칭은 데이터 요구 사항을 예측하고 컴퓨팅 노드가 요청하기 전에 데이터를 준비합니다. 압축은 컴퓨팅 사이클을 대가로 네트워크 대역폭 요구 사항을 줄입니다.

데이터 배치는 트랜잭션 빈도를 줄여, 더 큰 전송에 걸쳐 요청당 오버헤드를 분산시킵니다.[^22] 데이터 필터링은 GPU로 보내기 전에 샘플 크기를 최소화하여, 스토리지 읽기와 네트워크 전송을 모두 줄입니다. 이러한 기술의 조합은 효과적인 스토리지 대역폭 요구 사항을 크게 줄일 수 있습니다.

대규모 데이터 파이프라인 구축

페타바이트 규모의 학습 인프라를 배포하는 조직은 GPU 컴퓨팅 용량에 맞는 스토리지, 전처리, 네트워킹에 대한 통합적 접근이 필요합니다.

용량 계획

스토리지 용량 계획은 모델 확장과 함께 학습 데이터 증가를 고려해야 합니다. 학습 데이터셋은 조직이 더 많은 데이터를 축적하고 더 많은 토큰을 필요로 하는 대규모 모델을 추구함에 따라 증가합니다. 조직이 재현성을 위해 여러 데이터셋 버전을 유지하면서 용량 요구 사항은 복합적으로 증가합니다.

처리량 계획은 용량 계획보다 더 어렵습니다. 모델 크기, 배치 크기, 데이터 처리량 요구 사항 간의 관계는 아키텍처와 학습 구성에 따라 다릅니다. 대상 인프라에서 특정 워크로드를 벤치마킹하면 가장 신뢰할 수 있는 처리량 요구 사항을 얻을 수 있습니다.

인프라 배포 전문성

데이터 파이프라인 인프라 복잡성은 컴퓨팅 인프라 복잡성과 맞먹거나 이를 초과합니다. 스토리지 시스템, 고속 네트워크, 전처리 서비스는 GPU 클러스터와 원활하게 통합되어야 합니다. 어떤 구성 요소에서든 구성 오류가 발생하면 GPU 투자를 낭비하는 병목이 됩니다.

Introl의 550명 현장 엔지니어 네트워크는 대규모 AI 학습에 필요한 통합 인프라 배포를 전문으로 합니다.[^23] 이 회사는 2025년 Inc. 5000에서 14위를 기록했으며, 3년간 9,594% 성장을 달성하여 전문 인프라 서비스에 대한 수요를 반영합니다.[^24] 학습 클러스터를 구축하는 조직은 스토리지, 네트워킹, 컴퓨팅을 통합 시스템으로 다루는 배포 전문성의 이점을 누립니다.

100,000개 이상의 GPU와 40,000마일 이상의 광섬유 네트워크 인프라에 달하는 배포를 관리하려면 최대 규모의 학습 이니셔티

견적 요청_

프로젝트에 대해 알려주시면 72시간 내에 답변드리겠습니다.

> 전송_완료

요청이 접수되었습니다_

문의해 주셔서 감사합니다. 저희 팀이 요청사항을 검토한 후 72시간 내에 답변드리겠습니다.

처리_대기_중