훈련 vs 추론 인프라: 서로 다른 AI 워크로드 패턴 최적화

Blake Crosley

Jan 13, 2026 7 min read Disclaimer

훈련 vs 추론 인프라: 서로 다른 AI 워크로드 패턴 최적화

2025년 12월 8일 업데이트

2025년 12월 업데이트: H200(141GB HBM3e)이 훈련의 주력으로 부상하고 있으며, Blackwell GB200이 프로덕션 배포를 시작했습니다. 추론은 비용 효율성을 위해 L40S, L4, AMD MI300X로 전환되고 있으며, MI300X는 현재 추론에서 H100과 동등한 가격 대비 성능을 달성하고 있습니다. Intel Gaudi 3가 IBM Cloud에서 주목받고 있습니다. 투기적 디코딩과 연속 배칭(vLLM, TensorRT-LLM)이 추론 경제학을 변화시키고 있습니다. 훈련-추론 격차가 확대되고 있습니다: 훈련은 800G+ 인터커넥트가 필요한 반면 추론은 일반 이더넷에서 실행됩니다.

훈련 인프라는 모델을 생성하기 위해 수개월에 걸쳐 수백만 달러를 소비하는 반면, 추론 인프라는 해당 모델을 마이크로초 단위의 지연 시간으로 수십억 번 제공합니다. 단일 GPT-4 훈련 실행은 1억 달러가 들고 25,000개의 A100 GPU가 90일 동안 실행되어야 합니다. 해당 모델을 서빙하려면 처리량보다 지연 시간에 최적화된 128,000개의 GPU가 전 세계에 분산되어야 합니다. 이러한 근본적으로 다른 워크로드 패턴은 조직들이 종종 혼동하는 별개의 인프라 접근 방식을 요구하며, 이로 인해 40% 더 높은 비용과 60% 더 낮은 활용률을 초래합니다.

기본 워크로드 특성

훈련 워크로드는 정기적인 동기화 패턴을 가진 대규모 병렬 처리를 보여줍니다. 순전파는 수천 개의 예제 배치를 동시에 처리하고, 모든 참여 GPU에서 매 반복마다 동기화되는 그래디언트를 계산합니다. 이 all-reduce 연산은 대규모 언어 모델의 경우 1.6Tb/s를 초과하는 총 대역폭이 필요합니다. 훈련 작업은 수주 또는 수개월 동안 연속적으로 실행되며 매시간 진행 상황을 체크포인트로 저장합니다. 하드웨어 장애는 낭비되는 계산을 방지하기 위해 즉각적인 감지와 복구가 필요합니다.

추론 워크로드는 밀리초 단위의 지연 시간 요구 사항으로 개별 요청을 처리합니다. 배치 크기는 일반적으로 1에서 32 사이이며, 메모리 용량보다 지연 시간 제약에 의해 제한됩니다. 요청 패턴은 피크와 최저점 사이에 10배 변동이 있는 주야간 주기를 따릅니다. 지리적 분산은 전 세계 사용자에게 100ms 미만의 지연 시간을 보장합니다. 하드웨어 장애는 서비스 가용성에 즉시 영향을 미치므로 중복성과 빠른 페일오버 기능이 필요합니다.

메모리 접근 패턴은 워크로드 간에 극적으로 다릅니다. 훈련은 대역폭 활용에 최적화된 규칙적이고 예측 가능한 메모리 접근을 수행합니다. 큰 배치 크기는 많은 예제에 걸쳐 메모리 전송 오버헤드를 분산합니다. 모델 가중치는 정적으로 유지되고 활성화와 그래디언트는 메모리 계층을 통해 흐릅니다. 추론은 입력 시퀀스에 따라 불규칙한 접근 패턴을 보입니다. 동적 배칭과 다양한 시퀀스 길이는 예측 불가능한 메모리 요구 사항을 생성합니다. 트랜스포머 모델의 키-값 캐싱은 요청당 기가바이트를 소비합니다.

컴퓨팅 활용 지표는 근본적인 차이를 드러냅니다. 훈련은 신중한 배치 크기 조정과 데이터 파이프라인 최적화를 통해 85-95%의 GPU 활용률을 달성합니다. 메모리 대역폭이 대규모 모델의 병목이 되어 컴퓨팅 유닛이 데이터 이동을 기다립니다. 추론은 지연 시간 제약과 요청 변동성으로 인해 40%를 거의 초과하지 않습니다. 작은 배치 크기는 병렬 처리 기능을 충분히 활용하지 못합니다. 네트워크 전송 및 전처리 오버헤드는 효과적인 활용률을 더욱 감소시킵니다.

통신 패턴은 분산 훈련과 추론 서빙을 구분합니다. 훈련은 그래디언트 동기화를 위해 all-to-all 통신이 필요하며, 노드 간에 지속적인 100Gb/s 트래픽을 생성합니다. 네트워크 토폴로지는 훈련 성능에 중요한 영향을 미치며, 어떤 병목도 전체 처리량을 감소시킵니다. 추론 통신은 모델 병렬 서빙을 제외하고 대부분 클라이언트-서버 간으로 유지되며 노드 간 트래픽이 최소화됩니다. 로드 밸런서는 추론 노드 간에 요청을 독립적으로 분산합니다.

하드웨어 최적화 전략

GPU 선택은 훈련과 추론 배포 간에 크게 다릅니다. 훈련 클러스터는 전체 모델 용량을 지원하는 80GB HBM3 메모리가 있는 NVIDIA H100 GPU를 우선시합니다. 3.35TB/s 메모리 대역폭은 빠른 그래디언트 계산과 파라미터 업데이트를 가능하게 합니다. GPU 간 900GB/s 대역폭을 제공하는 NVLink 인터커넥트는 집합 연산을 가속화합니다. 조직들은 최대 성능을 위해 프리미엄을 감수하고 훈련 인프라에 H100당 $30,000를 투자합니다.

추론 배포는 비용 효율성에 최적화된 NVIDIA L40S 또는 L4 GPU를 점점 더 채택하고 있습니다. 48GB 메모리가 있는 L40S는 GPU당 $15,000로 대부분의 추론 워크로드를 처리합니다. 개당 $5,000인 L4 GPU는 엣지 배포와 소형 모델에 뛰어납니다. AMD MI210 GPU는 NVIDIA 가격의 60%로 경쟁력 있는 추론 성능을 제공합니다. Intel Gaudi2 가속기는 단위당 $10,000로 트랜스포머 모델에 대해 유사한 추론 처리량을 달성합니다. 이러한 다양성은 훈련 하드웨어 대비 추론 비용을 50% 절감합니다.

메모리 계층 최적화는 워크로드 간에 다릅니다. 훈련은 모델 파라미터, 옵티마이저 상태, 그래디언트를 동시에 보유하기 위해 최대 HBM 용량이 필요합니다. 700억 파라미터 모델은 Adam 옵티마이저 상태를 포함한 혼합 정밀도 훈련에 840GB가 필요합니다. 추론은 모델 가중치와 활성화 메모리만 필요하며 동일한 모델에 140GB가 필요합니다. 이 6배 감소는 더 작고 저렴한 GPU에서의 배포를 가능하게 합니다.

CPU 요구 사항은 전처리 요구에 따라 다릅니다. 훈련 클러스터는 데이터 로딩, 증강, 전처리를 위해 GPU당 32개의 CPU 코어를 할당합니다. 고성능 NVMe 스토리지는 노드당 10GB/s로 훈련 파이프라인에 데이터를 공급합니다. 추론 서버는 요청 라우팅과 응답 형식 지정에 집중하여 일반적으로 GPU당 8-16개의 코어로 더 적은 CPU 리소스가 필요합니다. 엣지 추론 배포는 70억 파라미터 미만의 모델에 대해 CPU 전용 서빙을 사용할 수 있습니다.

가속기 대안은 특정 워크로드에 비용 효율적인 옵션을 제공합니다. Google TPU v4 포드는 1.1 엑사플롭스를 제공하는 4,096개 칩으로 대규모 훈련에 뛰어납니다. AWS Inferentia2 칩은 GPU 기반 서빙보다 70% 저렴한 백만 토큰당 $0.75로 추론을 최적화합니다. Cerebras CS-2 시스템은 40GB 메모리 내에 맞는 모델의 훈련을 가속화합니다. 이러한 전문 가속기는 워크로드 패턴이 설계 파라미터와 일치할 때 비용을 절감합니다.

네트워크 아키텍처 요구 사항

훈련 네트워크는 집합 연산을 위해 최소 지연 시간과 최대 대역폭을 요구합니다. NDR 400Gb/s 스위치를 사용하는 InfiniBand 배포는 RDMA 연산에 1마이크로초 미만의 지연 시간을 제공합니다. Fat-tree 토폴로지는 모든 GPU 쌍 간의 논블로킹 통신을 보장합니다. Rail 최적화 설계는 그래디언트 집계와 파라미터 서버 통신을 위한 별도의 네트워크 경로를 할당합니다. Meta의 Research SuperCluster는 GPU당 1.6Tb/s 총 대역폭을 제공하는 4-rail InfiniBand를 사용합니다.

추론 네트워크는 지리적 분산과 엣지 연결을 우선시합니다. Content Delivery Network(CDN) 통합은 전 세계 사용자의 지연 시간을 줄입니다. Anycast 라우팅은 요청을 가장 가까운 가용 추론 클러스터로 전달합니다. 대부분의 추론 배포에는 100Gb/s 이더넷이면 충분하며, 필요시 RoCEv2가 RDMA를 활성화합니다. 로드 밸런서는 현재 활용률과 응답 시간을 기반으로 가용 GPU에 요청을 분산합니다.

동서 트래픽 패턴은 상당히 다릅니다. 훈련은 대규모 모델 훈련을 위해 매일 100TB의 그래디언트 교환을 생성합니다. All-reduce 연산은 신중한 네트워크 설계가 필요한 핫스팟을 생성합니다. 추론 트래픽은 모델 병렬 서빙을 제외하고 대부분 클라이언트와 서버 간의 남북 방향으로 유지됩니다. 모델 서빙은 요청률과 출력 크기에 따라 GPU당 1-10GB/s의 응답 트래픽을 생성합니다.

네트워크 복원력 요구 사항은 워크로드 특성을 반영합니다. 훈련 네트워크는 체크포인트 복구 메커니즘을 통해 짧은 중단을 허용합니다. 장기간의 중단은 비용이 많이 드는 계산을 낭비하므로 중복 네트워크 경로가 필요합니다. 추론 네트워크는 서비스 가용성을 유지하기 위해 즉각적인 페일오버가 필요합니다. 1초 미만의 BGP 수렴 시간은 장애 시 사용자 영향을 최소화합니다.

보안 고려 사항은 네트워크 설계에 다르게 영향을 미칩니다. 훈련 네트워크는 신뢰할 수 있는 환경에서 운영되며 암호화보다 성능을 우선시합니다. 데이터셋 접근 제어와 모델 체크포인트 보호가 보안 노력의 초점입니다. 추론 네트워크는 TLS 암호화, DDoS 보호, API 인증이 필요한 인터넷 노출에 직면합니다. Web Application Firewall은 추론 서버에 도달하기 전에 악성 요청을 필터링합니다.

스토리지 시스템 설계 패턴

훈련 스토리지 시스템은 지속적인 순차 처리량에 최적화됩니다. Lustre나 GPFS 같은 병렬 파일 시스템은 데이터셋 스트리밍을 위해 100GB/s 총 대역폭을 제공합니다. NVMe-oF(NVMe over Fabrics)는 데이터셋 샤드를 GPU 메모리로 직접 전달합니다. Alluxio나 JuiceFS를 사용하는 분산 캐싱 레이어는 반복 에폭 처리를 가속화합니다. OpenAI의 훈련 인프라는 클러스터 전체에서 1TB/s 총 스토리지 대역폭을 달성합니다.

체크포인트 스토리지는 다른 최적화가 필요합니다. 훈련 실행은 대규모 모델의 경우 4시간마다 50-100TB 체크포인트를 기록합니다. MinIO나 Ceph 같은 오브젝트 스토리지 시스템은 훈련 처리량을 방해하지 않고 체크포인트 쓰기를 처리합니다. Erasure 코딩은 복제의 200% 대비 20% 스토리지 오버헤드로 내결함성을 제공합니다. 계층화된 스토리지는 최근 체크포인트는 빠른 복구를 위해 NVMe에 유지하면서 오래된 체크포인트를 더 저렴한 미디어로 마이그레이션합니다.

추론 스토리지는 모델 로딩 속도와 캐싱에 중점을 둡니다. 모델은 추론 컨테이너 시작 시 오브젝트 스토리지에서 로드되며, 700억 파라미터 모델의 경우 10-30초가 필요합니다. 로컬 NVMe 캐싱은 이후 모델 로드를 2초 미만으로 가속화합니다. 트랜스포머 모델의 키-값 캐시는 요청 간에 지속되며 추론 노드당 100GB-1TB의 고속 스토리지가 필요합니다. Redis나 Apache Ignite는 추론 서버 간 공유 컨텍스트를 위한 분산 캐싱을 제공합니다.

데이터셋 버전 관리와 계보 추적은 훈련 재현성을 지원합니다. Data Version Control(DVC)이나 Delta Lake는 시간에 따른 데이터셋 수정을 추적합니다. 메타데이터 저장소는 각 훈련 실행에 사용된 정확한 데이터셋 버전을 기록합니다. Tecton이나 Feast 같은 피처 스토어는 훈련과 추론 간에 일관된 피처를 제공합니다. 이러한 시스템은 모델 성능을 저하시키는 훈련-서빙 스큐를 방지합니다.

스토리지 계층화 전략은 접근 패턴에 따라 다릅니다. 훈련 데이터셋은 접근 빈도에 따라 NVMe → SSD → HDD → Glacier 계층을 통해 마이그레이션됩니다. 핫 데이터셋은 드라이브당 7GB/s를 제공하는 NVMe에 유지됩니다. 추론 스토리지는 지속적인 접근으로 인해 모델을 무기한 NVMe에 유지합니다. 로깅과 메트릭 데이터는 AI 워크로드와 독립적으로 전통적인 계층화 패턴을 따릅니다.

스케일링 전략과 패턴

훈련을 위한 수평 스케일링은 통신 오버헤드를 신중하게 고려해야 합니다. 약한 스케일링은 GPU당 일정한 배치 크기를 유지하여 클러스터 크기에 따라 전역 배치 크기를 증가시킵니다. 강한 스케일링은 고정된 전역 배치 크기를 더 많은 GPU에 분배하여 훈련 시간을 개선하지만 효율성을 감소시킵니다. 선형 스케일링은 대부분의 모델에서 512개 GPU까지 90% 효율성을 달성합니다. 이 지점을 넘어서면 통신 오버헤드가 지배적이 되어 효율성이 70% 이하로 떨어집니다.

모델 병렬 처리는 단일 GPU 메모리 용량을 초과하는 모델 훈련을 가능하게 합니다. 파이프라인 병렬 처리는 레이어별로 모델을 GPU에 분할하여 신중한 스케줄링으로 80% 효율성을 달성합니다. 텐서 병렬 처리는 개별 레이어를 GPU에 분산하며 고대역폭 인터커넥트가 필요합니다. Mixture-of-Experts 모델을 위한 전문가 병렬 처리는 수천 개의 GPU로 확장됩니다. 이러한 기술은 3D 병렬 처리 전략에서 결합되며, GPT-4는 25,000개 GPU에서 세 가지 차원을 모두 사용합니다.

추론 스케일링은 요청 기반 패턴을 따릅니다. Kubernetes의 Horizontal Pod Autoscaling은 CPU, 메모리 또는 사용자 정의 메트릭에 반응합니다. 스케일링 결정은 모델 로딩의 10-30초 콜드 스타트 페널티를 고려합니다. 과거 패턴을 사용하는 예측적 오토스케일링은 예상 수요에 대비하여 용량을 사전 프로비저닝합니다. 스팟 인스턴스 통합은 내결함성 추론 워크로드의 비용을 60% 절감합니다.

지리적 분산 전략은 근본적으로 다릅니다. 훈련 클러스터는 단일 위치에 집중됩니다