스팟 인스턴스와 선점형 GPU: AI 비용 70% 절감하기

Spotify는 AWS 스팟을 활용해 ML 비용을 820만 달러에서 240만 달러로 절감했습니다. 2분 경고와 함께 70-91% GPU 할인을 받으세요. 완벽한 중단 대응 플레이북.

스팟 인스턴스와 선점형 GPU: AI 비용 70% 절감하기

스팟 인스턴스와 선점형 GPU: AI 비용 70% 절감하기

2025년 12월 8일 업데이트

2025년 12월 업데이트: 공급 제약이 완화되면서 스팟과 온디맨드 GPU 가격이 크게 수렴했습니다. AWS는 2025년 6월 온디맨드 H100 가격을 44% 인하하여 시간당 약 3.90달러로 조정했고, 이로 인해 스팟 프리미엄의 이점이 줄어들었습니다. Hyperbolic과 같은 저예산 공급업체는 H100을 시간당 1.49달러, H200을 시간당 2.15달러에 제공하며, 이는 종종 기존 스팟 가격과 경쟁력이 있습니다. GPU 렌탈 시장은 2023년 33억 4천만 달러에서 2032년 339억 달러로 성장하고 있습니다. 스팟 인스턴스는 여전히 중단 가능한 워크로드에 대해 비용 절감을 제공하지만, 계산법이 변화했습니다—온디맨드가 더 많은 사용 사례에서 합리적인 선택이 되었고, 새로운 저예산 클라우드 공급업체들이 기존의 스팟 경제학을 뒤흔들고 있습니다.

Spotify는 전체 추천 엔진 학습 파이프라인을 AWS 스팟 인스턴스 기반으로 설계하여 머신러닝 인프라 비용을 연간 820만 달러에서 240만 달러로 절감했으며, 이는 중단 가능한 GPU가 프로덕션 AI 워크로드를 구동할 수 있음을 입증했습니다.¹ 단, AWS가 용량을 다시 필요로 할 때마다 p4d.24xlarge 인스턴스가 2분 경고와 함께 사라지기 때문에, 팀은 5분마다 체크포인트를 저장하고 중요한 작업에 대해 3중 중복성을 유지해야 했습니다. 스팟 인스턴스 오케스트레이션을 마스터한 조직은 온디맨드 가격 대비 70-91%의 비용 절감을 달성하지만, 무분별하게 배포하는 조직은 예기치 않은 종료로 몇 주간의 학습 진행을 잃게 됩니다.²

AWS 스팟, Google Cloud 선점형 VM, Azure 스팟 VM은 언제든 사라질 수 있는 초과 용량을 클라우드 공급업체가 판매하기 때문에 동일한 하드웨어를 대폭 할인된 가격에 제공합니다.³ 8개의 H100 GPU가 탑재된 p5.48xlarge 인스턴스는 온디맨드로 시간당 98.32달러이지만 스팟에서는 평균 19.66달러로—80% 할인으로 AI 경제학을 완전히 바꿔놓습니다.⁴ 이 모델은 클라우드 공급업체가 유지보수, 장애, 수요 급증에 대비해 15-30%의 여유 용량을 유지하면서 유휴 리소스를 수익화하고 즉시 회수할 권리를 보유하기 때문에 작동합니다.

중단 가능한 GPU 용량의 경제학

클라우드 공급업체는 수요와 공급에 따라 가격이 변동하는 연속 경매를 통해 스팟 인스턴스 가격을 책정합니다. GPU 인스턴스의 AWS 스팟 가격은 온디맨드 요금보다 70%에서 91% 저렴하며, ml.p4d.24xlarge 인스턴스는 온디맨드 가격 32.77달러 대비 시간당 3.90달러에서 29.49달러 사이입니다.⁵ Google 선점형 GPU는 고정 60-80% 할인을 제공하지만 수요에 관계없이 최대 24시간 후 종료됩니다.⁶ Azure 스팟은 비용 폭증을 방지하는 구성 가능한 최대 가격과 함께 유사한 60-90% 할인을 제공합니다.

가장 큰 할인은 인기가 적은 리전과 구형 GPU 세대에서 나타납니다. US-West-2 스팟 가격은 수요 집중으로 인해 US-East-2보다 20% 높습니다. V100 인스턴스는 91% 할인을 달성하는 반면 최신 H100은 75% 할인을 거의 넘지 않습니다. 야간과 주말에는 엔터프라이즈 워크로드가 감소하면서 10-15%의 추가 절감이 가능합니다. 스마트 오케스트레이션은 이러한 패턴을 활용하여 리전과 시간대에 걸쳐 워크로드를 마이그레이션하여 비용을 최소화합니다.

중단율은 인스턴스 유형, 리전, 시간에 따라 크게 다릅니다. 1천만 스팟 인스턴스 시간 분석 결과:⁷ - A100 인스턴스: 시간당 2.3% 중단율 - V100 인스턴스: 시간당 0.8% 중단율 - H100 인스턴스: 시간당 4.1% 중단율 - 주말 중단율: 평일보다 40% 낮음 - US-East-1: US-West-2보다 3배 높은 중단율

스팟 인스턴스에 적합한 워크로드 패턴

특정 AI 워크로드는 자연스럽게 스팟 인스턴스 모델에 적합합니다:

하이퍼파라미터 튜닝: 파라미터 공간의 병렬 탐색은 개별 작업 실패를 허용합니다. 각 실험이 독립적으로 실행되므로 중단은 단일 구성에만 영향을 미칩니다. Optuna와 Ray Tune은 스팟 인스턴스 실패를 자동으로 처리하여 종료된 작업을 새 인스턴스에서 재시작합니다.⁸ 조직들은 스팟 인스턴스만 사용한 하이퍼파라미터 검색에서 75%의 비용 절감을 보고합니다.

배치 추론: 수백만 개의 이미지나 문서 처리가 여러 인스턴스에 분산됩니다. 작업 큐가 완료된 항목과 대기 중인 항목을 추적합니다. 중단 시 완료되지 않은 작업이 단순히 큐로 반환됩니다. 오토스케일링 그룹이 자동으로 대체 인스턴스를 시작합니다. Netflix는 스팟 인스턴스를 사용하여 매일 1억 개의 썸네일을 처리하며 연간 320만 달러를 절감합니다.⁹

데이터 전처리: 학습 데이터용 ETL 파이프라인은 스팟 용량의 혜택을 받습니다. Apache Spark과 같은 프레임워크는 진행 상황을 자동으로 체크포인트합니다. 중단된 작업은 새 인스턴스에서 체크포인트부터 재개됩니다. 대부분의 전처리가 무상태(stateless)이므로 스팟 인스턴스가 이상적입니다. Uber의 피처 엔지니어링 파이프라인은 90%가 스팟 인스턴스에서 실행됩니다.¹⁰

개발 및 테스트: 비프로덕션 환경은 중단을 우아하게 허용합니다. 개발자는 실험 중 가끔 발생하는 중단을 예상합니다. 비용 절감으로 더 큰 개발 클러스터가 가능해집니다. CI/CD 파이프라인은 실패한 작업을 자동으로 재시도합니다. GitHub Actions는 스팟 러너에 대해 70% 낮은 가격을 제공합니다.¹¹

체크포인팅을 활용한 분산 학습: 적절한 체크포인팅 전략으로 대규모 모델 학습이 가능해집니다. 10-30분마다 모델 상태를 내구성 있는 스토리지에 저장합니다. 인스턴스 변동 중에도 유효 배치 크기를 유지하기 위해 그래디언트 누적을 사용합니다. 사용 가능한 인스턴스에 맞게 조정되는 탄력적 학습을 구현합니다. OpenAI는 초기 GPT 모델을 60% 스팟 인스턴스를 사용하여 학습시켰습니다.¹²

중단 대응 전략

성공적인 스팟 인스턴스 사용에는 정교한 중단 관리가 필요합니다:

체크포인팅 프레임워크: 정기적인 간격으로 자동 체크포인팅을 구현합니다. PyTorch Lightning은 구성 가능한 체크포인트 빈도와 함께 내장된 스팟 인스턴스 지원을 제공합니다.¹³ 모델 가중치와 함께 옵티마이저 상태, 학습률 스케줄, 랜덤 시드를 저장합니다. 내구성을 위해 체크포인트를 오브젝트 스토리지에 저장합니다. 새 인스턴스에서 학습을 원활하게 재개합니다.

인스턴스 다양화: 워크로드를 여러 인스턴스 유형, 가용 영역, 리전에 분산합니다. AWS Spot Fleet은 다양한 용량 풀을 자동으로 관리합니다.¹⁴ 가용성을 최대화하기 위해 10-15개의 다른 인스턴스 유형을 구성합니다. 더 나은 가용성을 위해 약간 최적이 아닌 인스턴스를 수용합니다. 원활한 전환을 위해 20% 용량 버퍼를 유지합니다.

우아한 종료 핸들러: AWS는 인스턴스 메타데이터 서비스를 통해 2분 종료 알림을 제공합니다. Google은 30초 선점형 경고를 제공합니다. 종료 알림 시 즉시 체크포인팅을 트리거하는 시그널 핸들러를 구현합니다. 종료 전에 로그와 메트릭을 플러시합니다. 고아 비용을 방지하기 위해 임시 리소스를 정리합니다.

하이브리드 아키텍처: 중요한 구성 요소에 대해 스팟 인스턴스와 온디맨드 용량을 결합합니다. 파라미터 서버는 온디맨드에서 실행하고 워커는 스팟을 사용합니다. 안정적인 인스턴스에서 최소 가용 용량을 유지합니다. 추가 처리량을 위해 스팟으로 버스트합니다. 가격과 가용성 신호를 기반으로 스팟 용량을 스케일링합니다.

큐 기반 아키텍처: 메시지 큐를 사용하여 작업 스케줄링과 실행을 분리합니다. Amazon SQS 또는 Apache Kafka가 대기 중인 작업을 추적합니다. 워커는 사용 가능할 때 작업을 가져옵니다. 완료된 작업은 영구 스토리지를 업데이트합니다. 실패한 작업은 재시도를 위해 큐로 반환됩니다.

프로덕션 시스템을 위한 구현 패턴

프로덕션급 스팟 인스턴스 배포는 검증된 패턴을 따릅니다:

멀티 리전 오케스트레이션:

# Kubernetes Spot Instance Configuration
apiVersion: v1
kind: NodePool
spec:
  spotInstances:
    enabled: true
    maxPrice: 0.50  # Maximum hourly price
    regions:
      - us-east-1
      - us-west-2
      - eu-west-1
    instanceTypes:
      - g5.xlarge
      - g5.2xlarge
      - g4dn.xlarge
    diversificationStrategy: lowestPrice
    onDemandBaseCapacity: 2
    spotInstancePools: 10

체크포인트 관리:

class SpotTraining:
    def __init__(self):
        self.checkpoint_frequency = 600  # 10 minutes
        self.s3_bucket = "checkpoints"

    def train(self):
        if self.detect_termination_notice():
            self.emergency_checkpoint()
            self.graceful_shutdown()

        if time.time() - self.last_checkpoint > self.checkpoint_frequency:
            self.save_checkpoint()

비용 모니터링 대시보드: 온디맨드 기준 대비 스팟 절감액을 추적합니다. 인스턴스 유형과 리전별 중단율을 모니터링합니다. 스팟 가격이 임계값을 초과하면 알림을 보냅니다. 학습 에포크당 유효 비용을 계산합니다. 사용 패턴을 기반으로 월간 절감액을 예측합니다.

Introl은 글로벌 커버리지 지역 전반에 걸쳐 스팟 인스턴스 전략 구현을 지원하며, 100,000개 이상의 GPU 배포에 대한 비용 최적화 전문 지식을 보유하고 있습니다.¹⁵ 당사의 자동화 프레임워크는 학습 진행 상황과 추론 가용성을 유지하면서 중단을 원활하게 처리합니다.

실제 스팟 인스턴스 아키텍처

Pinterest - 추천 모델 학습: - 워크로드: 20억 개의 핀에 대한 추천 모델 학습 - 아키텍처: 200개의 V100 GPU, 80%가 스팟 인스턴스 - 체크포인팅: 15분마다 S3에 저장 - 중단율: 일평균 1.2% - 비용 절감: 연간 480만 달러 (72% 절감) - 핵심 기술: 5분 이내 리전 페일오버

Snap - 컴퓨터 비전 파이프라인: - 워크로드: 매일 5억 개의 이미지 처리 - 아키텍처: 6개 리전에 걸쳐 1,000개의 T4 GPU - 스팟 비율: 배치 처리에 90% - 복구 시간: 평균 30초 - 비용 절감: 연간 620만 달러 (78% 절감) - 핵심 기술: 작업 스틸링 큐 아키텍처

DoorDash - 수요 예측: - 워크로드: 실시간 배달 수요 예측 - 아키텍처: 30% 온디맨드 기준선을 갖춘 하이브리드 - 스팟 사용: 학습에 70%, 추론에 0% - 중단 처리: 온디맨드로 자동 페일오버 - 비용 절감: 연간 210만 달러 (65% 절감) - 핵심 기술: 스팟 가격 기반 예측 스케일링

스팟 인스턴스를 피해야 할 경우

특정 시나리오에서는 스팟 인스턴스가 부적절합니다:

지연 시간에 민감한 추론: 고객 대면 API는 갑작스러운 용량 손실을 허용할 수 없습니다. 모델 서빙은 일관된 가용성이 필요합니다. 중단은 허용할 수 없는 사용자 경험 저하를 유발합니다. 프로덕션 추론에는 예약 용량이나 온디맨드를 사용하세요.

장시간 실행되는 단일 작업: 체크포인팅 없이 24시간을 초과하는 학습 실행은 Google 선점형에서 중단이 보장됩니다. 체크포인트에서 재개할 수 없는 작업은 전체 실행을 낭비합니다. 복잡한 상태 복원이 필요한 워크로드는 스팟을 피해야 합니다.

규제 대상 워크로드: 의료 및 금융 서비스는 컴플라이언스를 위해 보장된 용량이 필요할 수 있습니다. 감사 요구 사항은 인프라 불확실성을 금지할 수 있습니다. 데이터 상주 규정은 멀티 리전 페일오버 전략을 방해할 수 있습니다.

시간이 중요한 마감: 제품 출시나 시간에 민감한 연구는 중단 위험을 감수할 수 없습니다. 컨퍼런스 마감이나 고객 약속은 완료 보장이 필요합니다. 일정이 비용보다 중요할 때는 온디맨드를 사용하세요.

고급 최적화 기법

스팟 가격 예측: 머신러닝 모델이 과거 패턴을 기반으로 미래 스팟 가격을 예측합니다. 시계열 분석이 반복되는 가용성 윈도우를 식별합니다. 사전 입찰 전략이 가격 급등 전에 용량을 확보합니다. 학술 연구에 따르면 가격 예측을 통해 15%의 추가 절감이 가능합니다.¹⁶

적응형 체크포인팅: 중단 확률에 따라 체크포인트 빈도를 조정합니다. 가격이 중단 임계값에 접근할 때 빈도를 높입니다. 안정적인 기간에는 오버헤드를 줄이기 위해 빈도를 낮춥니다. 동적 전략은 복구 속도를 유지하면서 스토리지 비용을 20% 절감합니다.

크로스 클라우드 차익거래: AWS, Google, Azure에 동시에 입찰하여 최저가를 확보합니다. 통합 오케스트레이션 레이어가 공급업체 차이를 추상화합니다. 가장 저렴한 사용 가능한 용량으로 워크로드를 이동합니다. 멀티 클라우드 전략은 단일 클라우드보다 10-15% 더 나은 가격을 달성합니다.

스팟 네이티브 아키텍처: 처음부터 중단을 가정하여 시스템을 설계합니다. 가능한 모든 곳에서 무상태 컴포넌트를 구현합니다. 모든 영구 데이터에 외부 상태 저장소를 사용합니다. 모든 처리 단계에 재개 가능성을 구축합니다.

비용 비교 계산기

잠재적 절감액을 계산하세요:

``` 현재 온디맨드

[번역을 위해 내용 생략됨]

견적 요청_

프로젝트에 대해 알려주시면 72시간 내에 답변드리겠습니다.

> 전송_완료

요청이 접수되었습니다_

문의해 주셔서 감사합니다. 저희 팀이 요청사항을 검토한 후 72시간 내에 답변드리겠습니다.

처리_대기_중