Spot Instances và GPU Preemptible: Giảm Chi Phí AI 70%

Giảm chi phí AI 70-91% bằng cách sử dụng spot instances và GPU preemptible. Xử lý gián đoạn, triển khai checkpointing, và tối ưu hóa trên AWS, GCP, Azure.

Madison Kersh

Apr 21, 2026 7 min read Disclaimer

Spot Instances và GPU Preemptible: Giảm Chi Phí AI 70%

Cập nhật ngày 8 tháng 12, 2025

Cập nhật tháng 12/2025: Giá GPU spot và on-demand đã hội tụ đáng kể khi các ràng buộc nguồn cung được nới lỏng. AWS đã cắt giảm giá H100 on-demand 44% vào tháng 6/2025 (xuống ~$3.90/giờ), thu hẹp lợi thế về giá của spot premium. Các nhà cung cấp ngân sách như Hyperbolic cung cấp H100 với giá $1.49/giờ và H200 với giá $2.15/giờ, thường có tính cạnh tranh với giá spot truyền thống. Thị trường thuê GPU đang tăng từ $3.34B lên $33.9B (2023-2032). Mặc dù spot instances vẫn mang lại tiết kiệm cho các workload có thể gián đoạn, phép tính đã thay đổi—on-demand giờ đây có ý nghĩa cho nhiều trường hợp sử dụng hơn, và các nhà cung cấp cloud ngân sách mới đã phá vỡ kinh tế học spot truyền thống.

Spotify đã giảm chi phí cơ sở hạ tầng machine learning từ $8.2 triệu xuống $2.4 triệu hàng năm bằng cách xây dựng toàn bộ pipeline huấn luyện recommendation engine xung quanh AWS Spot instances, chứng minh rằng GPU có thể gián đoạn có thể hỗ trợ các workload AI production.¹ Nhược điểm: các instance p4d.24xlarge của họ biến mất với cảnh báo 2 phút bất cứ khi nào AWS cần lại capacity, buộc team phải checkpoint mỗi 5 phút và duy trì tính dự phòng ba lần cho các job quan trọng. Các tổ chức thành thạo trong việc điều phối spot instance đạt được mức giảm chi phí 70-91% so với giá on-demand, nhưng những ai triển khai một cách ngây thơ sẽ mất hàng tuần tiến trình training do các termination bất ngờ.²

AWS Spot, Google Cloud Preemptible VMs, và Azure Spot VMs cung cấp phần cứng giống hệt với mức giảm giá lớn vì các nhà cung cấp cloud bán excess capacity có thể biến mất bất cứ lúc nào.³ Một instance p5.48xlarge với 8 GPU H100 có giá $98.32 mỗi giờ on-demand nhưng trung bình $19.66 trên Spot—mức giảm giá 80% biến đổi kinh tế học AI.⁴ Mô hình này hoạt động vì các nhà cung cấp cloud duy trì 15-30% spare capacity cho bảo trì, lỗi, và các peak demand, kiếm tiền từ các tài nguyên rảnh rỗi trong khi vẫn giữ quyền thu hồi ngay lập tức.

Kinh tế học của capacity GPU có thể gián đoạn

Các nhà cung cấp cloud định giá spot instances thông qua các cuộc đấu giá liên tục nơi giá cả dao động dựa trên cung và cầu. Giá AWS Spot cho các instance GPU dao động từ 70% đến 91% dưới mức giá on-demand, với các instance ml.p4d.24xlarge có giá từ $3.90 đến $29.49 mỗi giờ so với giá on-demand $32.77.⁵ Google Preemptible GPU cung cấp mức giảm giá cố định 60-80% nhưng terminate sau tối đa 24 giờ bất kể demand.⁶ Azure Spot cung cấp mức giảm giá tương tự 60-90% với giá tối đa có thể cấu hình để ngăn chặn bill shock.

Mức giảm giá sâu nhất xuất hiện ở các region ít phổ biến và các thế hệ GPU cũ hơn. Giá spot US-West-2 cao hơn 20% so với US-East-2 do tập trung demand. Các instance V100 đạt mức giảm giá 91% trong khi H100 mới hiếm khi vượt quá 75% giảm giá. Các giai đoạn đêm và cuối tuần cung cấp 10-15% tiết kiệm bổ sung khi workload doanh nghiệp giảm. Điều phối thông minh khai thác các pattern này, di chuyển workload qua các region và múi giờ để tối thiểu hóa chi phí.

Tỷ lệ gián đoạn thay đổi đáng kể theo loại instance, region, và thời gian. Phân tích 10 triệu giờ spot instance cho thấy:⁷ - Instance A100: 2.3% tỷ lệ gián đoạn hàng giờ - Instance V100: 0.8% tỷ lệ gián đoạn hàng giờ - Instance H100: 4.1% tỷ lệ gián đoạn hàng giờ - Tỷ lệ gián đoạn cuối tuần: thấp hơn 40% so với ngày thường - US-East-1: tỷ lệ gián đoạn cao gấp 3 lần US-West-2

Các pattern workload thịnh vượng trên spot instances

Một số workload AI tự nhiên phù hợp với mô hình spot instance:

Hyperparameter Tuning: Khám phá song song các không gian tham số có thể chịu được lỗi job riêng lẻ. Mỗi thí nghiệm chạy độc lập, vì vậy gián đoạn chỉ ảnh hưởng đến cấu hình đơn lẻ. Optuna và Ray Tune tự động xử lý lỗi spot instance, khởi động lại các job bị terminate trên instance mới.⁸ Các tổ chức báo cáo tiết kiệm 75% chi phí cho hyperparameter search chỉ sử dụng spot instances.

Batch Inference: Xử lý hàng triệu hình ảnh hoặc tài liệu phân phối qua nhiều instance. Work queue theo dõi các item đã hoàn thành so với pending. Gián đoạn chỉ đơn giản trả unfinished work về queue. Autoscaling group khởi động instance thay thế tự động. Netflix xử lý 100 triệu thumbnail hàng ngày sử dụng spot instances, tiết kiệm $3.2 triệu hàng năm.⁹

Data Preprocessing: Pipeline ETL cho training data hưởng lợi từ spot capacity. Các framework như Apache Spark tự động checkpoint progress. Các task bị gián đoạn tiếp tục từ checkpoint trên instance mới. Tính chất stateless của hầu hết preprocessing khiến spot instances trở nên lý tưởng. Pipeline feature engineering của Uber chạy 90% trên spot instances.¹⁰

Development và Testing: Môi trường non-production chịu được gián đoạn một cách graceful. Developer kỳ vọng các disruption thỉnh thoảng trong quá trình thử nghiệm. Tiết kiệm chi phí cho phép cluster development lớn hơn. Pipeline CI/CD tự động retry các job thất bại. GitHub Actions cung cấp giá thấp hơn 70% cho spot runner.¹¹

Distributed Training với Checkpointing: Training model lớn trở nên khả thi với các chiến lược checkpointing phù hợp. Lưu model state mỗi 10-30 phút vào durable storage. Sử dụng gradient accumulation để duy trì effective batch size trong quá trình dao động instance. Triển khai elastic training điều chỉnh theo instance có sẵn. OpenAI đã train các model GPT đầu tiên sử dụng 60% spot instances.¹²

Các chiến lược xử lý gián đoạn

Việc sử dụng spot instance thành công đòi hỏi quản lý gián đoạn tinh vi:

Checkpoint Framework: Triển khai checkpointing tự động theo khoảng thời gian đều đặn. PyTorch Lightning cung cấp hỗ trợ spot instance built-in với tần suất checkpoint có thể cấu hình.¹³ Lưu optimizer state, learning rate schedule, và random seed cùng với model weight. Lưu trữ checkpoint trong object storage để bảo đảm tính bền vững. Resume training seamlessly trên instance mới.

Instance Diversification: Phân tán workload qua nhiều loại instance, availability zone, và region. AWS Spot Fleet tự động quản lý các pool capacity đa dạng.¹⁴ Cấu hình 10-15 loại instance khác nhau để tối đa hóa availability. Chấp nhận instance hơi kém tối ưu để có availability tốt hơn. Duy trì 20% capacity buffer cho transition mượt mà.

Graceful Shutdown Handler: AWS cung cấp thông báo terminate 2 phút qua instance metadata service. Google cung cấp cảnh báo Preemptible 30 giây. Triển khai signal handler kích hoạt checkpointing ngay lập tức khi nhận thông báo terminate. Flush log và metric trước khi shutdown. Dọn dẹp temporary resource để ngăn orphaned cost.

Hybrid Architecture: Kết hợp spot instances với on-demand capacity cho các thành phần quan trọng. Chạy parameter server trên on-demand trong khi worker sử dụng spot. Duy trì minimum viable capacity trên stable instance. Burst lên spot để có throughput bổ sung. Scale spot capacity dựa trên signal giá và availability.

Queue-Based Architecture: Tách biệt work scheduling khỏi execution sử dụng message queue. Amazon SQS hoặc Apache Kafka theo dõi pending work. Worker pull task khi available. Completed work cập nhật persistent storage. Failed task trả về queue để retry.

Pattern triển khai cho hệ thống production

Triển khai spot instance production-grade tuân theo các pattern đã được chứng minh:

Multi-Region Orchestration:

# Cấu hình Kubernetes Spot Instance
apiVersion: v1
kind: NodePool
spec:
  spotInstances:
    enabled: true
    maxPrice: 0.50  # Giá tối đa mỗi giờ
    regions:
      - us-east-1
      - us-west-2
      - eu-west-1
    instanceTypes:
      - g5.xlarge
      - g5.2xlarge
      - g4dn.xlarge
    diversificationStrategy: lowestPrice
    onDemandBaseCapacity: 2
    spotInstancePools: 10

Checkpoint Management: ```python class SpotTraining: def init(self): self.checkpoint_frequency = 600 # 10 phút self.s3_bucket = "checkpoints"

def train(self):
    if self.detect_termination_notice():
        self.emergency_checkpoint()
        self.graceful_shutdown()

    if time.time() - self.last_checkpoint > self.checkpoint_frequency:

Spot Instances và GPU Preemptible: Giảm Chi Phí AI 70%

Kinh tế học của capacity GPU có thể gián đoạn

Các pattern workload thịnh vượng trên spot instances

Các chiến lược xử lý gián đoạn

Pattern triển khai cho hệ thống production

You Might Also Like

Lập Lịch Khối Lượng Công Việc AI: Tối Ưu Hóa Sử Dụng GPU Trê...

Vận hành Bảo mật Hạ tầng AI: Yêu cầu SOC cho Cụm GPU

Kế Hoạch Xây Dựng Hạ Tầng AI 600 Tỷ USD: CapEx của Hyperscal...

Yêu cầu báo giá_

Đã Nhận Yêu cầu_