Spot Instances und Preemptible GPUs: KI-Kosten um 70% senken

KI-Kosten um 70-91% reduzieren durch Spot Instances und Preemptible GPUs. Unterbrechungen handhaben, Checkpointing implementieren und AWS, GCP, Azure optimieren.

Madison Kersh

Apr 21, 2026 5 min read Disclaimer

Spot Instances und Preemptible GPUs: KI-Kosten um 70% senken

Aktualisiert am 8. Dezember 2025

Dezember 2025 Update: Spot- und On-Demand GPU-Preise haben sich erheblich angenähert, da sich die Versorgungsengpässe entspannt haben. AWS senkte die On-Demand H100-Preise im Juni 2025 um 44% (auf ~$3,90/Std.), was den Vorteil des Spot-Aufschlags verringerte. Budget-Anbieter wie Hyperbolic bieten H100 für $1,49/Std. und H200 für $2,15/Std. an, oft konkurrenzfähig mit traditioneller Spot-Preisgestaltung. Der GPU-Mietmarkt wächst von $3,34 Mrd. auf $33,9 Mrd. (2023-2032). Während Spot Instances noch Einsparungen für unterbrechbare Workloads bieten, hat sich die Rechnung geändert – On-Demand macht jetzt für mehr Anwendungsfälle Sinn, und neue Budget-Cloud-Anbieter haben die traditionelle Spot-Ökonomie disrupted.

Spotify reduzierte ihre Machine-Learning-Infrastrukturkosten von $8,2 Millionen auf $2,4 Millionen jährlich, indem sie ihre gesamte Empfehlungsmotor-Trainings-Pipeline um AWS Spot Instances architektierte und bewies, dass unterbrechbare GPUs produktive AI-Workloads antreiben können.¹ Der Haken: ihre p4d.24xlarge Instances verschwinden mit 2-Minuten-Warnung, wann immer AWS die Kapazität zurückbraucht, was das Team dazu zwingt, alle 5 Minuten Checkpoints zu setzen und dreifache Redundanz für kritische Jobs zu halten. Organisationen, die Spot Instance Orchestrierung meistern, erreichen 70-91% Kostenreduzierungen verglichen mit On-Demand-Preisen, aber diejenigen, die naiv deployen, verlieren Wochen des Trainingsfortschritts durch unerwartete Terminierungen.²

AWS Spot, Google Cloud Preemptible VMs und Azure Spot VMs bieten identische Hardware zu massiven Rabatten, weil Cloud-Anbieter Überkapazitäten verkaufen, die jederzeit verschwinden können.³ Eine p5.48xlarge Instance mit 8 H100 GPUs kostet $98,32 pro Stunde On-Demand, aber durchschnittlich $19,66 auf Spot – ein 80% Rabatt, der KI-Ökonomie transformiert.⁴ Das Modell funktioniert, weil Cloud-Anbieter 15-30% Reservekapazität für Wartung, Ausfälle und Nachfragespitzen halten und ansonsten ungenutzte Ressourcen monetarisieren, während sie sich das Recht vorbehalten, sie sofort zurückzufordern.

Die Ökonomie von unterbrechbarer GPU-Kapazität

Cloud-Anbieter preisen Spot Instances durch kontinuierliche Auktionen, bei denen Preise basierend auf Angebot und Nachfrage schwanken. AWS Spot-Preise für GPU-Instances variieren von 70% bis 91% unter On-Demand-Raten, mit ml.p4d.24xlarge Instances von $3,90 bis $29,49 pro Stunde gegen den $32,77 On-Demand-Preis.⁵ Google Preemptible GPUs bieten feste 60-80% Rabatte, terminieren aber nach maximal 24 Stunden unabhängig von der Nachfrage.⁶ Azure Spot bietet ähnliche 60-90% Rabatte mit konfigurierbaren Höchstpreisen, die Kostenexplosionen verhindern.

Die tiefsten Rabatte erscheinen in weniger beliebten Regionen und älteren GPU-Generationen. US-West-2 Spot-Preise laufen 20% höher als US-East-2 aufgrund von Nachfragekonzentration. V100 Instances erreichen 91% Rabatte, während neuere H100s selten 75% Rabatte überschreiten. Nacht- und Wochenendzeiten bieten 10-15% zusätzliche Einsparungen, da Enterprise-Workloads abnehmen. Intelligente Orchestrierung nutzt diese Muster, migriert Workloads über Regionen und Zeitzonen, um Kosten zu minimieren.

Unterbrechungsraten variieren dramatisch nach Instanztyp, Region und Zeit. Analyse von 10 Millionen Spot Instance Stunden zeigt:⁷ - A100 Instances: 2,3% stündliche Unterbrechungsrate - V100 Instances: 0,8% stündliche Unterbrechungsrate - H100 Instances: 4,1% stündliche Unterbrechungsrate - Wochenend-Unterbrechungsraten: 40% niedriger als an Wochentagen - US-East-1: 3x höhere Unterbrechungsrate als US-West-2

Workload-Muster, die auf Spot Instances gedeihen

Bestimmte AI-Workloads passen natürlich zum Spot Instance Modell:

Hyperparameter-Tuning: Parallele Erkundung von Parameterräumen toleriert individuelle Job-Ausfälle. Jedes Experiment läuft unabhängig, sodass Unterbrechungen nur einzelne Konfigurationen betreffen. Optuna und Ray Tune handhaben Spot Instance Ausfälle automatisch und starten terminierte Jobs auf neuen Instances neu.⁸ Organisationen berichten von 75% Kostenersparnissen für Hyperparameter-Suchen mit ausschließlicher Nutzung von Spot Instances.

Batch Inference: Verarbeitung von Millionen von Bildern oder Dokumenten verteilt sich auf viele Instances. Arbeits-Queues verfolgen abgeschlossene versus ausstehende Elemente. Unterbrechungen geben einfach unfertige Arbeit an die Queue zurück. Autoscaling-Gruppen starten automatisch Ersatz-Instances. Netflix verarbeitet 100 Millionen Thumbnails täglich mit Spot Instances und spart $3,2 Millionen jährlich.⁹

Datenvorverarbeitung: ETL-Pipelines für Trainingsdaten profitieren von Spot-Kapazität. Frameworks wie Apache Spark checkpointen Fortschritt automatisch. Unterbrochene Tasks werden von Checkpoints auf neuen Instances fortgesetzt. Die zustandslose Natur der meisten Vorverarbeitung macht Spot Instances ideal. Ubers Feature-Engineering-Pipeline läuft zu 90% auf Spot Instances.¹⁰

Entwicklung und Testing: Nicht-produktive Umgebungen tolerieren Unterbrechungen graceful. Entwickler erwarten gelegentliche Störungen während Experimenten. Kosteneinsparungen ermöglichen größere Entwicklungs-Cluster. CI/CD-Pipelines wiederholen fehlgeschlagene Jobs automatisch. GitHub Actions bietet 70% niedrigere Preise für Spot Runner.¹¹

Distributed Training mit Checkpointing: Training großer Modelle wird mit ordnungsgemäßen Checkpointing-Strategien machbar. Speichere Modellzustand alle 10-30 Minuten in dauerhaften Speicher. Nutze Gradient Accumulation, um effektive Batch-Größen während Instance-Schwankungen zu halten. Implementiere elastisches Training, das sich an verfügbare Instances anpasst. OpenAI trainierte frühe GPT-Modelle mit 60% Spot Instances.¹²

Strategien für den Umgang mit Unterbrechungen

Erfolgreiche Spot Instance Nutzung erfordert ausgeklügelte Unterbrechungsmanagement:

Checkpointing-Frameworks: Implementiere automatisches Checkpointing in regelmäßigen Intervallen. PyTorch Lightning bietet eingebaute Spot Instance Unterstützung mit konfigurierbaren Checkpoint-Frequenzen.¹³ Speichere Optimizer-State, Learning Rate Schedules und Random Seeds neben Modellgewichten. Speichere Checkpoints in Object Storage für Dauerhaftigkeit. Setze Training nahtlos auf neuen Instances fort.

Instance-Diversifikation: Verteile Workloads über mehrere Instanztypen, Verfügbarkeitszonen und Regionen. AWS Spot Fleet verwaltet automatisch diverse Kapazitätspools.¹⁴ Konfiguriere 10-15 verschiedene Instanztypen für maximale Verfügbarkeit. Akzeptiere leicht suboptimale Instances für bessere Verfügbarkeit. Halte 20% Kapazitätspuffer für glatte Übergänge.

Graceful Shutdown Handler: AWS bietet 2-Minuten-Terminierungsbenachrichtigungen über Instance Metadata Service. Google gibt 30-Sekunden-Preemptible-Warnungen. Implementiere Signal Handler, die sofortiges Checkpointing bei Terminierungsbenachrichtigung auslösen. Flush Logs und Metriken vor Shutdown. Räume temporäre Ressourcen auf, um verwaiste Kosten zu verhindern.

Hybrid-Architekturen: Kombiniere Spot Instances mit On-Demand-Kapazität für kritische Komponenten. Führe Parameter Server auf On-Demand, während Worker Spot nutzen. Halte minimale viable Kapazität auf stabilen Instances. Burste zu Spot für zusätzlichen Durchsatz. Skaliere Spot-Kapazität basierend auf Preis- und Verfügbarkeitssignalen.

Queue-basierte Architekturen: Entkopple Arbeitszeitplanung von Ausführung mit Message Queues. Amazon SQS oder Apache Kafka verfolgen ausstehende Arbeit. Worker ziehen Tasks bei Verfügbarkeit. Abgeschlossene Arbeit aktualisiert persistenten Speicher. Fehlgeschlagene Tasks kehren zur Queue für Retry zurück.

Implementierungsmuster für Produktionssysteme

Produktions-reife Spot Instance Deployments folgen bewährten Mustern:

Multi-Region-Orchestrierung:

# Kubernetes Spot Instance Konfiguration
apiVersion: v1
kind: NodePool
spec:
  spotInstances:
    enabled: true
    maxPrice: 0.50  # Maximaler Stundenpreis
    regions:
      - us-east-1
      - us-west-2
      - eu-west-1
    instanceTypes:
      - g5.xlarge
      - g5.2xlarge
      - g4dn.xlarge
    diversificationStrategy: lowestPrice
    onDemandBaseCapacity: 2
    spotInstancePools: 10

Checkpoint-Management: ```python class SpotTraining: def init(self): self.checkpoint_frequency = 600 # 10 Minuten self.s3_bucket = "checkpoints"

def train(self):
    if self.detect_termination_notice():
        self.emergency_checkpoint()
        self.graceful_shutdown()

    if time.time() - self.last_checkpoint > self.checkpoint_frequency:

Spot Instances und Preemptible GPUs: KI-Kosten um 70% senken

Die Ökonomie von unterbrechbarer GPU-Kapazität

Workload-Muster, die auf Spot Instances gedeihen

Strategien für den Umgang mit Unterbrechungen

Implementierungsmuster für Produktionssysteme

You Might Also Like

AI Workload Scheduling: GPU-Auslastung über Zeitzonen hinweg...

AI-Infrastruktur-Sicherheitsoperationen: SOC-Anforderungen f...

Der $600B AI-Infrastruktur-Ausbau: Hyperscaler-CapEx, Schuld...

Angebot anfordern_

Anfrage erhalten_