Spot-Instanzen und Preemptible GPUs: KI-Kosten um 70% senken
Aktualisiert am 8. Dezember 2025
Update Dezember 2025: Die Preise für Spot- und On-Demand-GPUs haben sich erheblich angeglichen, da die Versorgungsengpässe nachgelassen haben. AWS senkte die On-Demand-Preise für H100 im Juni 2025 um 44% (auf ~3,90$/Std.), wodurch sich der Spot-Premium-Vorteil verringerte. Budget-Anbieter wie Hyperbolic bieten H100 für 1,49$/Std. und H200 für 2,15$/Std. an – oft wettbewerbsfähig mit traditionellen Spot-Preisen. Der GPU-Mietmarkt wächst von 3,34 Mrd. $ auf 33,9 Mrd. $ (2023-2032). Während Spot-Instanzen weiterhin Einsparungen für unterbrechbare Workloads bieten, hat sich die Kalkulation verschoben – On-Demand ist jetzt für mehr Anwendungsfälle sinnvoll, und neue Budget-Cloud-Anbieter haben die traditionelle Spot-Ökonomie disruptiert.
Spotify reduzierte die Kosten für ihre Machine-Learning-Infrastruktur von 8,2 Millionen auf 2,4 Millionen Dollar jährlich, indem sie ihre gesamte Trainings-Pipeline für Empfehlungsalgorithmen auf AWS Spot-Instanzen aufbauten – ein Beweis dafür, dass unterbrechbare GPUs produktive KI-Workloads betreiben können.¹ Der Haken: Ihre p4d.24xlarge-Instanzen verschwinden mit 2-minütiger Vorwarnung, sobald AWS die Kapazität zurückbenötigt. Das zwingt das Team, alle 5 Minuten Checkpoints zu erstellen und dreifache Redundanz für kritische Jobs aufrechtzuerhalten. Organisationen, die Spot-Instanz-Orchestrierung meistern, erreichen 70-91% Kosteneinsparungen im Vergleich zu On-Demand-Preisen, aber wer naiv deployt, verliert wochenlangen Trainingsfortschritt durch unerwartete Terminierungen.²
AWS Spot, Google Cloud Preemptible VMs und Azure Spot VMs bieten identische Hardware mit massiven Rabatten, weil Cloud-Anbieter überschüssige Kapazität verkaufen, die jederzeit verschwinden kann.³ Eine p5.48xlarge-Instanz mit 8 H100-GPUs kostet on-demand 98,32$ pro Stunde, aber durchschnittlich nur 19,66$ auf Spot – ein 80%-Rabatt, der die KI-Ökonomie transformiert.⁴ Das Modell funktioniert, weil Cloud-Anbieter 15-30% Reservekapazität für Wartung, Ausfälle und Nachfragespitzen vorhalten und ansonsten ungenutzte Ressourcen monetarisieren, während sie das Recht behalten, diese sofort zurückzufordern.
Die Ökonomie unterbrechbarer GPU-Kapazität
Cloud-Anbieter bepreisen Spot-Instanzen durch kontinuierliche Auktionen, bei denen die Preise je nach Angebot und Nachfrage schwanken. AWS Spot-Preise für GPU-Instanzen variieren zwischen 70% und 91% unter den On-Demand-Raten, wobei ml.p4d.24xlarge-Instanzen von 3,90$ bis 29,49$ pro Stunde reichen – gegenüber dem On-Demand-Preis von 32,77$.⁵ Google Preemptible GPUs bieten feste 60-80%-Rabatte, terminieren aber nach maximal 24 Stunden unabhängig von der Nachfrage.⁶ Azure Spot bietet ähnliche 60-90%-Rabatte mit konfigurierbaren Maximalpreisen, die Rechnungsschocks verhindern.
Die tiefsten Rabatte finden sich in weniger beliebten Regionen und älteren GPU-Generationen. US-West-2 Spot-Preise liegen nachfragebedingt 20% höher als US-East-2. V100-Instanzen erreichen 91% Rabatt, während neuere H100s selten 75% überschreiten. Nacht- und Wochenendperioden bieten 10-15% zusätzliche Einsparungen, da Unternehmens-Workloads abnehmen. Intelligente Orchestrierung nutzt diese Muster aus und migriert Workloads über Regionen und Zeitzonen, um Kosten zu minimieren.
Unterbrechungsraten variieren dramatisch nach Instanztyp, Region und Zeit. Die Analyse von 10 Millionen Spot-Instanz-Stunden zeigt:⁷ - A100-Instanzen: 2,3% stündliche Unterbrechungsrate - V100-Instanzen: 0,8% stündliche Unterbrechungsrate - H100-Instanzen: 4,1% stündliche Unterbrechungsrate - Wochenend-Unterbrechungsraten: 40% niedriger als an Wochentagen - US-East-1: 3x höhere Unterbrechungsrate als US-West-2
Workload-Muster, die auf Spot-Instanzen gedeihen
Bestimmte KI-Workloads passen natürlich zum Spot-Instanz-Modell:
Hyperparameter-Tuning: Parallele Exploration von Parameterräumen toleriert individuelle Job-Ausfälle. Jedes Experiment läuft unabhängig, sodass Unterbrechungen nur einzelne Konfigurationen betreffen. Optuna und Ray Tune behandeln Spot-Instanz-Ausfälle automatisch und starten terminierte Jobs auf neuen Instanzen neu.⁸ Organisationen berichten von 75% Kosteneinsparungen für Hyperparameter-Suchen, die ausschließlich Spot-Instanzen nutzen.
Batch-Inferenz: Die Verarbeitung von Millionen von Bildern oder Dokumenten verteilt sich auf viele Instanzen. Arbeits-Queues verfolgen abgeschlossene versus ausstehende Elemente. Unterbrechungen geben unfertige Arbeit einfach an die Queue zurück. Autoscaling-Gruppen starten automatisch Ersatz-Instanzen. Netflix verarbeitet täglich 100 Millionen Thumbnails mit Spot-Instanzen und spart jährlich 3,2 Millionen Dollar.⁹
Datenvorverarbeitung: ETL-Pipelines für Trainingsdaten profitieren von Spot-Kapazität. Frameworks wie Apache Spark erstellen automatisch Checkpoints. Unterbrochene Tasks werden auf neuen Instanzen von Checkpoints fortgesetzt. Die zustandslose Natur der meisten Vorverarbeitung macht Spot-Instanzen ideal. Ubers Feature-Engineering-Pipeline läuft zu 90% auf Spot-Instanzen.¹⁰
Entwicklung und Testing: Nicht-Produktionsumgebungen tolerieren Unterbrechungen problemlos. Entwickler erwarten gelegentliche Störungen während der Experimente. Kosteneinsparungen ermöglichen größere Entwicklungscluster. CI/CD-Pipelines wiederholen fehlgeschlagene Jobs automatisch. GitHub Actions bietet 70% niedrigere Preise für Spot-Runner.¹¹
Verteiltes Training mit Checkpointing: Großes Modelltraining wird mit richtigen Checkpointing-Strategien machbar. Speichern Sie den Modellzustand alle 10-30 Minuten in dauerhaftem Speicher. Verwenden Sie Gradientenakkumulation, um effektive Batch-Größen während Instanz-Fluktuationen beizubehalten. Implementieren Sie elastisches Training, das sich an verfügbare Instanzen anpasst. OpenAI trainierte frühe GPT-Modelle mit 60% Spot-Instanzen.¹²
Strategien zur Unterbrechungsbehandlung
Erfolgreiche Spot-Instanz-Nutzung erfordert ausgefeiltes Unterbrechungsmanagement:
Checkpointing-Frameworks: Implementieren Sie automatisches Checkpointing in regelmäßigen Intervallen. PyTorch Lightning bietet eingebaute Spot-Instanz-Unterstützung mit konfigurierbaren Checkpoint-Frequenzen.¹³ Speichern Sie Optimizer-Zustand, Learning-Rate-Schedules und Random Seeds zusammen mit Modellgewichten. Speichern Sie Checkpoints in Object Storage für Dauerhaftigkeit. Setzen Sie das Training nahtlos auf neuen Instanzen fort.
Instanz-Diversifizierung: Verteilen Sie Workloads über mehrere Instanztypen, Availability Zones und Regionen. AWS Spot Fleet verwaltet automatisch diverse Kapazitätspools.¹⁴ Konfigurieren Sie 10-15 verschiedene Instanztypen, um die Verfügbarkeit zu maximieren. Akzeptieren Sie leicht suboptimale Instanzen für bessere Verfügbarkeit. Halten Sie einen 20%-Kapazitätspuffer für reibungslose Übergänge.
Graceful-Shutdown-Handler: AWS bietet 2-minütige Terminierungsbenachrichtigungen über den Instance-Metadata-Service. Google gibt 30-sekündige Preemptible-Warnungen. Implementieren Sie Signal-Handler, die bei Terminierungsbenachrichtigung sofortiges Checkpointing auslösen. Flushen Sie Logs und Metriken vor dem Shutdown. Bereinigen Sie temporäre Ressourcen, um verwaiste Kosten zu vermeiden.
Hybride Architekturen: Kombinieren Sie Spot-Instanzen mit On-Demand-Kapazität für kritische Komponenten. Betreiben Sie Parameter-Server auf On-Demand, während Worker Spot nutzen. Halten Sie eine minimale viable Kapazität auf stabilen Instanzen. Bursten Sie zu Spot für zusätzlichen Durchsatz. Skalieren Sie Spot-Kapazität basierend auf Preis- und Verfügbarkeitssignalen.
Queue-basierte Architekturen: Entkoppeln Sie Arbeitsplanung von der Ausführung durch Message Queues. Amazon SQS oder Apache Kafka verfolgen ausstehende Arbeit. Worker holen Tasks ab, wenn verfügbar. Abgeschlossene Arbeit aktualisiert persistenten Speicher. Fehlgeschlagene Tasks kehren zur Queue für Retry zurück.
Implementierungsmuster für Produktionssysteme
Produktionsreife Spot-Instanz-Deployments folgen bewährten Mustern:
Multi-Region-Orchestrierung:
# Kubernetes Spot Instance Configuration
apiVersion: v1
kind: NodePool
spec:
spotInstances:
enabled: true
maxPrice: 0.50 # Maximum hourly price
regions:
- us-east-1
- us-west-2
- eu-west-1
instanceTypes:
- g5.xlarge
- g5.2xlarge
- g4dn.xlarge
diversificationStrategy: lowestPrice
onDemandBaseCapacity: 2
spotInstancePools: 10
Checkpoint-Management:
class SpotTraining:
def __init__(self):
self.checkpoint_frequency = 600 # 10 minutes
self.s3_bucket = "checkpoints"
def train(self):
if self.detect_termination_notice():
self.emergency_checkpoint()
self.graceful_shutdown()
if time.time() - self.last_checkpoint > self.checkpoint_frequency:
self.save_checkpoint()
Kostenüberwachungs-Dashboard: Verfolgen Sie Spot-Einsparungen gegenüber der On-Demand-Baseline. Überwachen Sie Unterbrechungsraten nach Instanztyp und Region. Alarmieren Sie, wenn Spot-Preise Schwellenwerte überschreiten. Berechnen Sie die effektiven Kosten pro Trainingsepoche. Projizieren Sie monatliche Einsparungen basierend auf Nutzungsmustern.
Introl hilft Organisationen bei der Implementierung von Spot-Instanz-Strategien in unserem globalen Abdeckungsbereich, mit Expertise in der Kostenoptimierung für über 100.000 GPU-Deployments.¹⁵ Unsere Automatisierungs-Frameworks behandeln Unterbrechungen nahtlos und erhalten dabei Trainingsfortschritt und Inferenz-Verfügbarkeit.
Reale Spot-Instanz-Architekturen
Pinterest - Training von Empfehlungsmodellen: - Workload: Training von Empfehlungsmodellen auf 2 Milliarden Pins - Architektur: 200 V100-GPUs, 80% auf Spot-Instanzen - Checkpointing: Alle 15 Minuten nach S3 - Unterbrechungsrate: Durchschnittlich 1,2% täglich - Kosteneinsparungen: 4,8 Millionen Dollar jährlich (72% Reduktion) - Schlüsseltechnik: Regionales Failover innerhalb von 5 Minuten
Snap - Computer-Vision-Pipeline: - Workload: Verarbeitung von 500 Millionen Bildern täglich - Architektur: 1.000 T4-GPUs über 6 Regionen - Spot-Anteil: 90% für Batch-Verarbeitung - Recovery-Zeit: Durchschnittlich 30 Sekunden - Kosteneinsparungen: 6,2 Millionen Dollar jährlich (78% Reduktion) - Schlüsseltechnik: Work-Stealing-Queue-Architektur
DoorDash - Nachfrageprognose: - Workload: Echtzeit-Liefernachfrageprognose - Architektur: Hybrid mit 30% On-Demand-Baseline - Spot-Nutzung: 70% für Training, 0% für Inferenz - Unterbrechungsbehandlung: Automatisches Failover zu On-Demand - Kosteneinsparungen: 2,1 Millionen Dollar jährlich (65% Reduktion) - Schlüsseltechnik: Prädiktive Skalierung basierend auf Spot-Preisen
Wann man Spot-Instanzen vermeiden sollte
Bestimmte Szenarien machen Spot-Instanzen ungeeignet:
Latenz-sensitive Inferenz: Kundenorientierte APIs können plötzlichen Kapazitätsverlust nicht tolerieren. Model-Serving erfordert konsistente Verfügbarkeit. Unterbrechungen verursachen inakzeptable User-Experience-Verschlechterung. Verwenden Sie reservierte Kapazität oder On-Demand für Produktions-Inferenz.
Langläufige Einzel-Jobs: Trainingsläufe, die 24 Stunden ohne Checkpointing überschreiten, erleiden garantierte Unterbrechung bei Google Preemptible. Jobs, die nicht von Checkpoints fortsetzen können, verschwenden ganze Läufe. Workloads mit komplexer Zustandswiederherstellung sollten Spot vermeiden.
Regulierte Workloads: Gesundheitswesen und Finanzdienstleistungen können garantierte Kapazität für Compliance erfordern. Audit-Anforderungen könnten Infrastruktur-Unsicherheit verbieten. Datenresidenz-Regeln könnten Multi-Region-Failover-Strategien verhindern.
Zeitkritische Deadlines: Produktlaunches oder zeitkritische Forschung können Unterbrechungen nicht riskieren. Konferenz-Deadlines oder Kundenverpflichtungen erfordern garantierte Fertigstellung. Verwenden Sie On-Demand, wenn der Zeitplan wichtiger ist als die Kosten.
Fortgeschrittene Optimierungstechniken
Spot-Preis-Vorhersage: Machine-Learning-Modelle prognostizieren zukünftige Spot-Preise basierend auf historischen Mustern. Zeitreihenanalyse identifiziert wiederkehrende Verfügbarkeitsfenster. Proaktive Gebotsstrategien sichern Kapazität vor Preisspitzen. Akademische Forschung zeigt 15% zusätzliche Einsparungen durch Preisvorhersage.¹⁶
Adaptives Checkpointing: Passen Sie die Checkpoint-Frequenz basierend auf der Unterbrechungswahrscheinlichkeit an. Erhöhen Sie die Frequenz, wenn sich Preise Unterbrechungsschwellen nähern. Verringern Sie die Frequenz während stabiler Perioden, um Overhead zu reduzieren. Dynamische Strategien sparen 20% bei Speicherkosten und erhalten die Recovery-Geschwindigkeit.
Cross-Cloud-Arbitrage: Bieten Sie gleichzeitig bei AWS, Google und Azure für die niedrigsten Preise. Vereinheitlichte Orchestrierungsschichten abstrahieren Provider-Unterschiede. Verschieben Sie Workloads zur günstigsten verfügbaren Kapazität. Multi-Cloud-Strategien erreichen 10-15% bessere Preise als Single-Cloud.
Spot-native Architektur: Entwerfen Sie Systeme, die von Anfang an mit Unterbrechung rechnen. Implementieren Sie zustandslose Komponenten, wo immer möglich. Verwenden Sie externe State-Stores für alle persistenten Daten. Bauen Sie Wiederaufnahmefähigkeit in jede Verarbeitungsstufe ein.
Kostenvergleichs-Rechner
Berechnen Sie Ihre potenziellen Einsparungen:
``` Aktueller On-Deman
[Content truncated for translation]