AI-Beschleuniger jenseits von GPUs: TPU, Trainium, Gaudi, Groq, Cerebras 2025

Google TPU Trillium, AWS Trainium3, Intel Gaudi 3, Groq LPU, Cerebras WSE-3, SambaNova SN40L. Analyse von AI-Beschleunigern, die NVIDIA's GPU-Dominanz herausfordern.

Madison Kersh

Apr 24, 2026 7 min read Disclaimer

AI-Beschleuniger jenseits von GPUs: TPU, Trainium, Gaudi, Groq, Cerebras 2025

AI-Beschleuniger jenseits von GPUs: die alternative Silizium-Landschaft

Aktualisiert am 11. Dezember 2025

Update Dezember 2025: AWS Trainium3 wird mit 2,52 PFLOPS FP8 pro Chip und 144GB HBM3e ausgeliefert. Google TPU v7 Ironwood liefert 4.614 TFLOPS pro Chip—Analysten bezeichnen es als "auf Augenhöhe mit Blackwell". Intel bestätigt die Einstellung von Gaudi bei Markteinführung der nächsten GPU-Generation 2026-2027. Groq LPU erreicht 750 Token/Sek bei kleineren Modellen, während Cerebras WSE-3 125 PFLOPS Spitzenleistung erzielt. Alternatives Silizium gewinnt für spezifische Arbeitslasten an Bedeutung, trotz NVIDIA's 80%iger Marktdominanz.

NVIDIA hält etwa 80% des AI-Beschleuniger-Marktes, aber die wachsende Nachfrage nach kosteneffizienter und vertikal integrierter Infrastruktur führt langsam zu einer verstärkten Adoption alternativer Silizium-Lösungen.¹ Google veröffentlichte im November 2025 seine siebte TPU-Generation Ironwood, die Analysten als "wohl auf Augenhöhe mit NVIDIA Blackwell" beschreiben.² AWS setzte über 500.000 Trainium2-Chips für Anthropics Modelltraining ein—der größte nicht-NVIDIA AI-Cluster im Produktionsbetrieb.³ Cerebras lancierte den WSE-3 mit 4 Billionen Transistoren und 125 Petaflops Spitzenleistung.⁴ Die AI-Beschleuniger-Landschaft erstreckt sich weit über GPUs hinaus und bietet für spezifische Arbeitslasten optimierte Architekturen, die Unternehmen zunehmend evaluieren.

Die GPU bleibt die Standardwahl für Flexibilität und Ökosystem-Reife. CUDA's Dominanz und NVIDIA's kontinuierliche Innovation machen Wechselkosten erheblich. Dennoch schaffen Hyperscaler, die ihr eigenes Silizium entwickeln, Startups, die Annahmen über Chip-Architekturen herausfordern, und Intel's aggressive Preisgestaltung Optionen, die vor fünf Jahren nicht existierten. Organisationen, die AI in großem Maßstab betreiben, evaluieren nun Beschleuniger-Entscheidungen als strategische Infrastruktur-Entscheidungen anstatt als Commodity-Beschaffung.

Google TPU: der Hyperscaler-Benchmark

Google kündigte Trillium (TPU v6) im Mai 2024 an und stellte es 2025 allgemein zur Verfügung.⁵ Die sechste TPU-Generation erreicht 4,7-mal die Spitzen-Rechenleistung pro Chip im Vergleich zur TPU v5e.⁶ Google erweiterte die Matrix-Multiply-Unit-Größen und erhöhte Taktfrequenzen, um etwa 926 Teraflops BF16-Leistung zu erreichen.⁷

Speicherkapazität und Bandbreite verdoppelten sich gegenüber der vorherigen Generation.⁸ Trillium bietet 32 Gigabyte HBM-Kapazität pro Chip mit proportional erhöhter Bandbreite.⁹ Die Interchip-Interconnect-Bandbreite verdoppelte sich ebenfalls und verbesserte die Multi-Chip-Skalierungs-Effizienz.¹⁰

Energie-Effizienz verbesserte sich um über 67% im Vergleich zur TPU v5e.¹¹ Branchenanalysten schätzen, dass TPU v6 60-65% effizienter als GPUs arbeitet, verglichen mit 40-45% Effizienz-Vorteilen in vorherigen Generationen.¹² Die Effizienz-Gewinne potenzieren sich auf Rechenzentrumsebene, wo Leistungsbeschränkungen die Deployment-Dichte begrenzen.

Trillium skaliert auf 256 TPUs in einem einzigen hochbandbreitigen, niedriglatenten Pod.¹³ Über Pod-Level-Skalierbarkeit hinaus ermöglichen Multislice-Technologie und Titanium Intelligence Processing Units die Skalierung auf hunderte von Pods und verbinden zehntausende von Chips in gebäudeskalierten Supercomputern.¹⁴ Der größte Trillium-Cluster liefert 91 Exaflops—viermal mehr als der größte TPU v5p-Cluster.¹⁵

Training-Benchmarks demonstrieren die Leistungsverbesserungen. Trillium lieferte über viermal die Training-Leistungssteigerung für Gemma 2-27B, MaxText Default-32B und Llama2-70B im Vergleich zur TPU v5e.¹⁶ Inference-Durchsatz verbesserte sich dreifach für Stable Diffusion XL.¹⁷ Google nutzte Trillium zum Training von Gemini 2.0.¹⁸

Google stellte TPU v7 (Ironwood) auf der Cloud Next im April 2025 vor.¹⁹ Ironwood liefert 4.614 Teraflops pro Chip und wird in Konfigurationen von 256 und 9.216 Chips ausgeliefert.²⁰ Das SemiAnalysis-Team lobte das Silizium und erklärte, Google's Vormachtstellung unter den Hyperscalern sei unübertroffen.²¹

TPU-Zugang erfordert Google Cloud. Organisationen, die sich für Multi-Cloud oder On-Premises-Deployment entschieden haben, können TPU-Infrastruktur nicht direkt nutzen. Das Cloud-only-Modell begrenzt die Adoption für Organisationen mit Datenresidenz- oder Souveränitätsanforderungen, die Google Cloud-Regionen nicht erfüllen.

AWS Trainium: die Anthropic-Partnerschaft

AWS lancierte Trainium3 im Dezember 2025—das erste 3nm AI-Chip des Unternehmens.²² Jeder Trainium3-Chip bietet 2,52 Petaflops FP8-Rechenleistung mit 144 Gigabyte HBM3e-Speicher und 4,9 Terabyte pro Sekunde Speicherbandbreite.²³ Die Spezifikationen stellen 1,5-mal mehr Speicherkapazität und 1,7-mal mehr Bandbreite als Trainium2 dar.²⁴

Trn3 UltraServer skalieren auf 144 Trainium3-Chips und liefern 362 Petaflops gesamt FP8-Leistung.²⁵ Ein vollständig konfigurierter UltraServer bietet 20,7 Terabyte HBM3e und 706 Terabyte pro Sekunde aggregierte Speicherbandbreite.²⁶ AWS beansprucht 4,4-mal mehr Rechenleistung, 4-mal größere Energie-Effizienz und nahezu 4-mal mehr Speicherbandbreite als Trainium2-basierte Systeme.²⁷

Das NeuronSwitch-v1-Fabric verdoppelt die Interchip-Interconnect-Bandbreite gegenüber Trn2 UltraServer.²⁸ Die All-to-All-Fabric-Architektur ermöglicht effizientes verteiltes Training über das vollständige Chip-Komplement.

Project Rainier repräsentiert AWS's größtes AI-Infrastruktur-Deployment. AWS kollaborierte mit Anthropic, um mehr als 500.000 Trainium2-Chips zum weltgrößten AI-Compute-Cluster zu verbinden—fünfmal größer als die Infrastruktur für das Training von Anthropics vorheriger Modell-Generation.²⁹ Die Partnerschaft demonstriert Trainium-Durchführbarkeit für Frontier-Modell-Training.

Trainium2-basierte EC2 Trn2-Instanzen bieten laut AWS 30-40% bessere Preis-Leistung als GPU-basierte EC2 P5e- und P5en-Instanzen.³⁰ Der Kostenvorteil ist wichtig für nachhaltige Training-Arbeitslasten, wo Rechenkosten Budgets dominieren.

AWS stellte die Inferentia-Linie ein, da Inference-Arbeitslasten zunehmend Training in ihren Rechenanforderungen ähneln.³¹ Die Trainium-Architektur übernimmt nun sowohl Training als auch Inference und vereinfacht das Chip-Portfolio.

Trainium4 befindet sich in Entwicklung mit erwarteter Lieferung Ende 2026 oder Anfang 2027.³² AWS kündigte mindestens 6-mal FP4-Durchsatz, 3-mal FP8-Leistung und 4-mal mehr Speicherbandbreite im Vergleich zu Trainium3 an.³³ Trainium4 wird NVIDIA NVLink Fusion Interconnect-Technologie unterstützen und Integration mit NVIDIA GPUs in gemeinsamen Rack-Konfigurationen ermöglichen.³⁴

Intel Gaudi: der Preis-Konkurrent

Intel lancierte Gaudi 3 in 2024 und positionierte es als kosteneffektive Alternative zu NVIDIA H100.³⁵ Gaudi 3 nutzt zwei Chiplets mit 64 Tensor-Prozessor-Kernen, acht Matrix-Multiplikations-Engines und 96 Megabyte On-Die-SRAM-Cache mit 19,2 Terabyte pro Sekunde Bandbreite.³⁶ Der Chip integriert 128 Gigabyte HBM2e-Speicher mit 3,67 Terabyte pro Sekunde Bandbreite.³⁷

Gaudi 3 liefert 1.835 BF16/FP8-Matrix-Teraflops bei etwa 600 Watt TDP.³⁸ Im Vergleich zu NVIDIA H100 bietet Gaudi 3 höhere BF16-Matrix-Leistung (1.835 versus 1.979 Teraflops ohne Sparsity) und mehr HBM-Kapazität (128 versus 80 Gigabyte).³⁹ Speicherbandbreite übertrifft ebenfalls H100.⁴⁰

Intel beansprucht, dass Gaudi 3 typischerweise 40% schneller als NVIDIA H100 ist und H100 um bis zu 1,7-fach beim Training von Llama2-13B mit FP8-Präzision übertreffen könnte.⁴¹ Strom-Effizienz-Ansprüche sind dramatischer—bis zu 220% von H100's Wert bei Llama-Benchmarks und 230% bei Falcon.⁴²

Der Preisvorteil ist erheblich. Ein Acht-Beschleuniger Gaudi 3-System kostet 157.613$ im Vergleich zu 300.107$ für ein äquivalentes H100-System.⁴³ Pro-Chip-Preise laufen etwa 15.625$ für Gaudi 3 versus 30.678$ für H100.⁴⁴ Das Kostendifferential ermöglicht Organisationen, etwa doppelte Rechenkapazität für äquivalentes Budget einzusetzen.

Gaudi 3 nutzt HBM2e anstatt HBM3 oder HBM3e, was zu niedrigeren Kosten beiträgt, aber Speicherbandbreite im Vergleich zu aktuellen Alternativen begrenzt.⁴⁵ Organisationen mit speicherbandbreiten-begrenzten Arbeitslasten sollten diesen Kompromiss sorgfältig evaluieren.

Die Ökosystem-Herausforderung begrenzt Gaudi-Adoption. NVIDIA's CUDA dominiert AI-Entwicklung, und der Übergang zu Intel's Tools erfordert Engineering-Investitionen.⁴⁶ Intel's Marktanteil bei AI-Beschleunigern bleibt trotz konkurrenzfähiger Hardware vernachlässigbar.⁴⁷

Intel kündigte an, dass Gaudi eingestellt wird, wenn seine nächste AI-GPU-Generation 2026-2027 lanciert.⁴⁸ Die Einstellungsankündigung schafft Adoptionsrisiko für Organisationen, die mehrjährige Gaudi-Deployments erwägen. Partner könnten zögern, in eine Produktlinie mit angekündigtem End-of-Life zu investieren.

Groq LPU: Inference-Geschwindigkeits-Führerschaft

Groq's Language Processing Unit (LPU) verfolgt einen fundamental anderen architekturellen Ansatz und optimiert spezifisch für Inference anstatt Training.⁴⁹ Die Tensor Streaming Processor-Architektur erreicht 750 TOPS bei INT8 und 188 Teraflops bei FP16 mit massiver On-Chip-SRAM-Bandbreite von 80 Terabyte pro Sekunde.⁵⁰

Die erste LPU-Generation liefert über 1 Teraop pro Sekunde pro Quadratmillimeter auf einem 14nm-Chip mit 900 MHz.⁵¹ Die zweite LPU-Generation wird Samsung's 4nm-Prozess nutzen.⁵²

Inference-Geschwindigkeit definiert Groq's Wertversprechen. Die LPU bedient Mixtral 8x7B mit 480 Token pro Sekunde und Llama 2 70B mit 300 Token pro Sekunde.⁵³ Kleinere Modelle wie Llama 2 7B erreichen 750 Token pro Sekunde.⁵⁴ Groq war der erste API-Provider, der 100 Token pro Sekunde bei Llama2-70B durchbrach.⁵⁵

Die LPU liefert bis zu 18-mal schnellere Inference als traditionelle GPUs für Sprachmodelle mit deterministischer Sub-Millisekunden-Latenz.⁵⁶ Energie-Effizienz erreicht 1-3 Joule pro Token.⁵⁷

LPU-Karten kosten etwa 20.000$—vergleichbar mit High-End-NVIDIA GPUs—aber brillieren spezifisch in Inference-Geschwindigkeit und -Effizienz.⁵⁸ Der Kompromiss ist klar: LPUs handhaben nur Inference, nicht Training.⁵⁹

Groq's Deployment-Footprint expandierte 2025 erheblich. Das Unternehmen betreibt ein Dutzend Rechenzentren in den USA, Kanada, dem Nahen Osten und Europa.⁶⁰ Im September 2025 sammelte Groq 750 Millionen$ bei 6,9 Milliarden$ Bewertung.⁶¹

Die im Februar 2025 angekündigte Saudi-Arabien-Partnerschaft verpflichtet 1,5 Milliarden$ zum Bau dessen, was Groq als weltgrößtes AI-Inferencing-Rechenzentrum in Dammam beschreibt.⁶² Erste Deployments umfassen 19.000 LPUs mit Kapazitätserweiterungen auf über 100.000 LPUs bis 2027.⁶³

Cerebras WSE-3: Wafer-Scale-Integration

Cerebras verfolgt den radikalsten architekturellen Ansatz und baut Chips auf Wafer-Skala anstatt Wafer in individuelle Prozessoren zu zerteilen.⁶⁴ Der WSE-3 enthält 4 Billionen Transistoren über den gesamten Wafer—46.225 Quadratmillimeter Silizium.⁶⁵

Der WSE-3 packt 900.000 AI-optimierte Rechenkerne für 125 Petaflops Spitzen-AI-Leistung.⁶⁶ On-Chip-SRAM erreicht 44 Gigabyte mit 21 Petabyte pro Sekunde Speicherbandbreite.⁶⁷ Fabric-Bandbreite erreicht 214 Petabits pro Sekunde.⁶⁸ Der Chip wird in TSMC's 5nm-Prozess gefertigt.⁶⁹

Das CS-3-System verdoppelt die Leistung von CS-2 in derselben 15-Kilowatt-Leistungshülle.⁷⁰ Ein einzelnes CS-3 passt in 15U Rack-Space.⁷¹ Externe Speicheroptionen erweitern Kapazität auf 1,5 Terabyte, 12 Terabyte oder 1,2 Petabyte je nach Konfiguration.⁷²

Modell-Kapazität skaliert dramatisch. Das CS-3 kann neuronale Netzwerk-Modelle bis 24 Billionen Parameter trainieren.⁷³ Cluster skalieren auf 2.048 CS-3-Systeme für bis zu 256 Exaflops FP16-Rechenleistung.⁷⁴

Cerebras beansprucht erhebliche Benutzerfreundlichkeits-Vorteile. Die Plattform benötigt 97% weniger Code als GPUs für LLMs und trainiert Modelle von 1 Milliarde bis 24 Billionen Parameter in rein datenparallelem Modus.⁷⁵ Kompakte Vier-System-Konfigurationen können 70B-Modelle in einem Tag fine-tunen.⁷⁶ Bei voller 2.048-System-Skala trainiert Llama 70B von Grund auf in einem einzigen Tag.⁷⁷

Der Condor Galaxy 3-Supercomputer in Dallas wird 64 CS-3-Systeme für 8 Exaflops FP16-Rechenleistung einsetzen.⁷⁸ TIME Magazine anerkannte den WSE-3 als eine der besten Erfindungen 2024.⁷⁹

SambaNova SN40L: rekonfigurierbarer Dataflow

SambaNova's Reconfigurable Dataflow Unit (RDU)-Architektur unterscheidet sich sowohl von GPUs als auch Custom ASICs.⁸⁰ Der SN40L kombiniert On-Chip-Dataflow-Flexibilität mit einem dreistufigen Speichersystem: On-Chip-SRAM, On-Package-HBM und Off-Package-DRAM.⁸¹

Der SN40L nutzt TSMC's 5nm-Prozess in einem Dual-Die-CoWoS-Package.⁸² Jeder Socket enthält 102 Milliarden Transistoren für 640 BF16-Teraflops und 520 Megabyte On-Chip-SRAM.⁸³ Das DDR-Tier unterstützt bis zu 1,5 Terabyte Speicherkapazität bei über

AI-Beschleuniger jenseits von GPUs: die alternative Silizium-Landschaft

Google TPU: der Hyperscaler-Benchmark

AWS Trainium: die Anthropic-Partnerschaft

Intel Gaudi: der Preis-Konkurrent

Groq LPU: Inference-Geschwindigkeits-Führerschaft

Cerebras WSE-3: Wafer-Scale-Integration

SambaNova SN40L: rekonfigurierbarer Dataflow

You Might Also Like

AI Workload Scheduling: GPU-Auslastung über Zeitzonen hinweg...

AI-Infrastruktur-Sicherheitsoperationen: SOC-Anforderungen f...

Der $600B AI-Infrastruktur-Ausbau: Hyperscaler-CapEx, Schuld...

Angebot anfordern_

Anfrage erhalten_