KI-Beschleuniger jenseits von GPUs: die alternative Silizium-Landschaft
Aktualisiert am 11. Dezember 2025
Update Dezember 2025: AWS Trainium3 wird mit 2,52 PFLOPS FP8 pro Chip und 144GB HBM3e ausgeliefert. Google TPU v7 Ironwood liefert 4.614 TFLOPS pro Chip—Analysten bezeichnen es als „auf Augenhöhe mit Blackwell." Intel bestätigt die Einstellung von Gaudi, wenn die nächste GPU-Generation 2026-2027 startet. Groq LPU erreicht 750 Token/Sek bei kleineren Modellen, während Cerebras WSE-3 125 PFLOPS Spitzenleistung erzielt. Alternatives Silizium gewinnt bei spezifischen Workloads an Bedeutung, trotz NVIDIAs 80% Marktdominanz.
NVIDIA hält etwa 80% des KI-Beschleuniger-Marktes, doch die wachsende Nachfrage nach kosteneffizienter und vertikal integrierter Infrastruktur erhöht langsam die Akzeptanz alternativer Siliziumlösungen.¹ Google veröffentlichte im November 2025 seine siebte TPU-Generation Ironwood, die Analysten als „wohl auf Augenhöhe mit NVIDIA Blackwell" beschreiben.² AWS setzte über 500.000 Trainium2-Chips für Anthropics Modelltraining ein—das größte Nicht-NVIDIA-KI-Cluster in der Produktion.³ Cerebras brachte den WSE-3 mit 4 Billionen Transistoren und 125 Petaflops Spitzenleistung auf den Markt.⁴ Die KI-Beschleuniger-Landschaft erstreckt sich weit über GPUs hinaus und bietet Architekturen, die für spezifische Workloads optimiert sind und von Unternehmen zunehmend evaluiert werden.
Die GPU bleibt die Standardwahl für Flexibilität und Ökosystemreife. CUDAs Dominanz und NVIDIAs kontinuierliche Innovation machen Wechselkosten erheblich. Dennoch schaffen Hyperscaler, die ihr eigenes Silizium entwerfen, Startups, die Annahmen über Chip-Architekturen hinterfragen, und Intels aggressive Preisgestaltung Optionen, die vor fünf Jahren nicht existierten. Organisationen, die KI im großen Maßstab betreiben, bewerten Beschleuniger-Entscheidungen nun als strategische Infrastrukturentscheidungen statt als Standardbeschaffung.
Google TPU: der Hyperscaler-Maßstab
Google kündigte Trillium (TPU v6) im Mai 2024 an und machte es 2025 allgemein verfügbar.⁵ Die sechste TPU-Generation erreicht eine 4,7-fach höhere Spitzenrechenleistung pro Chip im Vergleich zu TPU v5e.⁶ Google erweiterte die Größe der Matrix-Multiplikationseinheiten und erhöhte die Taktfrequenzen, um etwa 926 Teraflops BF16-Leistung zu erreichen.⁷
Speicherkapazität und Bandbreite verdoppelten sich gegenüber der vorherigen Generation.⁸ Trillium bietet 32 Gigabyte HBM-Kapazität pro Chip mit proportional erhöhter Bandbreite.⁹ Die Interconnect-Bandbreite zwischen den Chips verdoppelte sich ebenfalls, was die Skalierungseffizienz bei mehreren Chips verbessert.¹⁰
Die Energieeffizienz verbesserte sich um über 67% im Vergleich zu TPU v5e.¹¹ Branchenanalysten schätzen, dass TPU v6 60-65% effizienter als GPUs arbeitet, verglichen mit 40-45% Effizienzvorteilen in früheren Generationen.¹² Die Effizienzgewinne summieren sich im Rechenzentrumsmaßstab, wo Strombeschränkungen die Bereitstellungsdichte begrenzen.
Trillium skaliert auf 256 TPUs in einem einzelnen Hochbandbreiten-Pod mit niedriger Latenz.¹³ Über die Pod-Level-Skalierbarkeit hinaus ermöglichen Multislice-Technologie und Titanium Intelligence Processing Units die Skalierung auf Hunderte von Pods, die Zehntausende von Chips in gebäudegroßen Supercomputern verbinden.¹⁴ Das größte Trillium-Cluster liefert 91 Exaflops—viermal mehr als das größte TPU v5p-Cluster.¹⁵
Trainings-Benchmarks demonstrieren die Leistungsverbesserungen. Trillium lieferte über vierfache Trainingsleistungssteigerung für Gemma 2-27B, MaxText Default-32B und Llama2-70B im Vergleich zu TPU v5e.¹⁶ Der Inferenz-Durchsatz verbesserte sich dreifach für Stable Diffusion XL.¹⁷ Google nutzte Trillium zum Training von Gemini 2.0.¹⁸
Google enthüllte TPU v7 (Ironwood) auf der Cloud Next im April 2025.¹⁹ Ironwood liefert 4.614 Teraflops pro Chip und wird in Konfigurationen von 256 Chips und 9.216 Chips ausgeliefert.²⁰ Das SemiAnalysis-Team lobte das Silizium und erklärte, Googles Überlegenheit unter den Hyperscalern sei unerreicht.²¹
TPU-Zugang erfordert Google Cloud. Organisationen, die sich Multi-Cloud oder On-Premises-Bereitstellung verschrieben haben, können die TPU-Infrastruktur nicht direkt nutzen. Das Cloud-only-Modell begrenzt die Akzeptanz für Organisationen mit Datenhaltungs- oder Souveränitätsanforderungen, die Google Cloud-Regionen nicht erfüllen.
AWS Trainium: die Anthropic-Partnerschaft
AWS brachte Trainium3 im Dezember 2025 auf den Markt—den ersten 3nm-KI-Chip des Unternehmens.²² Jeder Trainium3-Chip bietet 2,52 Petaflops FP8-Rechenleistung mit 144 Gigabyte HBM3e-Speicher und 4,9 Terabyte pro Sekunde Speicherbandbreite.²³ Die Spezifikationen repräsentieren 1,5-fach mehr Speicherkapazität und 1,7-fach mehr Bandbreite als Trainium2.²⁴
Trn3 UltraServer skalieren auf 144 Trainium3-Chips und liefern insgesamt 362 Petaflops FP8-Leistung.²⁵ Ein vollständig konfigurierter UltraServer bietet 20,7 Terabyte HBM3e und 706 Terabyte pro Sekunde aggregierte Speicherbandbreite.²⁶ AWS behauptet 4,4-fach mehr Rechenleistung, 4-fach höhere Energieeffizienz und fast 4-fach mehr Speicherbandbreite als Trainium2-basierte Systeme.²⁷
Das NeuronSwitch-v1-Fabric verdoppelt die Interconnect-Bandbreite zwischen Chips gegenüber Trn2 UltraServer.²⁸ Die All-to-All-Fabric-Architektur ermöglicht effizientes verteiltes Training über das gesamte Chip-Komplement.
Project Rainier repräsentiert AWS' größte KI-Infrastruktur-Bereitstellung. AWS arbeitete mit Anthropic zusammen, um mehr als 500.000 Trainium2-Chips zum weltweit größten KI-Rechen-Cluster zu verbinden—fünfmal größer als die Infrastruktur, die zum Training von Anthropics vorheriger Modellgeneration verwendet wurde.²⁹ Die Partnerschaft demonstriert Trainiums Eignung für das Training von Frontier-Modellen.
Trainium2-basierte EC2 Trn2-Instanzen bieten laut AWS 30-40% besseres Preis-Leistungs-Verhältnis als GPU-basierte EC2 P5e- und P5en-Instanzen.³⁰ Der Kostenvorteil ist wichtig für anhaltende Trainings-Workloads, bei denen Rechenkosten die Budgets dominieren.
AWS stellte die Inferentia-Linie ein, da Inferenz-Workloads in ihren Rechenanforderungen zunehmend dem Training ähneln.³¹ Die Trainium-Architektur übernimmt nun sowohl Training als auch Inferenz und vereinfacht das Chip-Portfolio.
Trainium4 ist in Entwicklung mit erwarteter Auslieferung Ende 2026 oder Anfang 2027.³² AWS kündigte mindestens 6-fachen FP4-Durchsatz, 3-fache FP8-Leistung und 4-fach mehr Speicherbandbreite im Vergleich zu Trainium3 an.³³ Trainium4 wird NVIDIAs NVLink Fusion-Interconnect-Technologie unterstützen und ermöglicht die Integration mit NVIDIA-GPUs in gemeinsamen Rack-Konfigurationen.³⁴
Intel Gaudi: der Preis-Konkurrent
Intel brachte Gaudi 3 im Jahr 2024 auf den Markt und positionierte es als kosteneffektive Alternative zu NVIDIA H100.³⁵ Gaudi 3 verwendet zwei Chiplets mit 64 Tensor-Prozessorkernen, acht Matrix-Multiplikations-Engines und 96 Megabyte On-Die-SRAM-Cache mit 19,2 Terabyte pro Sekunde Bandbreite.³⁶ Der Chip integriert 128 Gigabyte HBM2e-Speicher mit 3,67 Terabyte pro Sekunde Bandbreite.³⁷
Gaudi 3 liefert 1.835 BF16/FP8-Matrix-Teraflops bei etwa 600 Watt TDP.³⁸ Im Vergleich zu NVIDIA H100 bietet Gaudi 3 höhere BF16-Matrix-Leistung (1.835 gegenüber 1.979 Teraflops ohne Sparsity) und mehr HBM-Kapazität (128 gegenüber 80 Gigabyte).³⁹ Die Speicherbandbreite übertrifft ebenfalls H100.⁴⁰
Intel behauptet, Gaudi 3 sei typischerweise 40% schneller als NVIDIA H100 und könne H100 beim Training von Llama2-13B mit FP8-Präzision um bis zu 1,7-fach übertreffen.⁴¹ Die Energieeffizienz-Behauptungen sind dramatischer—bis zu 220% des H100-Wertes bei Llama-Benchmarks und 230% bei Falcon.⁴²
Der Preisvorteil ist erheblich. Ein Acht-Beschleuniger-Gaudi-3-System kostet 157.613 Dollar gegenüber 300.107 Dollar für ein gleichwertiges H100-System.⁴³ Der Pro-Chip-Preis liegt bei etwa 15.625 Dollar für Gaudi 3 gegenüber 30.678 Dollar für H100.⁴⁴ Die Kostendifferenz ermöglicht Organisationen, ungefähr die doppelte Rechenkapazität für das gleiche Budget bereitzustellen.
Gaudi 3 verwendet HBM2e statt HBM3 oder HBM3e, was zu den niedrigeren Kosten beiträgt, aber die Speicherbandbreite im Vergleich zu aktuellen Alternativen begrenzt.⁴⁵ Organisationen, die speicherbandbreiten-limitierte Workloads ausführen, sollten diesen Kompromiss sorgfältig bewerten.
Die Ökosystem-Herausforderung begrenzt die Gaudi-Akzeptanz. NVIDIAs CUDA dominiert die KI-Entwicklung, und der Übergang zu Intels Tools erfordert technische Investitionen.⁴⁶ Intels Marktanteil bei KI-Beschleunigern bleibt trotz der wettbewerbsfähigen Hardware vernachlässigbar.⁴⁷
Intel kündigte an, dass Gaudi eingestellt wird, wenn seine nächste Generation von KI-GPUs 2026-2027 startet.⁴⁸ Die Einstellungsankündigung schafft Akzeptanzrisiken für Organisationen, die mehrjährige Gaudi-Bereitstellungen in Betracht ziehen. Partner könnten zögern, in eine Produktlinie mit angekündigtem Lebensende zu investieren.
Groq LPU: Führung bei Inferenzgeschwindigkeit
Groqs Language Processing Unit (LPU) verfolgt einen grundlegend anderen architektonischen Ansatz und optimiert speziell für Inferenz statt Training.⁴⁹ Die Tensor Streaming Processor-Architektur erreicht 750 TOPS bei INT8 und 188 Teraflops bei FP16 mit massiver On-Chip-SRAM-Bandbreite von 80 Terabyte pro Sekunde.⁵⁰
Die erste LPU-Generation liefert über 1 Teraop pro Sekunde pro Quadratmillimeter auf einem 14nm-Chip bei 900 MHz.⁵¹ Die zweite LPU-Generation wird Samsungs 4nm-Prozess nutzen.⁵²
Inferenzgeschwindigkeit definiert Groqs Wertversprechen. Die LPU bedient Mixtral 8x7B mit 480 Token pro Sekunde und Llama 2 70B mit 300 Token pro Sekunde.⁵³ Kleinere Modelle wie Llama 2 7B erreichen 750 Token pro Sekunde.⁵⁴ Groq war der erste API-Anbieter, der 100 Token pro Sekunde bei Llama2-70B durchbrach.⁵⁵
Die LPU liefert bis zu 18-fach schnellere Inferenz als traditionelle GPUs für Sprachmodelle mit deterministischer Sub-Millisekunden-Latenz.⁵⁶ Die Energieeffizienz erreicht 1-3 Joule pro Token.⁵⁷
LPU-Karten kosten etwa 20.000 Dollar—vergleichbar mit High-End-NVIDIA-GPUs—zeichnen sich aber speziell bei Inferenzgeschwindigkeit und Effizienz aus.⁵⁸ Der Kompromiss ist klar: LPUs handhaben nur Inferenz, kein Training.⁵⁹
Groqs Bereitstellungsumfang erweiterte sich 2025 erheblich. Das Unternehmen betreibt ein Dutzend Rechenzentren in den USA, Kanada, dem Nahen Osten und Europa.⁶⁰ Im September 2025 sammelte Groq 750 Millionen Dollar bei einer Bewertung von 6,9 Milliarden Dollar ein.⁶¹
Die im Februar 2025 angekündigte Saudi-Arabien-Partnerschaft verpflichtet 1,5 Milliarden Dollar für den Bau dessen, was Groq als das weltweit größte KI-Inferenz-Rechenzentrum in Dammam beschreibt.⁶² Erste Bereitstellungen umfassen 19.000 LPUs mit geplanten Kapazitätserweiterungen auf über 100.000 LPUs bis 2027.⁶³
Cerebras WSE-3: Wafer-Scale-Integration
Cerebras verfolgt den radikalsten architektonischen Ansatz und baut Chips im Wafer-Maßstab, anstatt Wafer in einzelne Prozessoren zu zerteilen.⁶⁴ Der WSE-3 enthält 4 Billionen Transistoren über den gesamten Wafer—46.225 Quadratmillimeter Silizium.⁶⁵
Der WSE-3 packt 900.000 KI-optimierte Rechenkerne, die 125 Petaflops KI-Spitzenleistung liefern.⁶⁶ On-Chip-SRAM erreicht 44 Gigabyte mit 21 Petabyte pro Sekunde Speicherbandbreite.⁶⁷ Die Fabric-Bandbreite erreicht 214 Petabit pro Sekunde.⁶⁸ Der Chip wird im 5nm-Prozess von TSMC gefertigt.⁶⁹
Das CS-3-System verdoppelt die Leistung des CS-2 bei gleichem 15-Kilowatt-Leistungsbudget.⁷⁰ Ein einzelnes CS-3 passt in 15U Rack-Platz.⁷¹ Externe Speicheroptionen erweitern die Kapazität je nach Konfiguration auf 1,5 Terabyte, 12 Terabyte oder 1,2 Petabyte.⁷²
Die Modellkapazität skaliert dramatisch. Das CS-3 kann neuronale Netzwerkmodelle mit bis zu 24 Billionen Parametern trainieren.⁷³ Cluster skalieren auf 2.048 CS-3-Systeme und liefern bis zu 256 Exaflops FP16-Rechenleistung.⁷⁴
Cerebras behauptet erhebliche Benutzerfreundlichkeitsvorteile. Die Plattform erfordert 97% weniger Code als GPUs für LLMs und trainiert Modelle von 1 Milliarde bis 24 Billionen Parametern in rein datenparallelem Modus.⁷⁵ Kompakte Vier-System-Konfigurationen können 70B-Modelle an einem Tag feinabstimmen.⁷⁶ Bei voller 2.048-System-Skalierung trainiert Llama 70B von Grund auf an einem einzigen Tag.⁷⁷
Der Condor Galaxy 3-Supercomputer in Dallas wird 64 CS-3-Systeme für 8 Exaflops FP16-Rechenleistung einsetzen.⁷⁸ Das TIME Magazine erkannte den WSE-3 als eine der besten Erfindungen 2024 an.⁷⁹
SambaNova SN40L: rekonfigurierbarer Datenfluss
SambaNovas Reconfigurable Dataflow Unit (RDU)-Architektur unterscheidet sich sowohl von GPUs als auch von maßgeschneiderten ASICs.⁸⁰ Der SN40L kombiniert On-Chip-Datenfluss-Flexibilität mit einem dreistufigen Speichersystem: On-Chip-SRAM, On-Package-HBM und Off-Package-DRAM.⁸¹
Der SN40L verwendet TSMCs 5nm-Prozess in einem Dual-Die-CoWoS-Package.⁸² Jeder Sockel enthält 102 Milliarden Transistoren, die 640 BF16-Teraflops und 520 Megabyte On-Chip-SRAM liefern.⁸³ Die DDR-Stufe unterstützt bis zu 1,5 Terabyte Speicherkapazität bei über
[Inhalt für Übersetzung gekürzt]