AI accelerators voorbij GPU's: het alternatieve silicium landschap
Bijgewerkt 11 december 2025
December 2025 Update: AWS Trainium3 levert met 2,52 PFLOPS FP8 per chip en 144GB HBM3e. Google TPU v7 Ironwood levert 4.614 TFLOPS per chip—analisten noemen het "op gelijke hoogte met Blackwell." Intel bevestigt Gaudi stopzetting wanneer next-gen GPU's in 2026-2027 lanceren. Groq LPU behaalt 750 tokens/sec op kleinere modellen terwijl Cerebras WSE-3 125 PFLOPS piek raakt. Alternatief silicium wint terrein voor specifieke workloads ondanks NVIDIA's 80% marktdominantie.
NVIDIA houdt ongeveer 80% van de AI accelerator markt vast, maar groeiende vraag naar kostenefficiënte en verticaal geïntegreerde infrastructuur verhoogt langzaam de adoptie van alternatief silicium.¹ Google bracht zijn zevende-generatie TPU Ironwood uit in november 2025, die analisten beschrijven als "aantoonbaar op gelijke hoogte met NVIDIA Blackwell."² AWS implementeerde meer dan 500.000 Trainium2 chips voor Anthropic's model training—de grootste niet-NVIDIA AI cluster in productie.³ Cerebras lanceerde de WSE-3 met 4 biljoen transistors en 125 petaflops piekprestaties.⁴ Het AI accelerator landschap strekt zich ver uit voorbij GPU's en biedt architecturen geoptimaliseerd voor specifieke workloads die bedrijven steeds meer evalueren.
De GPU blijft de standaardkeuze voor flexibiliteit en ecosysteem volwassenheid. CUDA's dominantie en NVIDIA's aanhoudende innovatie maken omschakelkosten substantieel. Toch creëren hyperscalers die hun eigen silicium ontwerpen, startups die aannames over chip architectuur uitdagen, en Intel's agressieve prijsstelling opties die vijf jaar geleden niet bestonden. Organisaties die AI op schaal draaien evalueren nu accelerator keuzes als strategische infrastructuur beslissingen in plaats van commodity inkoop.
Google TPU: de hyperscaler benchmark
Google kondigde Trillium (TPU v6) aan in mei 2024 en maakte het algemeen beschikbaar in 2025.⁵ De zesde-generatie TPU behaalt 4,7 keer de piek compute prestaties per chip vergeleken met TPU v5e.⁶ Google uitgebreide matrix multiply unit groottes en verhoogde kloksnelheden om ongeveer 926 teraflops BF16 prestaties te bereiken.⁷
Geheugen capaciteit en bandbreedte verdubbelden ten opzichte van de vorige generatie.⁸ Trillium biedt 32 gigabytes HBM capaciteit per chip met proportioneel verhoogde bandbreedte.⁹ De interchip interconnect bandbreedte verdubbelde ook, wat multi-chip schaling efficiëntie verbeterde.¹⁰
Energie-efficiëntie verbeterde met meer dan 67% vergeleken met TPU v5e.¹¹ Industrie analisten schatten dat TPU v6 60-65% efficiënter werkt dan GPU's, vergeleken met 40-45% efficiëntie voordelen in eerdere generaties.¹² De efficiëntie winsten stapelen op datacentrum schaal waar energie beperkingen implementatie dichtheid beperken.
Trillium schaalt naar 256 TPU's in een enkele high-bandwidth, low-latency pod.¹³ Voorbij pod-niveau schaalbaarheid, maken multislice technologie en Titanium Intelligence Processing Units schaling mogelijk naar honderden pods, die tienduizenden chips verbinden in gebouw-schaal supercomputers.¹⁴ De grootste Trillium cluster levert 91 exaflops—vier keer meer dan de grootste TPU v5p cluster.¹⁵
Training benchmarks demonstreren de prestatie verbeteringen. Trillium leverde meer dan vier keer de training prestatie verbetering voor Gemma 2-27B, MaxText Default-32B, en Llama2-70B vergeleken met TPU v5e.¹⁶ Inference doorvoer verbeterde drie keer voor Stable Diffusion XL.¹⁷ Google gebruikte Trillium om Gemini 2.0 te trainen.¹⁸
Google onthulde TPU v7 (Ironwood) op Cloud Next in april 2025.¹⁹ Ironwood levert 4.614 teraflops per chip en zal verschepen in configuraties van 256 chips en 9.216 chips.²⁰ Het SemiAnalysis team prees het silicium, stellend dat Google's suprematie onder hyperscalers ongeëvenaard is.²¹
TPU toegang vereist Google Cloud. Organisaties die toegewijd zijn aan multi-cloud of on-premises implementatie kunnen TPU infrastructuur niet direct gebruiken. Het cloud-only model beperkt adoptie voor organisaties met data residency of soevereiniteit vereisten die Google Cloud regio's niet bevredigen.
AWS Trainium: het Anthropic partnerschap
AWS lanceerde Trainium3 in december 2025—het bedrijf's eerste 3nm AI chip.²² Elke Trainium3 chip biedt 2,52 petaflops FP8 compute met 144 gigabytes HBM3e geheugen en 4,9 terabytes per seconde geheugen bandbreedte.²³ De specificaties vertegenwoordigen 1,5 keer meer geheugen capaciteit en 1,7 keer meer bandbreedte dan Trainium2.²⁴
Trn3 UltraServers schalen naar 144 Trainium3 chips die 362 petaflops totale FP8 prestaties leveren.²⁵ Een volledig geconfigureerde UltraServer biedt 20,7 terabytes HBM3e en 706 terabytes per seconde geaggregeerde geheugen bandbreedte.²⁶ AWS claimt 4,4 keer meer compute prestaties, 4 keer grotere energie-efficiëntie, en bijna 4 keer meer geheugen bandbreedte dan Trainium2-gebaseerde systemen.²⁷
Het NeuronSwitch-v1 fabric verdubbelt interchip interconnect bandbreedte ten opzichte van Trn2 UltraServer.²⁸ De all-to-all fabric architectuur maakt efficiënte gedistribueerde training mogelijk over het volledige chip complement.
Project Rainier vertegenwoordigt AWS's grootste AI infrastructuur implementatie. AWS werkte samen met Anthropic om meer dan 500.000 Trainium2 chips te verbinden tot 's werelds grootste AI compute cluster—vijf keer groter dan de infrastructuur gebruikt om Anthropic's vorige generatie modellen te trainen.²⁹ Het partnerschap toont Trainium levensvatbaarheid voor frontier model training.
Trainium2-gebaseerde EC2 Trn2 instances bieden 30-40% betere prijs prestaties dan GPU-gebaseerde EC2 P5e en P5en instances volgens AWS.³⁰ Het kosten voordeel telt voor aanhoudende training workloads waar compute kosten budgetten domineren.
AWS stopte de Inferentia lijn omdat inference workloads steeds meer op training lijken in hun computationele vereisten.³¹ De Trainium architectuur behandelt nu zowel training als inference, wat het chip portfolio vereenvoudigt.
Trainium4 is in ontwikkeling met verwachte levering eind 2026 of begin 2027.³² AWS kondigde minstens 6 keer FP4 doorvoer, 3 keer FP8 prestaties, en 4 keer meer geheugen bandbreedte aan vergeleken met Trainium3.³³ Trainium4 zal NVIDIA NVLink Fusion interconnect technologie ondersteunen, wat integratie met NVIDIA GPU's in gemeenschappelijke rack configuraties mogelijk maakt.³⁴
Intel Gaudi: de prijs concurrent
Intel lanceerde Gaudi 3 in 2024, positionerend het als kosteneffectief alternatief voor NVIDIA H100.³⁵ Gaudi 3 gebruikt twee chiplets met 64 tensor processor cores, acht matrix multiplicatie engines, en 96 megabytes on-die SRAM cache met 19,2 terabytes per seconde bandbreedte.³⁶ De chip integreert 128 gigabytes HBM2e geheugen met 3,67 terabytes per seconde bandbreedte.³⁷
Gaudi 3 levert 1.835 BF16/FP8 matrix teraflops bij ongeveer 600 watts TDP.³⁸ Vergeleken met NVIDIA H100, biedt Gaudi 3 hogere BF16 matrix prestaties (1.835 versus 1.979 teraflops zonder sparsity) en meer HBM capaciteit (128 versus 80 gigabytes).³⁹ Geheugen bandbreedte overtreft ook H100.⁴⁰
Intel claimt dat Gaudi 3 typisch 40% sneller is dan NVIDIA H100 en H100 kan overtreffen met tot 1,7 keer training Llama2-13B bij FP8 precisie.⁴¹ Energie-efficiëntie claims zijn dramatischer—tot 220% van H100's waarde op Llama benchmarks en 230% op Falcon.⁴²
Het prijsvoordeel is substantieel. Een acht-accelerator Gaudi 3 systeem kost $157.613 vergeleken met $300.107 voor een equivalent H100 systeem.⁴³ Per-chip prijsstelling loopt ongeveer $15.625 voor Gaudi 3 versus $30.678 voor H100.⁴⁴ Het kosten verschil stelt organisaties in staat om ruwweg twee keer de compute capaciteit te implementeren voor equivalent budget.
Gaudi 3 gebruikt HBM2e in plaats van HBM3 of HBM3e, wat bijdraagt aan de lagere kosten maar geheugen bandbreedte beperkt vergeleken met huidige-generatie alternatieven.⁴⁵ Organisaties die geheugen-bandbreedte-gebonden workloads draaien moeten deze afweging zorgvuldig evalueren.
De ecosysteem uitdaging beperkt Gaudi adoptie. NVIDIA's CUDA domineert AI ontwikkeling, en overstappen naar Intel's tools vereist engineering investering.⁴⁶ Intel's marktaandeel in AI accelerators blijft verwaarloosbaar ondanks de competitieve hardware.⁴⁷
Intel kondigde aan dat Gaudi wordt stopgezet wanneer zijn next-generatie AI GPU's lanceren in 2026-2027.⁴⁸ De stopzetting aankondiging creëert adoptie risico voor organisaties die meerjarige Gaudi implementaties overwegen. Partners kunnen aarzelen om te investeren in een productlijn met aangekondigde end-of-life.
Groq LPU: inference snelheid leiderschap
Groq's Language Processing Unit (LPU) hanteert een fundamenteel verschillende architecturale benadering, specifiek optimaliseren voor inference in plaats van training.⁴⁹ De Tensor Streaming Processor architectuur behaalt 750 TOPS bij INT8 en 188 teraflops bij FP16 met massieve on-chip SRAM bandbreedte van 80 terabytes per seconde.⁵⁰
De eerste-generatie LPU levert meer dan 1 teraop per seconde per vierkante millimeter op een 14nm chip die werkt op 900 MHz.⁵¹ De tweede-generatie LPU zal Samsung's 4nm proces gebruiken.⁵²
Inference snelheid definieert Groq's waarde propositie. De LPU serveert Mixtral 8x7B op 480 tokens per seconde en Llama 2 70B op 300 tokens per seconde.⁵³ Kleinere modellen zoals Llama 2 7B bereiken 750 tokens per seconde.⁵⁴ Groq was de eerste API provider die 100 tokens per seconde brak op Llama2-70B.⁵⁵
De LPU levert tot 18 keer snellere inference dan traditionele GPU's voor taalmodellen met deterministische sub-milliseconde latency.⁵⁶ Energie-efficiëntie bereikt 1-3 joules per token.⁵⁷
LPU kaarten kosten ongeveer $20.000—vergelijkbaar met high-end NVIDIA GPU's—maar blinken specifiek uit in inference snelheid en efficiëntie.⁵⁸ De afweging is duidelijk: LPU's behandelen alleen inference, niet training.⁵⁹
Groq's implementatie voetafdruk breidde significant uit in 2025. Het bedrijf exploiteert een dozijn datacenters over de VS, Canada, het Midden-Oosten, en Europa.⁶⁰ In september 2025 haalde Groq $750 miljoen op bij een $6,9 miljard waardering.⁶¹
Het Saudi-Arabië partnerschap aangekondigd in februari 2025 committeert $1,5 miljard om wat Groq beschrijft als 's werelds grootste AI inferencing datacenter in Dammam te bouwen.⁶² Initiële implementaties bevatten 19.000 LPU's met capaciteit uitbreidingen gepland om 100.000 LPU's tegen 2027 te overschrijden.⁶³
Cerebras WSE-3: wafer-schaal integratie
Cerebras hanteert de meest radicale architecturale benadering, chips bouwen op wafer schaal in plaats van wafers in individuele processors te snijden.⁶⁴ De WSE-3 bevat 4 biljoen transistors over de gehele wafer—46.225 vierkante millimeters silicium.⁶⁵
De WSE-3 pakt 900.000 AI-geoptimaliseerde compute cores die 125 petaflops piek AI prestaties leveren.⁶⁶ On-chip SRAM bereikt 44 gigabytes met 21 petabytes per seconde geheugen bandbreedte.⁶⁷ Fabric bandbreedte raakt 214 petabits per seconde.⁶⁸ De chip is gefabriceerd op TSMC's 5nm proces.⁶⁹
Het CS-3 systeem verdubbelt de prestaties van CS-2 in dezelfde 15-kilowatt energie envelop.⁷⁰ Een enkele CS-3 past binnen 15U rack ruimte.⁷¹ Externe geheugen opties breiden capaciteit uit naar 1,5 terabytes, 12 terabytes, of 1,2 petabytes afhankelijk van configuratie.⁷²
Model capaciteit schaalt dramatisch. De CS-3 kan neurale netwerk modellen tot 24 biljoen parameters trainen.⁷³ Clusters schalen naar 2.048 CS-3 systemen die tot 256 exaflops FP16 compute leveren.⁷⁴
Cerebras claimt significante gebruiksgemak voordelen. Het platform vereist 97% minder code dan GPU's voor LLM's en traint modellen van 1 miljard tot 24 biljoen parameters in puur data parallelle modus.⁷⁵ Compacte vier-systeem configuraties kunnen 70B modellen in een dag fine-tunen.⁷⁶ Op volle 2.048-systeem schaal, traint Llama 70B van scratch in een enkele dag.⁷⁷
De Condor Galaxy 3 supercomputer in Dallas zal 64 CS-3 systemen implementeren voor 8 exaflops FP16 compute.⁷⁸ TIME Magazine erkende de WSE-3 als een Best Invention van 2024.⁷⁹
SambaNova SN40L: herconfigureerbare dataflow
SambaNova's Reconfigurable Dataflow Unit (RDU) architectuur verschilt van zowel GPU's als custom ASIC's.⁸⁰ De SN40L combineert on-chip dataflow flexibiliteit met een drie-tier geheugen systeem: on-chip SRAM, on-package HBM, en off-package DRAM.⁸¹
De SN40L gebruikt TSMC's 5nm proces in een dual-die CoWoS package.⁸² Elke socket bevat 102 miljard transistors die 640 BF16 teraflops leveren en 520 megabytes on-chip SRAM.⁸³ De DDR tier ondersteunt tot 1,5 terabytes geheugen capaciteit bij meer dan