AI-versnellers naast GPU's: het alternatieve siliciumlandschap
Bijgewerkt 11 december 2025
Update december 2025: AWS Trainium3 wordt geleverd met 2,52 PFLOPS FP8 per chip en 144GB HBM3e. Google TPU v7 Ironwood levert 4.614 TFLOPS per chip—analisten noemen het "vergelijkbaar met Blackwell." Intel bevestigt stopzetting van Gaudi wanneer de volgende generatie GPU's in 2026-2027 uitkomen. Groq LPU behaalt 750 tokens/sec op kleinere modellen terwijl Cerebras WSE-3 125 PFLOPS piekprestatie bereikt. Alternatief silicium wint terrein voor specifieke werklasten ondanks NVIDIA's 80% marktdominantie.
NVIDIA bezit ongeveer 80% van de AI-versnellermarkt, maar groeiende vraag naar kostenefficiënte en verticaal geïntegreerde infrastructuur verhoogt langzaam de adoptie van alternatief silicium.¹ Google bracht zijn zevende generatie TPU Ironwood uit in november 2025, die analisten omschrijven als "aantoonbaar vergelijkbaar met NVIDIA Blackwell."² AWS implementeerde meer dan 500.000 Trainium2-chips voor Anthropic's modeltraining—het grootste niet-NVIDIA AI-cluster in productie.³ Cerebras lanceerde de WSE-3 met 4 biljoen transistors en 125 petaflops piekprestatie.⁴ Het AI-versnellerlandschap strekt zich ver uit voorbij GPU's, met architecturen geoptimaliseerd voor specifieke werklasten die bedrijven steeds vaker evalueren.
De GPU blijft de standaardkeuze voor flexibiliteit en ecosysteemrijpheid. CUDA's dominantie en NVIDIA's voortdurende innovatie maken overstapkosten aanzienlijk. Toch creëren hyperscalers die hun eigen silicium ontwerpen, startups die aannames over chiparchitectuur uitdagen, en Intel's agressieve prijsstelling opties die vijf jaar geleden niet bestonden. Organisaties die AI op schaal draaien evalueren versnellerkeuzes nu als strategische infrastructuurbeslissingen in plaats van commodityinkoop.
Google TPU: de hyperscaler-benchmark
Google kondigde Trillium (TPU v6) aan in mei 2024 en maakte het algemeen beschikbaar in 2025.⁵ De zesde generatie TPU behaalt 4,7 keer de piekrekenkracht per chip vergeleken met TPU v5e.⁶ Google breidde matrix multiply unit-afmetingen uit en verhoogde kloksnelheden om ongeveer 926 teraflops BF16-prestaties te bereiken.⁷
Geheugencapaciteit en bandbreedte verdubbelden ten opzichte van de vorige generatie.⁸ Trillium biedt 32 gigabyte HBM-capaciteit per chip met proportioneel verhoogde bandbreedte.⁹ De interchip-interconnectbandbreedte verdubbelde ook, waardoor multi-chip schaalefficiëntie verbeterde.¹⁰
Energie-efficiëntie verbeterde met meer dan 67% vergeleken met TPU v5e.¹¹ Branche-analisten schatten dat TPU v6 60-65% efficiënter werkt dan GPU's, vergeleken met 40-45% efficiëntievoordelen in eerdere generaties.¹² De efficiëntiewinsten stapelen zich op datacenter-schaal waar stroombeperkingen implementatiedichtheid beperken.
Trillium schaalt naar 256 TPU's in een enkele high-bandwidth, low-latency pod.¹³ Voorbij pod-niveau schaalbaarheid maken multislice-technologie en Titanium Intelligence Processing Units schaling naar honderden pods mogelijk, waarbij tienduizenden chips worden verbonden in gebouwschaal-supercomputers.¹⁴ Het grootste Trillium-cluster levert 91 exaflops—vier keer meer dan het grootste TPU v5p-cluster.¹⁵
Trainingsbenchmarks demonstreren de prestatieverbeteringen. Trillium leverde meer dan vier keer de trainingsprestatietoename voor Gemma 2-27B, MaxText Default-32B en Llama2-70B vergeleken met TPU v5e.¹⁶ Inference-doorvoer verbeterde drie keer voor Stable Diffusion XL.¹⁷ Google gebruikte Trillium om Gemini 2.0 te trainen.¹⁸
Google onthulde TPU v7 (Ironwood) op Cloud Next in april 2025.¹⁹ Ironwood levert 4.614 teraflops per chip en wordt geleverd in configuraties van 256 chips en 9.216 chips.²⁰ Het SemiAnalysis-team prees het silicium en stelde dat Google's suprematie onder hyperscalers ongeëvenaard is.²¹
TPU-toegang vereist Google Cloud. Organisaties die zich inzetten voor multi-cloud of on-premises implementatie kunnen TPU-infrastructuur niet direct gebruiken. Het cloud-only model beperkt adoptie voor organisaties met dataresidentie- of soevereiniteitsvereisten die Google Cloud-regio's niet kunnen vervullen.
AWS Trainium: het Anthropic-partnerschap
AWS lanceerde Trainium3 in december 2025—de eerste 3nm AI-chip van het bedrijf.²² Elke Trainium3-chip biedt 2,52 petaflops FP8-rekenkracht met 144 gigabyte HBM3e-geheugen en 4,9 terabyte per seconde geheugenbandbreedte.²³ De specificaties vertegenwoordigen 1,5 keer meer geheugencapaciteit en 1,7 keer meer bandbreedte dan Trainium2.²⁴
Trn3 UltraServers schalen naar 144 Trainium3-chips die 362 petaflops totale FP8-prestaties leveren.²⁵ Een volledig geconfigureerde UltraServer biedt 20,7 terabyte HBM3e en 706 terabyte per seconde geaggregeerde geheugenbandbreedte.²⁶ AWS claimt 4,4 keer meer rekenprestaties, 4 keer grotere energie-efficiëntie en bijna 4 keer meer geheugenbandbreedte dan op Trainium2 gebaseerde systemen.²⁷
De NeuronSwitch-v1 fabric verdubbelt interchip-interconnectbandbreedte ten opzichte van Trn2 UltraServer.²⁸ De all-to-all fabric-architectuur maakt efficiënte gedistribueerde training over het volledige chipcomplement mogelijk.
Project Rainier vertegenwoordigt AWS's grootste AI-infrastructuurimplementatie. AWS werkte samen met Anthropic om meer dan 500.000 Trainium2-chips te verbinden in 's werelds grootste AI-rekencluster—vijf keer groter dan de infrastructuur die werd gebruikt om Anthropic's vorige generatie modellen te trainen.²⁹ Het partnerschap demonstreert Trainium-levensvatbaarheid voor frontier-modeltraining.
Op Trainium2 gebaseerde EC2 Trn2-instances bieden 30-40% betere prijs-prestatieverhouding dan GPU-gebaseerde EC2 P5e- en P5en-instances volgens AWS.³⁰ Het kostenvoordeel is belangrijk voor langdurige trainingswerklasten waar rekenkosten budgetten domineren.
AWS stopte de Inferentia-lijn omdat inference-werklasten steeds meer lijken op training in hun computationele vereisten.³¹ De Trainium-architectuur handelt nu zowel training als inference af, wat het chipportfolio vereenvoudigt.
Trainium4 is in ontwikkeling met verwachte levering eind 2026 of begin 2027.³² AWS kondigde minstens 6 keer FP4-doorvoer, 3 keer FP8-prestaties en 4 keer meer geheugenbandbreedte aan vergeleken met Trainium3.³³ Trainium4 zal NVIDIA NVLink Fusion-interconnecttechnologie ondersteunen, wat integratie met NVIDIA GPU's in gemeenschappelijke rackconfiguraties mogelijk maakt.³⁴
Intel Gaudi: de prijsconcurrent
Intel lanceerde Gaudi 3 in 2024 en positioneerde het als een kosteneffectief alternatief voor NVIDIA H100.³⁵ Gaudi 3 gebruikt twee chiplets met 64 tensor processor cores, acht matrix multiplication engines en 96 megabyte on-die SRAM-cache met 19,2 terabyte per seconde bandbreedte.³⁶ De chip integreert 128 gigabyte HBM2e-geheugen met 3,67 terabyte per seconde bandbreedte.³⁷
Gaudi 3 levert 1.835 BF16/FP8 matrix teraflops bij ongeveer 600 watt TDP.³⁸ Vergeleken met NVIDIA H100 biedt Gaudi 3 hogere BF16 matrix-prestaties (1.835 versus 1.979 teraflops zonder sparsity) en meer HBM-capaciteit (128 versus 80 gigabyte).³⁹ Geheugenbandbreedte overtreft ook H100.⁴⁰
Intel claimt dat Gaudi 3 doorgaans 40% sneller is dan NVIDIA H100 en H100 tot 1,7 keer kan overtreffen bij het trainen van Llama2-13B op FP8-precisie.⁴¹ Energie-efficiëntieclaims zijn dramatischer—tot 220% van H100's waarde op Llama-benchmarks en 230% op Falcon.⁴²
Het prijsvoordeel is substantieel. Een acht-accelerator Gaudi 3-systeem kost $157.613 vergeleken met $300.107 voor een equivalent H100-systeem.⁴³ Per-chip prijzen liggen rond de $15.625 voor Gaudi 3 versus $30.678 voor H100.⁴⁴ Het kostenverschil stelt organisaties in staat om ruwweg twee keer de rekencapaciteit te implementeren voor een equivalent budget.
Gaudi 3 gebruikt HBM2e in plaats van HBM3 of HBM3e, wat bijdraagt aan de lagere kosten maar geheugenbandbreedte beperkt vergeleken met huidige generatie alternatieven.⁴⁵ Organisaties die geheugenbandbreedte-gebonden werklasten draaien moeten deze afweging zorgvuldig evalueren.
De ecosysteemuitdaging beperkt Gaudi-adoptie. NVIDIA's CUDA domineert AI-ontwikkeling, en overstappen naar Intel's tools vereist engineeringinvestering.⁴⁶ Intel's marktaandeel in AI-versnellers blijft verwaarloosbaar ondanks de competitieve hardware.⁴⁷
Intel kondigde aan dat Gaudi wordt stopgezet wanneer zijn volgende generatie AI-GPU's in 2026-2027 uitkomen.⁴⁸ De stopzettingsaankondiging creëert adoptierisico voor organisaties die meerjarige Gaudi-implementaties overwegen. Partners kunnen aarzelen om te investeren in een productlijn met aangekondigd einde van levensduur.
Groq LPU: leiderschap in inference-snelheid
Groq's Language Processing Unit (LPU) volgt een fundamenteel andere architecturale benadering, specifiek geoptimaliseerd voor inference in plaats van training.⁴⁹ De Tensor Streaming Processor-architectuur behaalt 750 TOPS bij INT8 en 188 teraflops bij FP16 met massieve on-chip SRAM-bandbreedte van 80 terabyte per seconde.⁵⁰
De eerste generatie LPU levert meer dan 1 teraop per seconde per vierkante millimeter op een 14nm-chip die op 900 MHz draait.⁵¹ De tweede generatie LPU zal Samsung's 4nm-proces gebruiken.⁵²
Inference-snelheid definieert Groq's waardepropositie. De LPU serveert Mixtral 8x7B op 480 tokens per seconde en Llama 2 70B op 300 tokens per seconde.⁵³ Kleinere modellen zoals Llama 2 7B bereiken 750 tokens per seconde.⁵⁴ Groq was de eerste API-provider die 100 tokens per seconde doorbrak op Llama2-70B.⁵⁵
De LPU levert tot 18 keer snellere inference dan traditionele GPU's voor taalmodellen met deterministische sub-milliseconde latentie.⁵⁶ Energie-efficiëntie bereikt 1-3 joule per token.⁵⁷
LPU-kaarten kosten ongeveer $20.000—vergelijkbaar met high-end NVIDIA GPU's—maar blinken specifiek uit in inference-snelheid en efficiëntie.⁵⁸ De afweging is duidelijk: LPU's verwerken alleen inference, geen training.⁵⁹
Groq's implementatievoetafdruk breidde significant uit in 2025. Het bedrijf exploiteert een dozijn datacenters in de VS, Canada, het Midden-Oosten en Europa.⁶⁰ In september 2025 haalde Groq $750 miljoen op bij een waardering van $6,9 miljard.⁶¹
Het Saoedi-Arabië-partnerschap aangekondigd in februari 2025 investeert $1,5 miljard om wat Groq omschrijft als 's werelds grootste AI-inferencing datacenter te bouwen in Dammam.⁶² Initiële implementaties bevatten 19.000 LPU's met capaciteitsuitbreidingen gepland tot meer dan 100.000 LPU's tegen 2027.⁶³
Cerebras WSE-3: wafer-schaal integratie
Cerebras volgt de meest radicale architecturale benadering door chips op wafer-schaal te bouwen in plaats van wafers in individuele processors te snijden.⁶⁴ De WSE-3 bevat 4 biljoen transistors over de gehele wafer—46.225 vierkante millimeter silicium.⁶⁵
De WSE-3 bevat 900.000 AI-geoptimaliseerde rekenkernen die 125 petaflops piek-AI-prestaties leveren.⁶⁶ On-chip SRAM bereikt 44 gigabyte met 21 petabyte per seconde geheugenbandbreedte.⁶⁷ Fabric-bandbreedte bereikt 214 petabit per seconde.⁶⁸ De chip wordt gefabriceerd op TSMC's 5nm-proces.⁶⁹
Het CS-3-systeem verdubbelt de prestaties van CS-2 in dezelfde 15-kilowatt vermogensomhulling.⁷⁰ Een enkele CS-3 past binnen 15U rackruimte.⁷¹ Externe geheugenopties breiden capaciteit uit naar 1,5 terabyte, 12 terabyte of 1,2 petabyte afhankelijk van configuratie.⁷²
Modelcapaciteit schaalt dramatisch. De CS-3 kan neurale netwerkmodellen tot 24 biljoen parameters trainen.⁷³ Clusters schalen naar 2.048 CS-3-systemen die tot 256 exaflops FP16-rekenkracht leveren.⁷⁴
Cerebras claimt significante gebruiksgemakvoordelen. Het platform vereist 97% minder code dan GPU's voor LLM's en traint modellen van 1 miljard tot 24 biljoen parameters in puur data-parallelle modus.⁷⁵ Compacte viersysteemconfiguraties kunnen 70B-modellen in een dag fine-tunen.⁷⁶ Op volledige 2.048-systeemschaal traint Llama 70B vanaf nul in een enkele dag.⁷⁷
De Condor Galaxy 3-supercomputer in Dallas zal 64 CS-3-systemen implementeren voor 8 exaflops FP16-rekenkracht.⁷⁸ TIME Magazine erkende de WSE-3 als een Beste Uitvinding van 2024.⁷⁹
SambaNova SN40L: herconfigureerbare dataflow
SambaNova's Reconfigurable Dataflow Unit (RDU)-architectuur verschilt van zowel GPU's als custom ASIC's.⁸⁰ De SN40L combineert on-chip dataflow-flexibiliteit met een drielaags geheugensysteem: on-chip SRAM, on-package HBM en off-package DRAM.⁸¹
De SN40L gebruikt TSMC's 5nm-proces in een dual-die CoWoS-pakket.⁸² Elke socket bevat 102 miljard transistors die 640 BF16 teraflops en 520 megabyte on-chip SRAM leveren.⁸³ De DDR-laag ondersteunt tot 1,5 terabyte geheugencapaciteit bij meer dan
[Inhoud afgekapt voor vertaling]