Cerebras Wafer-Scale Engine: Wanneer Kiezen voor Alternatieve AI-Architectuur
Bijgewerkt 11 december 2025
December 2025 Update: CS-3 met WSE-3 levert Llama 4 Maverick op 2.500 tokens/sec per gebruiker—2x+ sneller dan DGX B200 Blackwell. WSE-3 bevat 4 biljoen transistors, 900.000 AI-cores, 44GB on-chip SRAM met 21 PB/s geheugenbandbreedte (7.000x H100). Wafer-scale architectuur elimineert GPU-cluster interconnect-knelpunten voor geheugenbandbreedte-gelimiteerde workloads.
Cerebras leverde Llama 4 Maverick-inferentie op 2.500 tokens per seconde per gebruiker—meer dan het dubbele van NVIDIA's vlaggenschip DGX B200 Blackwell-systeem met hetzelfde 400-miljard parameter model.¹ Het prestatieverschil weerspiegelt een fundamentele architecturale divergentie: Cerebras bouwt processors van hele siliciumwafers in plaats van wafers in honderden individuele chips te snijden. De aanpak elimineert de interconnect-knelpunten die GPU-clusters beperken, waarbij conventionele productie-economie wordt ingeruild voor ruwe prestaties op geheugenbandbreedte-gelimiteerde AI-workloads.
De CS-3, aangedreven door de WSE-3 (Wafer-Scale Engine 3), bevat 4 biljoen transistors verdeeld over 900.000 AI-geoptimaliseerde cores met 44GB on-chip SRAM die 21 petabytes per seconde aan geheugenbandbreedte levert.² Ter context: die geheugenbandbreedte overtreft die van de H100 met 7.000x. Organisaties die AI-infrastructuur evalueren staan voor een echte architecturale keuze: horizontaal schalen met GPU-clusters en hun inherente communicatie-overhead, of wafer-scale systemen inzetten die specifiek gebouwd zijn voor de geheugenbandbreedte-beperkingen die LLM-prestaties domineren.
De wafer-scale aanpak
Traditionele chipproductie
Standaard halfgeleiderproductie volgt een gevestigd patroon:³
- Fabricage: Verwerk siliciumwafer via honderden stappen
- Testen: Identificeer defecte gebieden
- Snijden: Snijd wafer in honderden individuele dies
- Verpakken: Monteer goede dies in pakketten met verbindingen
- Integratie: Verbind meerdere pakketten voor systemen
Deze aanpak levert chips van maximaal ongeveer 800 vierkante millimeter—een limiet opgelegd door lithografieapparatuur en opbrengst-economie. Grotere chips betekenen meer defecten per die, wat het aantal functionele eenheden per wafer vermindert.
Cerebras's innovatie
Cerebras keerde de productievergelijking om:⁴
Single-chip wafer: In plaats van wafers in kleine chips te snijden, gebruikt Cerebras bijna de hele 300mm wafer (46.225 mm²) als één processor—ongeveer 50x groter dan een conventionele GPU-die.
Defecttolerantie: Het opbrengstprobleem dat traditionele wafer-scale chips verhindert, werd opgelost door architecturale innovatie: - Individuele cores teruggebracht tot 0,05mm² (1% van H100 SM core-grootte) - Redundante cores vervangen defecte - On-chip fabric routeert rond fouten - 100x verbetering in defecttolerantie vergeleken met conventionele multi-core processors
Alles on-chip: Geheugen, rekenkracht en interconnect bevinden zich allemaal op hetzelfde silicium, waardoor de bandbreedtebeperkingen van extern geheugen en chip-naar-chip verbindingen worden geëlimineerd.
Architecturale voordelen
De wafer-scale aanpak levert specifieke voordelen:⁵
Geheugenbandbreedte: - WSE-3: 21 PB/s on-chip SRAM-bandbreedte - H100: 3 TB/s HBM-bandbreedte - Verhouding: 7.000x voordeel
Interconnect-bandbreedte: - WSE-3: 214 Pb/s on-wafer fabric - H100 NVLink: 57,6 GB/s per GPU - Verhouding: 3.715x voordeel
Geheugencapaciteit: - WSE-3: 44 GB on-chip SRAM (uitbreidbaar met externe MemoryX) - H100: 80 GB HBM3
Energiezuinigheid: - Single-device eenvoud elimineert multi-chip coördinatie-overhead - Geen externe geheugencontrollers, interconnect-switches of PCB-traces - Gerapporteerd energiezuinigheidsvoordeel ten opzichte van GPU-clusters voor equivalente workloads
WSE-3 en CS-3 specificaties
Core-architectuur
De WSE-3 vertegenwoordigt de derde generatie van Cerebras's wafer-scale technologie:⁶
Siliciumspecificaties: - Procesnode: TSMC 5nm - Die-oppervlak: 46.225 mm² (21,5 cm × 21,5 cm) - Transistoraantal: 4 biljoen - AI-cores: 900.000 - Piekprestatie: 125 PetaFLOPs (FP16)
Geheugensysteem: - On-chip SRAM: 44 GB - SRAM-bandbreedte: 21 PB/s - Externe geheugenuitbreiding: MemoryX (tot 1,5 PB per systeem) - Geheugenbandbreedte naar extern: Eigen high-bandwidth interconnect
Interconnect: - On-wafer fabric: 214 Pb/s geaggregeerde bandbreedte - Core-naar-core communicatie: Single-clock-cycle latency - Geen off-chip routing voor intra-wafer communicatie
CS-3 systeem
De CS-3 verpakt de WSE-3 in een inzetbaar systeem:⁷
Fysieke specificaties: - Vormfactor: 15U rack-unit - Stroomverbruik: ~23 kW - Koeling: Eigen waterkoelsysteem
Systeemcomponenten: - WSE-3 processor - MemoryX extern geheugen (optioneel) - SwarmX cluster-interconnect (voor multi-CS-3 implementaties) - Management- en I/O-systemen
Clusterschaling: - Maximaal cluster: 2.048 CS-3 systemen - Cluster-rekenkracht: Tot 256 ExaFLOPs (FP16) - Modelcapaciteit: Tot 24 biljoen parameters - Trainingscapabiliteit: Llama 2-70B trainbaar in één dag op bescheiden cluster
Generatievergelijking
| Specificatie | WSE-1 | WSE-2 | WSE-3 |
|---|---|---|---|
| Procesnode | 16nm | 7nm | 5nm |
| Transistors | 1,2T | 2,6T | 4T |
| AI-cores | 400.000 | 850.000 | 900.000 |
| On-chip geheugen | 18 GB | 40 GB | 44 GB |
| Geheugenbandbreedte | 9 PB/s | 20 PB/s | 21 PB/s |
| Piek FP16 | 47 PF | 75 PF | 125 PF |
Prestatiekenmerken
Inferentiesnelheid
Cerebras demonstreert substantiële inferentievoordelen:⁸
Llama 4 Maverick (400B parameters): - Cerebras: 2.500+ tokens/seconde/gebruiker - NVIDIA DGX B200: ~1.000 tokens/seconde/gebruiker - Voordeel: >2,5x
Llama 3.1 modellen: - Llama 3.1 8B: Wereldrecord inferentiesnelheid - Llama 3.1 70B: Meerdere malen sneller dan GPU-alternatieven - Llama 3.1 405B: Ondersteund op Cerebras cloud
Waarom inferentie excelleert: LLM-tokengeneratie bottleneckt op geheugenbandbreedte—elk token vereist het laden van modelgewichten van geheugen naar rekeneenheid. Cerebras's 21 PB/s on-chip bandbreedte elimineert de geheugenmuur die GPU-inferentie beperkt.
Trainingsprestaties
Trainingsvoordelen komen voort uit vereenvoudigde gedistribueerde computing:⁹
Codecomplexiteitsreductie: Het trainen van een 175-miljard parameter model op 4.000 GPU's vereist typisch ongeveer 20.000 regels gedistribueerde trainingscode. Cerebras bereikt equivalente training met 565 regels—het hele model past op de wafer zonder dataparallelisme-complexiteit.
Communicatie-eliminatie: GPU-trainingsprestaties degraderen naarmate de clustergrootte toeneemt door gradiëntsynchronisatie-overhead. Cerebras elimineert deze overhead voor modellen die on-chip passen, met behoud van lineaire schaling voor geschikte workloads.
Time-to-train benchmarks: - Llama 2-70B: Trainbaar in één dag op CS-3 cluster - Modellen tot 24 biljoen parameters: Ondersteund zonder softwaredistributietrucs
Wetenschappelijk rekenen
Naast LLM's demonstreert Cerebras voordelen in wetenschappelijke simulatie:¹⁰
Moleculaire dynamica: Cerebras behaalde lange-tijdschaal moleculaire dynamica-simulaties 179x sneller dan 's werelds #1 supercomputer (Frontier). De geheugentoegangspatronen van de workload sluiten goed aan bij wafer-scale architectuur.
Geneesmiddelenontdekking: Mayo Clinic implementeerde een kanker-geneesmiddelrespons voorspellingsmodel dat "vele honderden keren sneller" draait op Cerebras dan op conventionele GPU's.
Genomics: Mayo Genomic Foundation Model specifiek gebouwd op Cerebras-infrastructuur voor genomische analyse op schaal.
Cerebras vs. NVIDIA vergelijking
Waar Cerebras excelleert
Geheugenbandbreedte-gelimiteerde workloads:¹¹ - LLM-inferentie (vooral grote modellen) - Training van modellen die on-chip passen - Wetenschappelijke simulaties met streaming geheugentoegang - Real-time inferentie die consistente lage latency vereist
Vereenvoudigde implementatie: - Single-device training voor middelgrote modellen (geen gedistribueerde trainingscode) - Deterministische prestaties (geen multi-chip coördinatievariatie) - Verminderde infrastructuurcomplexiteit (geen InfiniBand-fabric voor kleine implementaties)
Kostenefficiëntie (geclaimd): - 21x snellere inferentie tegen 1/3 van de kosten van DGX B200 - $0,10/miljoen tokens (Llama 3.1 8B) - $0,60/miljoen tokens (Llama 3.1 70B)
Waar NVIDIA excelleert
Ecosysteembreedte:¹² - CUDA-programmeermodel domineert de industrie - Breedste ondersteuning voor software-frameworks - Grootste ontwikkelaarsgemeenschap - Meest uitgebreide modeloptimalisatiebibliotheken
Workloadflexibiliteit: - Training en inferentie op dezelfde hardware - Brede ondersteuning voor modelarchitecturen - Ontwikkeling van aangepaste operaties via CUDA - Gevestigde enterprise-implementatiepatronen
Volwassenheid van de toeleveringsketen: - Meerdere OEM-systeemintegratoren - Wereldwijde ondersteuningsinfrastructuur - Bewezen enterprise-inkooptrajecten - Secundaire markt voor gebruikte apparatuur
Fine-tuning en aanpassing: - LoRA, QLoRA, volledige fine-tuning goed ondersteund - Uitgebreid tooling-ecosysteem - Enterprise fine-tuning workflows gevestigd
Beslissingsmatrix
| Factor | Kies Cerebras | Kies NVIDIA |
|---|---|---|
| Primaire workload | Inferentie-intensief | Training-intensief |
| Modelgrootte | Groot (70B+) | Elke grootte |
| Latency-eis | Ultra-laag, consistent | Matig |
| Team-expertise | Beperkte ML-infrastructuur | Sterke CUDA/gedistribueerd |
| Aanpassingsbehoeften | Standaardmodellen | Aangepaste architecturen |
| Bestaande investeringen | Greenfield | GPU-infrastructuur bestaat |
| Risicotolerantie | Hoger (nieuwer ecosysteem) | Lager (bewezen) |
Implementatieopties
Cerebras Cloud
Beheerde inferentieservice voor directe toegang:¹³
Prijzen (december 2025): - Llama 3.1 8B: $0,10/miljoen tokens - Llama 3.1 70B: $0,60/miljoen tokens - Llama 3.1 405B: Beschikbaar - Llama 4 Scout/Maverick: Ondersteund
Functies: - OpenAI-compatibele API - Web playground voor testen - Enterprise-ondersteuningsniveaus - SOC 2-compliance
Use cases: - Productie-inferentie die snelheid vereist - Evaluatie vóór on-premises investering - Variabele workloads zonder kapitaalverplichting
On-premises implementatie
CS-3 systemen voor privé-infrastructuur:¹⁴
Overwegingen: - Aanzienlijke kapitaalinvestering - Eigen koeleisen - Gespecialiseerde installatie en ondersteuning - Beperkte secundaire markt (in tegenstelling tot GPU's)
Best voor: - Datasoevereiniteitsvereisten - Aanhoudend hoge bezetting - Aangepaste integratiebehoeften - Strategische differentiatie van cloud
Dedicated infrastructuur
Cerebras exploiteert dedicated datacenters:¹⁵
Locaties (2025): - Oklahoma City, VS (300+ CS-3 systemen) - Montreal, Canada (operationeel juli 2025) - Dallas, VS - Reno, VS - Ierland - Gelderland, Nederland
Capaciteit: - 40+ miljoen tokens per seconde geaggregeerde capaciteit - 20x capaciteitsuitbreiding in 2025 - Partnerschap met G42 voor extra faciliteiten
Dedicated tenant-opties: - Gegarandeerde capaciteitsallocatie - Aangepaste SLA-overeenkomsten - Enterprise-integratieondersteuning
Klantimplementaties
Enterprise-adoptie
Grote organisaties die Cerebras implementeren:¹⁶
Technologie: - Meta: Partnerschap dat Llama API aandrijft - Mistral: Le Chat AI-assistent - Perplexity: AI-zoekmachine - IBM: Enterprise AI-applicaties
Gezondheidszorg: - Mayo Clinic: Genomic Foundation Model - GlaxoSmithKline: Geneesmiddelenontdekking - Kanker-geneesmiddelrespons voorspellingsmodellen
Overheid: - US Department of Energy - US Department of Defense - DARPA MAPLE-programma ($45M contract voor multi-domain battlefield-simulatie)
Sovereign AI-initiatief
Cerebras for Nations-programma ondersteunt overheids-AI-infrastructuur:¹⁷
Huidige engagementen: - Verenigde Staten - Verenigd Koninkrijk - Verenigde Arabische Emiraten (G42-partnerschap)
Uitbreidingsdoelen: - India - Europa (meerdere landen) - Midden-Oosten - Azië-Pacific - Latijns-Amerika
Waardepropositie: - In-land AI-infrastructuur - Datasoevereiniteits-compliance - Nationale capaciteitsontwikkeling - Verminderde afhankelijkheid van buitenlandse cloud
Infrastructuuroverwegingen
Stroom en koeling
Cerebras-systemen vereisen gespecialiseerde infrastructuur:¹⁸
Stroomvereisten: - CS-3: ~23 kW per