Cerebras Wafer-Scale Engine: Quando Escolher Arquitetura de IA Alternativa
Atualizado em 11 de dezembro de 2025
Atualização de dezembro de 2025: CS-3 com WSE-3 entregando Llama 4 Maverick a 2.500 tokens/seg por usuário—2x+ mais rápido que DGX B200 Blackwell. WSE-3 contém 4 trilhões de transistores, 900.000 núcleos de IA, 44GB de SRAM on-chip com 21 PB/s de largura de banda de memória (7.000x H100). Arquitetura wafer-scale eliminando gargalos de interconexão de clusters de GPU para cargas de trabalho limitadas por largura de banda de memória.
A Cerebras entregou inferência do Llama 4 Maverick a 2.500 tokens por segundo por usuário—mais que o dobro do sistema flagship DGX B200 Blackwell da NVIDIA executando o mesmo modelo de 400 bilhões de parâmetros.¹ A diferença de desempenho reflete uma divergência arquitetônica fundamental: a Cerebras constrói processadores a partir de wafers de silício inteiros em vez de cortar wafers em centenas de chips individuais. A abordagem elimina os gargalos de interconexão que restringem clusters de GPU, trocando economia de fabricação convencional por desempenho bruto em cargas de trabalho de IA limitadas por largura de banda de memória.
O CS-3, alimentado pelo WSE-3 (Wafer-Scale Engine 3), contém 4 trilhões de transistores distribuídos em 900.000 núcleos otimizados para IA com 44GB de SRAM on-chip entregando 21 petabytes por segundo de largura de banda de memória.² Para contextualizar, essa largura de banda de memória excede a do H100 em 7.000x. Organizações avaliando infraestrutura de IA enfrentam uma escolha arquitetônica genuína: escalar horizontalmente com clusters de GPU e sua sobrecarga de comunicação inerente, ou implantar sistemas wafer-scale projetados especificamente para as restrições de largura de banda de memória que dominam o desempenho de LLMs.
A abordagem wafer-scale
Fabricação tradicional de chips
A fabricação padrão de semicondutores segue um padrão bem estabelecido:³
- Fabricação: Processar wafer de silício através de centenas de etapas
- Teste: Identificar áreas defeituosas
- Corte: Cortar wafer em centenas de dies individuais
- Encapsulamento: Montar dies funcionais em pacotes com conexões
- Integração: Conectar múltiplos pacotes para sistemas
Essa abordagem resulta em chips de aproximadamente 800 milímetros quadrados no máximo—um limite imposto pelo equipamento de litografia e economia de rendimento. Chips maiores significam mais defeitos por die, reduzindo o número de unidades funcionais de cada wafer.
A inovação da Cerebras
A Cerebras inverteu a equação de fabricação:⁴
Wafer de chip único: Em vez de cortar wafers em chips pequenos, a Cerebras usa quase todo o wafer de 300mm (46.225 mm²) como um único processador—aproximadamente 50x maior que um die de GPU convencional.
Tolerância a defeitos: O problema de rendimento que impede chips wafer-scale tradicionais foi resolvido através de inovação arquitetônica: - Núcleos individuais reduzidos para 0,05mm² (1% do tamanho do núcleo SM do H100) - Núcleos redundantes substituem os defeituosos - Malha on-chip roteia ao redor de falhas - Melhoria de 100x na tolerância a defeitos comparado a processadores multi-core convencionais
Tudo on-chip: Memória, computação e interconexão residem no mesmo silício, eliminando as limitações de largura de banda de memória externa e conexões chip-a-chip.
Vantagens arquitetônicas
A abordagem wafer-scale entrega benefícios específicos:⁵
Largura de banda de memória: - WSE-3: 21 PB/s de largura de banda SRAM on-chip - H100: 3 TB/s de largura de banda HBM - Proporção: vantagem de 7.000x
Largura de banda de interconexão: - WSE-3: 214 Pb/s de malha on-wafer - H100 NVLink: 57,6 GB/s por GPU - Proporção: vantagem de 3.715x
Capacidade de memória: - WSE-3: 44 GB de SRAM on-chip (expansível com MemoryX externo) - H100: 80 GB HBM3
Eficiência energética: - Simplicidade de dispositivo único elimina sobrecarga de coordenação multi-chip - Sem controladores de memória externos, switches de interconexão ou traços de PCB - Vantagem de eficiência energética reportada sobre clusters de GPU para cargas de trabalho equivalentes
Especificações WSE-3 e CS-3
Arquitetura do núcleo
O WSE-3 representa a terceira geração da tecnologia wafer-scale da Cerebras:⁶
Especificações do silício: - Nó de processo: TSMC 5nm - Área do die: 46.225 mm² (21,5 cm × 21,5 cm) - Contagem de transistores: 4 trilhões - Núcleos de IA: 900.000 - Desempenho de pico: 125 PetaFLOPs (FP16)
Sistema de memória: - SRAM on-chip: 44 GB - Largura de banda SRAM: 21 PB/s - Expansão de memória externa: MemoryX (até 1,5 PB por sistema) - Largura de banda de memória externa: Interconexão proprietária de alta largura de banda
Interconexão: - Malha on-wafer: 214 Pb/s de largura de banda agregada - Comunicação núcleo-a-núcleo: Latência de ciclo de clock único - Sem roteamento off-chip para comunicação intra-wafer
Sistema CS-3
O CS-3 empacota o WSE-3 em um sistema implantável:⁷
Especificações físicas: - Formato: Unidade de rack 15U - Consumo de energia: ~23 kW - Resfriamento: Sistema de resfriamento a água proprietário
Componentes do sistema: - Processador WSE-3 - Memória externa MemoryX (opcional) - Interconexão de cluster SwarmX (para implantações multi-CS-3) - Sistemas de gerenciamento e I/O
Escalabilidade de cluster: - Cluster máximo: 2.048 sistemas CS-3 - Computação do cluster: Até 256 ExaFLOPs (FP16) - Capacidade de modelo: Até 24 trilhões de parâmetros - Capacidade de treinamento: Llama 2-70B treinável em um dia em cluster modesto
Comparação entre gerações
| Especificação | WSE-1 | WSE-2 | WSE-3 |
|---|---|---|---|
| Nó de processo | 16nm | 7nm | 5nm |
| Transistores | 1,2T | 2,6T | 4T |
| Núcleos de IA | 400.000 | 850.000 | 900.000 |
| Memória on-chip | 18 GB | 40 GB | 44 GB |
| Largura de banda de memória | 9 PB/s | 20 PB/s | 21 PB/s |
| Pico FP16 | 47 PF | 75 PF | 125 PF |
Características de desempenho
Velocidade de inferência
A Cerebras demonstra vantagens substanciais em inferência:⁸
Llama 4 Maverick (400B parâmetros): - Cerebras: 2.500+ tokens/segundo/usuário - NVIDIA DGX B200: ~1.000 tokens/segundo/usuário - Vantagem: >2,5x
Modelos Llama 3.1: - Llama 3.1 8B: Velocidade de inferência recorde mundial - Llama 3.1 70B: Múltiplas vezes mais rápido que alternativas GPU - Llama 3.1 405B: Suportado na nuvem Cerebras
Por que a inferência se destaca: A geração de tokens de LLM tem gargalo na largura de banda de memória—cada token requer carregar pesos do modelo da memória para computação. A largura de banda on-chip de 21 PB/s da Cerebras elimina a barreira de memória que restringe a inferência em GPU.
Desempenho de treinamento
As vantagens de treinamento emergem da computação distribuída simplificada:⁹
Redução de complexidade de código: Treinar um modelo de 175 bilhões de parâmetros em 4.000 GPUs tipicamente requer aproximadamente 20.000 linhas de código de treinamento distribuído. A Cerebras realiza treinamento equivalente com 565 linhas—o modelo inteiro cabe no wafer sem complexidade de paralelismo de dados.
Eliminação de comunicação: O desempenho de treinamento em GPU degrada conforme o tamanho do cluster aumenta devido à sobrecarga de sincronização de gradientes. A Cerebras elimina essa sobrecarga para modelos que cabem on-chip, mantendo escalabilidade linear para cargas de trabalho apropriadas.
Benchmarks de tempo de treinamento: - Llama 2-70B: Treinável em um dia em cluster CS-3 - Modelos até 24 trilhões de parâmetros: Suportados sem truques de distribuição de software
Computação científica
Além de LLMs, a Cerebras demonstra vantagens em simulação científica:¹⁰
Dinâmica molecular: A Cerebras alcançou simulações de dinâmica molecular de longa escala temporal 179x mais rápido que o supercomputador #1 do mundo (Frontier). Os padrões de acesso à memória da carga de trabalho se alinham bem com a arquitetura wafer-scale.
Descoberta de medicamentos: A Mayo Clinic implantou um modelo de previsão de resposta a medicamentos contra câncer rodando "muitas centenas de vezes mais rápido" na Cerebras do que em GPUs convencionais.
Genômica: Mayo Genomic Foundation Model construído especificamente na infraestrutura Cerebras para análise genômica em escala.
Comparação Cerebras vs. NVIDIA
Onde a Cerebras se destaca
Cargas de trabalho limitadas por largura de banda de memória:¹¹ - Inferência de LLM (especialmente modelos grandes) - Treinamento de modelos que cabem on-chip - Simulações científicas com acesso de memória em streaming - Inferência em tempo real requerendo baixa latência consistente
Implantação simplificada: - Treinamento em dispositivo único para modelos moderados (sem código de treinamento distribuído) - Desempenho determinístico (sem variância de coordenação multi-chip) - Complexidade de infraestrutura reduzida (sem malha InfiniBand para implantações pequenas)
Eficiência de custo (declarada): - Inferência 21x mais rápida a 1/3 do custo do DGX B200 - $0,10/milhão de tokens (Llama 3.1 8B) - $0,60/milhão de tokens (Llama 3.1 70B)
Onde a NVIDIA se destaca
Amplitude do ecossistema:¹² - Modelo de programação CUDA domina a indústria - Suporte mais amplo a frameworks de software - Maior comunidade de desenvolvedores - Bibliotecas de otimização de modelos mais extensivas
Flexibilidade de carga de trabalho: - Treinamento e inferência no mesmo hardware - Amplo suporte a arquiteturas de modelos - Desenvolvimento de operações customizadas via CUDA - Padrões de implantação empresarial estabelecidos
Maturidade da cadeia de suprimentos: - Múltiplos integradores de sistemas OEM - Infraestrutura de suporte global - Caminhos de aquisição empresarial comprovados - Mercado secundário para equipamentos usados
Ajuste fino e customização: - LoRA, QLoRA, ajuste fino completo bem suportados - Ecossistema de ferramentas extensivo - Fluxos de trabalho de ajuste fino empresarial estabelecidos
Matriz de decisão
| Fator | Escolha Cerebras | Escolha NVIDIA |
|---|---|---|
| Carga de trabalho principal | Pesada em inferência | Pesada em treinamento |
| Tamanho do modelo | Grande (70B+) | Qualquer tamanho |
| Requisito de latência | Ultra-baixa, consistente | Moderada |
| Expertise da equipe | Infraestrutura ML limitada | CUDA/distribuído forte |
| Necessidades de customização | Modelos padrão | Arquiteturas customizadas |
| Investimento existente | Greenfield | Infraestrutura GPU existe |
| Tolerância a risco | Maior (ecossistema mais novo) | Menor (comprovado) |
Opções de implantação
Cerebras Cloud
Serviço de inferência gerenciado para acesso imediato:¹³
Preços (dezembro de 2025): - Llama 3.1 8B: $0,10/milhão de tokens - Llama 3.1 70B: $0,60/milhão de tokens - Llama 3.1 405B: Disponível - Llama 4 Scout/Maverick: Suportado
Recursos: - API compatível com OpenAI - Playground web para testes - Níveis de suporte empresarial - Conformidade SOC 2
Casos de uso: - Inferência de produção requerendo velocidade - Avaliação antes de investimento on-premises - Cargas de trabalho variáveis sem compromisso de capital
Implantação on-premises
Sistemas CS-3 para infraestrutura privada:¹⁴
Considerações: - Investimento de capital significativo - Requisitos de resfriamento proprietário - Instalação e suporte especializados - Mercado secundário limitado (diferente de GPUs)
Ideal para: - Requisitos de soberania de dados - Utilização alta sustentada - Necessidades de integração customizada - Diferenciação estratégica da nuvem
Infraestrutura dedicada
A Cerebras opera datacenters dedicados:¹⁵
Localizações (2025): - Oklahoma City, EUA (300+ sistemas CS-3) - Montreal, Canadá (operacional em julho de 2025) - Dallas, EUA - Reno, EUA - Irlanda - Gelderland, Países Baixos
Capacidade: - 40+ milhões de tokens por segundo de capacidade agregada - Expansão de capacidade de 20x em 2025 - Parceria com G42 para instalações adicionais
Opções de tenant dedicado: - Alocação de capacidade garantida - Acordos de SLA customizados - Suporte de integração empresarial
Implantações de clientes
Adoção empresarial
Principais organizações implantando Cerebras:¹⁶
Tecnologia: - Meta: Parceria alimentando API Llama - Mistral: Assistente de IA Le Chat - Perplexity: Motor de busca com IA - IBM: Aplicações de IA empresarial
Saúde: - Mayo Clinic: Genomic Foundation Model - GlaxoSmithKline: Descoberta de medicamentos - Modelos de previsão de resposta a medicamentos contra câncer
Governo: - Departamento de Energia dos EUA - Departamento de Defesa dos EUA - Programa DARPA MAPLE (contrato de $45M para simulação de campo de batalha multidomínio)
Iniciativa de IA Soberana
O programa Cerebras for Nations apoia infraestrutura de IA governamental:¹⁷
Engajamentos atuais: - Estados Unidos - Reino Unido - Emirados Árabes Unidos (parceria G42)
Alvos de expansão: - Índia - Europa (múltiplas nações) - Oriente Médio - Ásia-Pacífico - América Latina
Proposta de valor: - Infraestrutura de IA no país - Conformidade com soberania de dados - Desenvolvimento de capacidade nacional - Redução da dependência de nuvem estrangeira
Considerações de infraestrutura
Energia e resfriamento
Os sistemas Cerebras requerem infraestrutura especializada:¹⁸
Requisitos de energia: - CS-3: ~23 kW por