Aceleradores de AI más allá de las GPU: el panorama del silicio alternativo
Actualizado el 11 de diciembre de 2025
Actualización de diciembre 2025: AWS Trainium3 ya se envía con 2.52 PFLOPS FP8 por chip y 144GB HBM3e. Google TPU v7 Ironwood ofrece 4,614 TFLOPS por chip—los analistas lo califican como "a la par con Blackwell". Intel confirma la discontinuación de Gaudi cuando lancen las GPU de próxima generación en 2026-2027. Groq LPU logra 750 tokens/seg en modelos más pequeños mientras que Cerebras WSE-3 alcanza 125 PFLOPS pico. El silicio alternativo gana tracción para cargas de trabajo específicas a pesar del 80% de dominio de mercado de NVIDIA.
NVIDIA posee aproximadamente el 80% del mercado de aceleradores de AI, pero la creciente demanda de infraestructura rentable e integrada verticalmente está aumentando lentamente la adopción de silicio alternativo.¹ Google lanzó su TPU Ironwood de séptima generación en noviembre de 2025, que los analistas describen como "posiblemente a la par con NVIDIA Blackwell".² AWS desplegó más de 500,000 chips Trainium2 para el entrenamiento de modelos de Anthropic—el clúster de AI no-NVIDIA más grande en producción.³ Cerebras lanzó el WSE-3 con 4 billones de transistores y 125 petaflops de rendimiento pico.⁴ El panorama de aceleradores de AI se extiende mucho más allá de las GPU, ofreciendo arquitecturas optimizadas para cargas de trabajo específicas que las empresas evalúan cada vez más.
La GPU sigue siendo la opción predeterminada por flexibilidad y madurez del ecosistema. El dominio de CUDA y la innovación sostenida de NVIDIA hacen que los costos de cambio sean sustanciales. Sin embargo, los hiperescaladores diseñando su propio silicio, startups desafiando suposiciones sobre arquitectura de chips, y los precios agresivos de Intel crean opciones que no existían hace cinco años. Las organizaciones que ejecutan AI a escala ahora evalúan las opciones de aceleradores como decisiones estratégicas de infraestructura en lugar de adquisición de commodities.
Google TPU: el benchmark de hiperescalador
Google anunció Trillium (TPU v6) en mayo de 2024 y lo hizo disponible generalmente en 2025.⁵ El TPU de sexta generación logra 4.7 veces el rendimiento de cómputo pico por chip comparado con TPU v5e.⁶ Google expandió los tamaños de unidades de multiplicación de matrices e incrementó las velocidades de reloj para alcanzar aproximadamente 926 teraflops de rendimiento BF16.⁷
La capacidad y ancho de banda de memoria se duplicó sobre la generación anterior.⁸ Trillium proporciona 32 gigabytes de capacidad HBM por chip con ancho de banda proporcionalmente incrementado.⁹ El ancho de banda de interconexión entre chips también se duplicó, mejorando la eficiencia de escalado multi-chip.¹⁰
La eficiencia energética mejoró más del 67% comparado con TPU v5e.¹¹ Los analistas de la industria estiman que TPU v6 opera 60-65% más eficientemente que las GPU, comparado con ventajas de eficiencia del 40-45% en generaciones anteriores.¹² Las ganancias de eficiencia se componen a escala de centro de datos donde las restricciones de energía limitan la densidad de despliegue.
Trillium escala a 256 TPUs en un solo pod de alto ancho de banda y baja latencia.¹³ Más allá de la escalabilidad a nivel de pod, la tecnología multislice y las Titanium Intelligence Processing Units permiten escalar a cientos de pods, conectando decenas de miles de chips en supercomputadoras a escala de edificio.¹⁴ El clúster Trillium más grande ofrece 91 exaflops—cuatro veces más que el clúster TPU v5p más grande.¹⁵
Los benchmarks de entrenamiento demuestran las mejoras de rendimiento. Trillium entregó más de cuatro veces el aumento de rendimiento de entrenamiento para Gemma 2-27B, MaxText Default-32B, y Llama2-70B comparado con TPU v5e.¹⁶ El throughput de inferencia mejoró tres veces para Stable Diffusion XL.¹⁷ Google usó Trillium para entrenar Gemini 2.0.¹⁸
Google desveló TPU v7 (Ironwood) en Cloud Next en abril de 2025.¹⁹ Ironwood entrega 4,614 teraflops por chip y se enviará en configuraciones de 256 chips y 9,216 chips.²⁰ El equipo de SemiAnalysis elogió el silicio, declarando que la supremacía de Google entre hiperescaladores es inigualable.²¹
El acceso a TPU requiere Google Cloud. Las organizaciones comprometidas con despliegue multi-nube o en premises no pueden usar directamente la infraestructura TPU. El modelo solo en nube limita la adopción para organizaciones con requisitos de residencia o soberanía de datos que las regiones de Google Cloud no satisfacen.
AWS Trainium: la asociación con Anthropic
AWS lanzó Trainium3 en diciembre de 2025—el primer chip de AI de 3nm de la compañía.²² Cada chip Trainium3 proporciona 2.52 petaflops de cómputo FP8 con 144 gigabytes de memoria HBM3e y 4.9 terabytes por segundo de ancho de banda de memoria.²³ Las especificaciones representan 1.5 veces más capacidad de memoria y 1.7 veces más ancho de banda que Trainium2.²⁴
Los Trn3 UltraServers escalan hasta 144 chips Trainium3 entregando 362 petaflops de rendimiento FP8 total.²⁵ Un UltraServer completamente configurado proporciona 20.7 terabytes de HBM3e y 706 terabytes por segundo de ancho de banda de memoria agregado.²⁶ AWS afirma 4.4 veces más rendimiento de cómputo, 4 veces mayor eficiencia energética, y casi 4 veces más ancho de banda de memoria que los sistemas basados en Trainium2.²⁷
El fabric NeuronSwitch-v1 duplica el ancho de banda de interconexión entre chips sobre Trn2 UltraServer.²⁸ La arquitectura de fabric all-to-all permite entrenamiento distribuido eficiente a través del complemento completo de chips.
Project Rainier representa el despliegue de infraestructura de AI más grande de AWS. AWS colaboró con Anthropic para conectar más de 500,000 chips Trainium2 en el clúster de cómputo de AI más grande del mundo—cinco veces más grande que la infraestructura usada para entrenar la generación anterior de modelos de Anthropic.²⁹ La asociación demuestra la viabilidad de Trainium para entrenamiento de modelos de frontera.
Las instancias EC2 Trn2 basadas en Trainium2 ofrecen 30-40% mejor relación precio-rendimiento que las instancias EC2 P5e y P5en basadas en GPU según AWS.³⁰ La ventaja de costo importa para cargas de trabajo de entrenamiento sostenido donde los costos de cómputo dominan los presupuestos.
AWS discontinuó la línea Inferentia porque las cargas de trabajo de inferencia se parecen cada vez más al entrenamiento en sus requisitos computacionales.³¹ La arquitectura Trainium ahora maneja tanto entrenamiento como inferencia, simplificando el portafolio de chips.
Trainium4 está en desarrollo con entrega esperada a finales de 2026 o principios de 2027.³² AWS anunció al menos 6 veces throughput FP4, 3 veces rendimiento FP8, y 4 veces más ancho de banda de memoria comparado con Trainium3.³³ Trainium4 soportará la tecnología de interconexión NVIDIA NVLink Fusion, permitiendo integración con GPU NVIDIA en configuraciones comunes de rack.³⁴
Intel Gaudi: el competidor de precio
Intel lanzó Gaudi 3 en 2024, posicionándolo como una alternativa rentable a NVIDIA H100.³⁵ Gaudi 3 usa dos chiplets con 64 núcleos de procesador tensor, ocho motores de multiplicación de matrices, y 96 megabytes de caché SRAM en chip con 19.2 terabytes por segundo de ancho de banda.³⁶ El chip integra 128 gigabytes de memoria HBM2e con 3.67 terabytes por segundo de ancho de banda.³⁷
Gaudi 3 entrega 1,835 teraflops de matriz BF16/FP8 a aproximadamente 600 watts TDP.³⁸ Comparado con NVIDIA H100, Gaudi 3 ofrece mayor rendimiento de matriz BF16 (1,835 versus 1,979 teraflops sin sparsity) y más capacidad HBM (128 versus 80 gigabytes).³⁹ El ancho de banda de memoria también excede H100.⁴⁰
Intel afirma que Gaudi 3 es típicamente 40% más rápido que NVIDIA H100 y podría superar H100 hasta 1.7 veces entrenando Llama2-13B en precisión FP8.⁴¹ Las afirmaciones de eficiencia energética son más dramáticas—hasta 220% del valor de H100 en benchmarks Llama y 230% en Falcon.⁴²
La ventaja de precio es sustancial. Un sistema Gaudi 3 de ocho aceleradores cuesta $157,613 comparado con $300,107 para un sistema H100 equivalente.⁴³ El precio por chip es aproximadamente $15,625 para Gaudi 3 versus $30,678 para H100.⁴⁴ La diferencia de costo permite a las organizaciones desplegar aproximadamente el doble de capacidad de cómputo por presupuesto equivalente.
Gaudi 3 usa HBM2e en lugar de HBM3 o HBM3e, contribuyendo al menor costo pero limitando el ancho de banda de memoria comparado con alternativas de generación actual.⁴⁵ Las organizaciones que ejecutan cargas de trabajo limitadas por ancho de banda de memoria deberían evaluar este compromiso cuidadosamente.
El desafío del ecosistema limita la adopción de Gaudi. CUDA de NVIDIA domina el desarrollo de AI, y la transición a las herramientas de Intel requiere inversión en ingeniería.⁴⁶ La cuota de mercado de Intel en aceleradores de AI permanece insignificante a pesar del hardware competitivo.⁴⁷
Intel anunció que Gaudi será discontinuado cuando sus GPU de AI de próxima generación se lancen en 2026-2027.⁴⁸ El anuncio de discontinuación crea riesgo de adopción para organizaciones considerando despliegues Gaudi multi-año. Los socios pueden dudar en invertir en una línea de productos con fin de vida anunciado.
Groq LPU: liderazgo en velocidad de inferencia
La Language Processing Unit (LPU) de Groq toma un enfoque arquitectónico fundamentalmente diferente, optimizando específicamente para inferencia en lugar de entrenamiento.⁴⁹ La arquitectura Tensor Streaming Processor logra 750 TOPS en INT8 y 188 teraflops en FP16 con ancho de banda masivo de SRAM en chip de 80 terabytes por segundo.⁵⁰
La LPU de primera generación entrega más de 1 teraop por segundo por milímetro cuadrado en un chip de 14nm operando a 900 MHz.⁵¹ La LPU de segunda generación usará el proceso de 4nm de Samsung.⁵²
La velocidad de inferencia define la propuesta de valor de Groq. La LPU sirve Mixtral 8x7B a 480 tokens por segundo y Llama 2 70B a 300 tokens por segundo.⁵³ Modelos más pequeños como Llama 2 7B logran 750 tokens por segundo.⁵⁴ Groq fue el primer proveedor de API en romper 100 tokens por segundo en Llama2-70B.⁵⁵
La LPU entrega hasta 18 veces inferencia más rápida que las GPU tradicionales para modelos de lenguaje con latencia determinística sub-milisegundo.⁵⁶ La eficiencia energética alcanza 1-3 julios por token.⁵⁷
Las tarjetas LPU cuestan aproximadamente $20,000—comparable a las GPU NVIDIA de gama alta—pero sobresalen específicamente en velocidad y eficiencia de inferencia.⁵⁸ El compromiso es claro: las LPU manejan solo inferencia, no entrenamiento.⁵⁹
La huella de despliegue de Groq se expandió significativamente en 2025. La compañía opera una docena de centros de datos a través de Estados Unidos, Canadá, Medio Oriente y Europa.⁶⁰ En septiembre de 2025, Groq recaudó $750 millones a una valoración de $6.9 mil millones.⁶¹
La asociación con Arabia Saudí anunciada en febrero de 2025 compromete $1.5 mil millones para construir lo que Groq describe como el centro de datos de inferencia de AI más grande del mundo en Dammam.⁶² Los despliegues iniciales incluyen 19,000 LPUs con expansiones de capacidad planeadas para exceder 100,000 LPUs para 2027.⁶³
Cerebras WSE-3: integración a escala de wafer
Cerebras toma el enfoque arquitectónico más radical, construyendo chips a escala de wafer en lugar de dividir wafers en procesadores individuales.⁶⁴ El WSE-3 contiene 4 billones de transistores a través de todo el wafer—46,225 milímetros cuadrados de silicio.⁶⁵
El WSE-3 empaqueta 900,000 núcleos de cómputo optimizados para AI entregando 125 petaflops de rendimiento de AI pico.⁶⁶ La SRAM en chip alcanza 44 gigabytes con 21 petabytes por segundo de ancho de banda de memoria.⁶⁷ El ancho de banda de fabric alcanza 214 petabits por segundo.⁶⁸ El chip se fabrica en el proceso de 5nm de TSMC.⁶⁹
El sistema CS-3 duplica el rendimiento de CS-2 en el mismo envelope de potencia de 15 kilovatios.⁷⁰ Un solo CS-3 cabe dentro de 15U de espacio de rack.⁷¹ Las opciones de memoria externa extienden la capacidad a 1.5 terabytes, 12 terabytes, o 1.2 petabytes dependiendo de la configuración.⁷²
La capacidad del modelo escala dramáticamente. El CS-3 puede entrenar modelos de redes neuronales de hasta 24 billones de parámetros.⁷³ Los clústeres escalan a 2,048 sistemas CS-3 entregando hasta 256 exaflops de cómputo FP16.⁷⁴
Cerebras afirma ventajas significativas de facilidad de uso. La plataforma requiere 97% menos código que las GPU para LLMs y entrena modelos de 1 mil millones a 24 billones de parámetros en modo puramente paralelo de datos.⁷⁵ Las configuraciones compactas de cuatro sistemas pueden hacer fine-tuning de modelos 70B en un día.⁷⁶ A escala completa de 2,048 sistemas, Llama 70B se entrena desde cero en un solo día.⁷⁷
La supercomputadora Condor Galaxy 3 en Dallas desplegará 64 sistemas CS-3 para 8 exaflops de cómputo FP16.⁷⁸ TIME Magazine reconoció el WSE-3 como uno de los Mejores Inventos de 2024.⁷⁹
SambaNova SN40L: flujo de datos reconfigurable
La arquitectura Reconfigurable Dataflow Unit (RDU) de SambaNova difiere tanto de las GPU como de los ASIC personalizados.⁸⁰ El SN40L combina flexibilidad de flujo de datos en chip con un sistema de memoria de tres niveles: SRAM en chip, HBM en paquete, y DRAM fuera del paquete.⁸¹
El SN40L usa el proceso de 5nm de TSMC en un paquete CoWoS de doble chip.⁸² Cada socket contiene 102 mil millones de transistores entregando 640 teraflops BF16 y 520 megabytes de SRAM en chip.⁸³ El nivel DDR soporta hasta 1.5 terabytes de capacidad de memoria a más de