Aceleradores de IA más allá de las GPUs: TPU, Trainium, Gaudi, Groq, Cerebras 2025

La TPU v7 de Google rivaliza con Blackwell. Trainium3 de AWS alcanza 2.52 PFLOPS. Groq LPU ofrece 750 tokens/seg. El panorama de aceleradores de IA más allá del 80% de cuota de mercado de NVIDIA.

Aceleradores de IA más allá de las GPUs: TPU, Trainium, Gaudi, Groq, Cerebras 2025

Aceleradores de IA más allá de las GPUs: el panorama del silicio alternativo

Actualizado el 11 de diciembre de 2025

Actualización de diciembre de 2025: AWS Trainium3 disponible con 2.52 PFLOPS FP8 por chip y 144GB de HBM3e. La TPU v7 Ironwood de Google ofrece 4,614 TFLOPS por chip—los analistas la califican como "a la par con Blackwell". Intel confirma la discontinuación de Gaudi cuando lancen las GPUs de próxima generación en 2026-2027. Groq LPU alcanza 750 tokens/seg en modelos más pequeños mientras que Cerebras WSE-3 llega a 125 PFLOPS pico. El silicio alternativo gana tracción para cargas de trabajo específicas a pesar del 80% de dominio de mercado de NVIDIA.

NVIDIA posee aproximadamente el 80% del mercado de aceleradores de IA, pero la creciente demanda de infraestructura eficiente en costos y verticalmente integrada está aumentando lentamente la adopción de silicio alternativo.¹ Google lanzó su TPU de séptima generación Ironwood en noviembre de 2025, que los analistas describen como "posiblemente a la par con NVIDIA Blackwell".² AWS desplegó más de 500,000 chips Trainium2 para el entrenamiento de modelos de Anthropic—el clúster de IA más grande que no es de NVIDIA en producción.³ Cerebras lanzó el WSE-3 con 4 billones de transistores y 125 petaflops de rendimiento pico.⁴ El panorama de aceleradores de IA se extiende mucho más allá de las GPUs, ofreciendo arquitecturas optimizadas para cargas de trabajo específicas que las empresas evalúan cada vez más.

La GPU sigue siendo la opción predeterminada por su flexibilidad y madurez del ecosistema. El dominio de CUDA y la innovación sostenida de NVIDIA hacen que los costos de cambio sean sustanciales. Sin embargo, los hiperescaladores que diseñan su propio silicio, las startups que desafían los supuestos sobre arquitectura de chips, y los precios agresivos de Intel crean opciones que no existían hace cinco años. Las organizaciones que ejecutan IA a escala ahora evalúan las opciones de aceleradores como decisiones estratégicas de infraestructura en lugar de adquisiciones de commodities.

Google TPU: el referente de los hiperescaladores

Google anunció Trillium (TPU v6) en mayo de 2024 y lo hizo generalmente disponible en 2025.⁵ La TPU de sexta generación alcanza 4.7 veces el rendimiento de cómputo pico por chip en comparación con la TPU v5e.⁶ Google expandió los tamaños de las unidades de multiplicación de matrices y aumentó las velocidades de reloj para alcanzar aproximadamente 926 teraflops de rendimiento BF16.⁷

La capacidad de memoria y el ancho de banda se duplicaron respecto a la generación anterior.⁸ Trillium proporciona 32 gigabytes de capacidad HBM por chip con un ancho de banda proporcionalmente aumentado.⁹ El ancho de banda de interconexión entre chips también se duplicó, mejorando la eficiencia de escalado multi-chip.¹⁰

La eficiencia energética mejoró más del 67% en comparación con la TPU v5e.¹¹ Los analistas de la industria estiman que la TPU v6 opera entre un 60-65% más eficientemente que las GPUs, comparado con las ventajas de eficiencia del 40-45% en generaciones anteriores.¹² Las ganancias de eficiencia se acumulan a escala de centro de datos donde las restricciones de energía limitan la densidad de despliegue.

Trillium escala hasta 256 TPUs en un solo pod de alto ancho de banda y baja latencia.¹³ Más allá de la escalabilidad a nivel de pod, la tecnología multislice y las Unidades de Procesamiento de Inteligencia Titanium permiten escalar a cientos de pods, conectando decenas de miles de chips en supercomputadoras a escala de edificio.¹⁴ El clúster Trillium más grande ofrece 91 exaflops—cuatro veces más que el clúster TPU v5p más grande.¹⁵

Los benchmarks de entrenamiento demuestran las mejoras de rendimiento. Trillium ofreció más de cuatro veces el aumento de rendimiento de entrenamiento para Gemma 2-27B, MaxText Default-32B y Llama2-70B en comparación con la TPU v5e.¹⁶ El rendimiento de inferencia mejoró tres veces para Stable Diffusion XL.¹⁷ Google usó Trillium para entrenar Gemini 2.0.¹⁸

Google presentó la TPU v7 (Ironwood) en Cloud Next en abril de 2025.¹⁹ Ironwood ofrece 4,614 teraflops por chip y se enviará en configuraciones de 256 chips y 9,216 chips.²⁰ El equipo de SemiAnalysis elogió el silicio, afirmando que la supremacía de Google entre los hiperescaladores no tiene igual.²¹

El acceso a TPU requiere Google Cloud. Las organizaciones comprometidas con multi-nube o despliegue on-premises no pueden usar directamente la infraestructura TPU. El modelo exclusivo de nube limita la adopción para organizaciones con requisitos de residencia de datos o soberanía que las regiones de Google Cloud no satisfacen.

AWS Trainium: la asociación con Anthropic

AWS lanzó Trainium3 en diciembre de 2025—el primer chip de IA de 3nm de la compañía.²² Cada chip Trainium3 proporciona 2.52 petaflops de cómputo FP8 con 144 gigabytes de memoria HBM3e y 4.9 terabytes por segundo de ancho de banda de memoria.²³ Las especificaciones representan 1.5 veces más capacidad de memoria y 1.7 veces más ancho de banda que Trainium2.²⁴

Los Trn3 UltraServers escalan hasta 144 chips Trainium3 ofreciendo 362 petaflops de rendimiento total FP8.²⁵ Un UltraServer completamente configurado proporciona 20.7 terabytes de HBM3e y 706 terabytes por segundo de ancho de banda de memoria agregado.²⁶ AWS afirma 4.4 veces más rendimiento de cómputo, 4 veces mayor eficiencia energética y casi 4 veces más ancho de banda de memoria que los sistemas basados en Trainium2.²⁷

El fabric NeuronSwitch-v1 duplica el ancho de banda de interconexión entre chips respecto al Trn2 UltraServer.²⁸ La arquitectura de fabric all-to-all permite un entrenamiento distribuido eficiente en todo el complemento de chips.

Project Rainier representa el mayor despliegue de infraestructura de IA de AWS. AWS colaboró con Anthropic para conectar más de 500,000 chips Trainium2 en el clúster de cómputo de IA más grande del mundo—cinco veces más grande que la infraestructura utilizada para entrenar la generación anterior de modelos de Anthropic.²⁹ La asociación demuestra la viabilidad de Trainium para el entrenamiento de modelos de frontera.

Las instancias EC2 Trn2 basadas en Trainium2 ofrecen un 30-40% mejor rendimiento por precio que las instancias EC2 P5e y P5en basadas en GPU según AWS.³⁰ La ventaja de costos importa para cargas de trabajo de entrenamiento sostenidas donde los costos de cómputo dominan los presupuestos.

AWS discontinuó la línea Inferentia porque las cargas de trabajo de inferencia se asemejan cada vez más al entrenamiento en sus requisitos computacionales.³¹ La arquitectura Trainium ahora maneja tanto entrenamiento como inferencia, simplificando el portafolio de chips.

Trainium4 está en desarrollo con entrega esperada a finales de 2026 o principios de 2027.³² AWS anunció al menos 6 veces el rendimiento FP4, 3 veces el rendimiento FP8 y 4 veces más ancho de banda de memoria en comparación con Trainium3.³³ Trainium4 soportará la tecnología de interconexión NVLink Fusion de NVIDIA, permitiendo la integración con GPUs de NVIDIA en configuraciones comunes de rack.³⁴

Intel Gaudi: el competidor en precio

Intel lanzó Gaudi 3 en 2024, posicionándolo como una alternativa rentable al NVIDIA H100.³⁵ Gaudi 3 usa dos chiplets con 64 núcleos de procesador tensorial, ocho motores de multiplicación de matrices y 96 megabytes de caché SRAM en chip con 19.2 terabytes por segundo de ancho de banda.³⁶ El chip integra 128 gigabytes de memoria HBM2e con 3.67 terabytes por segundo de ancho de banda.³⁷

Gaudi 3 ofrece 1,835 teraflops de matrices BF16/FP8 a aproximadamente 600 vatios de TDP.³⁸ Comparado con NVIDIA H100, Gaudi 3 ofrece mayor rendimiento de matrices BF16 (1,835 versus 1,979 teraflops sin sparsity) y más capacidad HBM (128 versus 80 gigabytes).³⁹ El ancho de banda de memoria también supera al H100.⁴⁰

Intel afirma que Gaudi 3 es típicamente un 40% más rápido que NVIDIA H100 y podría superar al H100 hasta 1.7 veces entrenando Llama2-13B con precisión FP8.⁴¹ Las afirmaciones de eficiencia energética son más dramáticas—hasta el 220% del valor del H100 en benchmarks de Llama y 230% en Falcon.⁴²

La ventaja de precio es sustancial. Un sistema Gaudi 3 de ocho aceleradores cuesta $157,613 comparado con $300,107 para un sistema H100 equivalente.⁴³ El precio por chip es aproximadamente $15,625 para Gaudi 3 versus $30,678 para H100.⁴⁴ El diferencial de costos permite a las organizaciones desplegar aproximadamente el doble de capacidad de cómputo por presupuesto equivalente.

Gaudi 3 usa HBM2e en lugar de HBM3 o HBM3e, contribuyendo al menor costo pero limitando el ancho de banda de memoria comparado con alternativas de generación actual.⁴⁵ Las organizaciones que ejecutan cargas de trabajo limitadas por ancho de banda de memoria deben evaluar este trade-off cuidadosamente.

El desafío del ecosistema limita la adopción de Gaudi. El CUDA de NVIDIA domina el desarrollo de IA, y la transición a las herramientas de Intel requiere inversión en ingeniería.⁴⁶ La cuota de mercado de Intel en aceleradores de IA sigue siendo insignificante a pesar del hardware competitivo.⁴⁷

Intel anunció que Gaudi será discontinuado cuando lancen sus GPUs de IA de próxima generación en 2026-2027.⁴⁸ El anuncio de discontinuación crea riesgo de adopción para organizaciones considerando despliegues de Gaudi a varios años. Los socios pueden dudar en invertir en una línea de productos con fin de vida anunciado.

Groq LPU: liderazgo en velocidad de inferencia

La Unidad de Procesamiento de Lenguaje (LPU) de Groq adopta un enfoque arquitectónico fundamentalmente diferente, optimizando específicamente para inferencia en lugar de entrenamiento.⁴⁹ La arquitectura Tensor Streaming Processor alcanza 750 TOPS en INT8 y 188 teraflops en FP16 con un ancho de banda masivo de SRAM en chip de 80 terabytes por segundo.⁵⁰

La LPU de primera generación ofrece más de 1 teraop por segundo por milímetro cuadrado en un chip de 14nm operando a 900 MHz.⁵¹ La LPU de segunda generación usará el proceso de 4nm de Samsung.⁵²

La velocidad de inferencia define la propuesta de valor de Groq. La LPU sirve Mixtral 8x7B a 480 tokens por segundo y Llama 2 70B a 300 tokens por segundo.⁵³ Los modelos más pequeños como Llama 2 7B alcanzan 750 tokens por segundo.⁵⁴ Groq fue el primer proveedor de API en superar los 100 tokens por segundo en Llama2-70B.⁵⁵

La LPU ofrece inferencia hasta 18 veces más rápida que las GPUs tradicionales para modelos de lenguaje con latencia determinística por debajo del milisegundo.⁵⁶ La eficiencia energética alcanza 1-3 julios por token.⁵⁷

Las tarjetas LPU cuestan aproximadamente $20,000—comparable a las GPUs NVIDIA de gama alta—pero destacan específicamente en velocidad y eficiencia de inferencia.⁵⁸ El trade-off es claro: las LPUs manejan solo inferencia, no entrenamiento.⁵⁹

La huella de despliegue de Groq se expandió significativamente en 2025. La compañía opera una docena de centros de datos en EE.UU., Canadá, Medio Oriente y Europa.⁶⁰ En septiembre de 2025, Groq recaudó $750 millones con una valoración de $6.9 mil millones.⁶¹

La asociación con Arabia Saudita anunciada en febrero de 2025 compromete $1.5 mil millones para construir lo que Groq describe como el centro de datos de inferencia de IA más grande del mundo en Dammam.⁶² Los despliegues iniciales incluyen 19,000 LPUs con expansiones de capacidad planeadas para superar las 100,000 LPUs para 2027.⁶³

Cerebras WSE-3: integración a escala de oblea

Cerebras adopta el enfoque arquitectónico más radical, construyendo chips a escala de oblea en lugar de cortar las obleas en procesadores individuales.⁶⁴ El WSE-3 contiene 4 billones de transistores en toda la oblea—46,225 milímetros cuadrados de silicio.⁶⁵

El WSE-3 empaqueta 900,000 núcleos de cómputo optimizados para IA ofreciendo 125 petaflops de rendimiento pico de IA.⁶⁶ La SRAM en chip alcanza 44 gigabytes con 21 petabytes por segundo de ancho de banda de memoria.⁶⁷ El ancho de banda del fabric alcanza 214 petabits por segundo.⁶⁸ El chip se fabrica en el proceso de 5nm de TSMC.⁶⁹

El sistema CS-3 duplica el rendimiento del CS-2 en la misma envolvente de potencia de 15 kilovatios.⁷⁰ Un solo CS-3 cabe en 15U de espacio de rack.⁷¹ Las opciones de memoria externa extienden la capacidad a 1.5 terabytes, 12 terabytes o 1.2 petabytes dependiendo de la configuración.⁷²

La capacidad de modelos escala dramáticamente. El CS-3 puede entrenar modelos de redes neuronales de hasta 24 billones de parámetros.⁷³ Los clústeres escalan hasta 2,048 sistemas CS-3 ofreciendo hasta 256 exaflops de cómputo FP16.⁷⁴

Cerebras afirma ventajas significativas de facilidad de uso. La plataforma requiere un 97% menos código que las GPUs para LLMs y entrena modelos desde 1 mil millones hasta 24 billones de parámetros en modo puramente paralelo de datos.⁷⁵ Las configuraciones compactas de cuatro sistemas pueden hacer fine-tuning de modelos de 70B en un día.⁷⁶ A escala completa de 2,048 sistemas, Llama 70B se entrena desde cero en un solo día.⁷⁷

La supercomputadora Condor Galaxy 3 en Dallas desplegará 64 sistemas CS-3 para 8 exaflops de cómputo FP16.⁷⁸ La revista TIME reconoció al WSE-3 como una de las Mejores Invenciones de 2024.⁷⁹

SambaNova SN40L: flujo de datos reconfigurable

La arquitectura de Unidad de Flujo de Datos Reconfigurable (RDU) de SambaNova difiere tanto de las GPUs como de los ASICs personalizados.⁸⁰ El SN40L combina flexibilidad de flujo de datos en chip con un sistema de memoria de tres niveles: SRAM en chip, HBM en paquete y DRAM fuera del paquete.⁸¹

El SN40L usa el proceso de 5nm de TSMC en un paquete CoWoS de dos chips.⁸² Cada socket contiene 102 mil millones de transistores ofreciendo 640 teraflops BF16 y 520 megabytes de SRAM en chip.⁸³ El nivel DDR soporta hasta 1.5 terabytes de capacidad de memoria a más de

[Contenido truncado para traducción]

Solicitar Cotización_

Cuéntanos sobre tu proyecto y te responderemos en 72 horas.

> TRANSMISIÓN_COMPLETA

Solicitud Recibida_

Gracias por su consulta. Nuestro equipo revisará su solicitud y responderá dentro de 72 horas.

EN COLA PARA PROCESAMIENTO