Accélérateurs IA au-delà des GPU : TPU, Trainium, Gaudi, Groq, Cerebras 2025

Le TPU v7 de Google rivalise avec Blackwell. Le Trainium3 d'AWS atteint 2,52 PFLOPS. Le LPU de Groq délivre 750 tokens/sec. Le paysage des accélérateurs IA au-delà des 80 % de parts de marché de NVIDIA.

Accélérateurs IA au-delà des GPU : TPU, Trainium, Gaudi, Groq, Cerebras 2025

Accélérateurs IA au-delà des GPU : le paysage des siliciums alternatifs

Mis à jour le 11 décembre 2025

Mise à jour décembre 2025 : AWS Trainium3 disponible avec 2,52 PFLOPS FP8 par puce et 144 Go de HBM3e. Le TPU v7 Ironwood de Google délivre 4 614 TFLOPS par puce — les analystes le qualifient de « comparable à Blackwell ». Intel confirme l'arrêt de Gaudi lors du lancement de ses GPU nouvelle génération en 2026-2027. Le LPU de Groq atteint 750 tokens/sec sur les petits modèles tandis que le WSE-3 de Cerebras atteint 125 PFLOPS en pic. Les siliciums alternatifs gagnent du terrain pour des charges de travail spécifiques malgré la domination de 80 % du marché par NVIDIA.

NVIDIA détient environ 80 % du marché des accélérateurs IA, mais la demande croissante d'infrastructures économiques et verticalement intégrées augmente progressivement l'adoption des siliciums alternatifs.¹ Google a lancé sa septième génération de TPU, Ironwood, en novembre 2025, que les analystes décrivent comme « sans doute comparable au Blackwell de NVIDIA ».² AWS a déployé plus de 500 000 puces Trainium2 pour l'entraînement des modèles d'Anthropic — le plus grand cluster IA non-NVIDIA en production.³ Cerebras a lancé le WSE-3 avec 4 000 milliards de transistors et 125 pétaflops de performance en pic.⁴ Le paysage des accélérateurs IA s'étend bien au-delà des GPU, offrant des architectures optimisées pour des charges de travail spécifiques que les entreprises évaluent de plus en plus.

Le GPU reste le choix par défaut pour sa flexibilité et la maturité de son écosystème. La domination de CUDA et l'innovation soutenue de NVIDIA rendent les coûts de transition substantiels. Pourtant, les hyperscalers qui conçoivent leurs propres siliciums, les startups qui remettent en question les hypothèses sur l'architecture des puces, et la tarification agressive d'Intel créent des options qui n'existaient pas il y a cinq ans. Les organisations exécutant l'IA à grande échelle évaluent désormais les choix d'accélérateurs comme des décisions d'infrastructure stratégiques plutôt que comme des approvisionnements de commodités.

Google TPU : la référence des hyperscalers

Google a annoncé Trillium (TPU v6) en mai 2024 et l'a rendu généralement disponible en 2025.⁵ Le TPU de sixième génération atteint 4,7 fois la performance de calcul en pic par puce par rapport au TPU v5e.⁶ Google a élargi les tailles des unités de multiplication matricielle et augmenté les fréquences d'horloge pour atteindre environ 926 téraflops de performance BF16.⁷

La capacité mémoire et la bande passante ont doublé par rapport à la génération précédente.⁸ Trillium fournit 32 gigaoctets de capacité HBM par puce avec une bande passante proportionnellement augmentée.⁹ La bande passante d'interconnexion inter-puces a également doublé, améliorant l'efficacité de mise à l'échelle multi-puces.¹⁰

L'efficacité énergétique s'est améliorée de plus de 67 % par rapport au TPU v5e.¹¹ Les analystes de l'industrie estiment que le TPU v6 fonctionne avec 60-65 % d'efficacité en plus que les GPU, contre des avantages d'efficacité de 40-45 % dans les générations précédentes.¹² Les gains d'efficacité se composent à l'échelle du centre de données où les contraintes d'alimentation limitent la densité de déploiement.

Trillium évolue jusqu'à 256 TPU dans un seul pod à haute bande passante et faible latence.¹³ Au-delà de l'évolutivité au niveau du pod, la technologie multislice et les unités de traitement d'intelligence Titanium permettent une mise à l'échelle jusqu'à des centaines de pods, connectant des dizaines de milliers de puces dans des superordinateurs à l'échelle de bâtiments.¹⁴ Le plus grand cluster Trillium délivre 91 exaflops — quatre fois plus que le plus grand cluster TPU v5p.¹⁵

Les benchmarks d'entraînement démontrent les améliorations de performance. Trillium a fourni plus de quatre fois l'augmentation de performance d'entraînement pour Gemma 2-27B, MaxText Default-32B et Llama2-70B par rapport au TPU v5e.¹⁶ Le débit d'inférence s'est amélioré de trois fois pour Stable Diffusion XL.¹⁷ Google a utilisé Trillium pour entraîner Gemini 2.0.¹⁸

Google a dévoilé le TPU v7 (Ironwood) lors de Cloud Next en avril 2025.¹⁹ Ironwood délivre 4 614 téraflops par puce et sera livré en configurations de 256 puces et 9 216 puces.²⁰ L'équipe de SemiAnalysis a salué le silicium, déclarant que la suprématie de Google parmi les hyperscalers est inégalée.²¹

L'accès au TPU nécessite Google Cloud. Les organisations engagées dans le multi-cloud ou le déploiement sur site ne peuvent pas utiliser directement l'infrastructure TPU. Le modèle cloud uniquement limite l'adoption pour les organisations ayant des exigences de résidence ou de souveraineté des données que les régions Google Cloud ne satisfont pas.

AWS Trainium : le partenariat avec Anthropic

AWS a lancé Trainium3 en décembre 2025 — la première puce IA 3nm de l'entreprise.²² Chaque puce Trainium3 fournit 2,52 pétaflops de calcul FP8 avec 144 gigaoctets de mémoire HBM3e et 4,9 téraoctets par seconde de bande passante mémoire.²³ Les spécifications représentent 1,5 fois plus de capacité mémoire et 1,7 fois plus de bande passante que le Trainium2.²⁴

Les Trn3 UltraServers évoluent jusqu'à 144 puces Trainium3 délivrant 362 pétaflops de performance FP8 totale.²⁵ Un UltraServer entièrement configuré fournit 20,7 téraoctets de HBM3e et 706 téraoctets par seconde de bande passante mémoire agrégée.²⁶ AWS revendique 4,4 fois plus de performance de calcul, 4 fois plus d'efficacité énergétique et près de 4 fois plus de bande passante mémoire que les systèmes basés sur Trainium2.²⁷

Le fabric NeuronSwitch-v1 double la bande passante d'interconnexion inter-puces par rapport au Trn2 UltraServer.²⁸ L'architecture de fabric tout-à-tout permet un entraînement distribué efficace sur l'ensemble des puces.

Le projet Rainier représente le plus grand déploiement d'infrastructure IA d'AWS. AWS a collaboré avec Anthropic pour connecter plus de 500 000 puces Trainium2 dans le plus grand cluster de calcul IA au monde — cinq fois plus grand que l'infrastructure utilisée pour entraîner la génération précédente de modèles d'Anthropic.²⁹ Le partenariat démontre la viabilité de Trainium pour l'entraînement de modèles frontières.

Les instances EC2 Trn2 basées sur Trainium2 offrent un rapport prix/performance 30-40 % meilleur que les instances EC2 P5e et P5en basées sur GPU selon AWS.³⁰ L'avantage de coût compte pour les charges de travail d'entraînement soutenues où les coûts de calcul dominent les budgets.

AWS a abandonné la gamme Inferentia car les charges de travail d'inférence ressemblent de plus en plus à l'entraînement dans leurs exigences computationnelles.³¹ L'architecture Trainium gère désormais à la fois l'entraînement et l'inférence, simplifiant le portefeuille de puces.

Trainium4 est en développement avec une livraison prévue fin 2026 ou début 2027.³² AWS a annoncé au moins 6 fois le débit FP4, 3 fois la performance FP8 et 4 fois plus de bande passante mémoire par rapport au Trainium3.³³ Trainium4 prendra en charge la technologie d'interconnexion NVIDIA NVLink Fusion, permettant l'intégration avec les GPU NVIDIA dans des configurations de rack communes.³⁴

Intel Gaudi : le concurrent sur les prix

Intel a lancé Gaudi 3 en 2024, le positionnant comme une alternative économique au NVIDIA H100.³⁵ Gaudi 3 utilise deux chiplets avec 64 cœurs de processeur tenseur, huit moteurs de multiplication matricielle et 96 mégaoctets de cache SRAM sur puce avec une bande passante de 19,2 téraoctets par seconde.³⁶ La puce intègre 128 gigaoctets de mémoire HBM2e avec une bande passante de 3,67 téraoctets par seconde.³⁷

Gaudi 3 délivre 1 835 téraflops matriciels BF16/FP8 à environ 600 watts de TDP.³⁸ Comparé au NVIDIA H100, Gaudi 3 offre une performance matricielle BF16 plus élevée (1 835 contre 1 979 téraflops sans parcimonie) et plus de capacité HBM (128 contre 80 gigaoctets).³⁹ La bande passante mémoire dépasse également celle du H100.⁴⁰

Intel affirme que Gaudi 3 est généralement 40 % plus rapide que le NVIDIA H100 et pourrait dépasser le H100 jusqu'à 1,7 fois pour l'entraînement de Llama2-13B en précision FP8.⁴¹ Les revendications d'efficacité énergétique sont plus spectaculaires — jusqu'à 220 % de la valeur du H100 sur les benchmarks Llama et 230 % sur Falcon.⁴²

L'avantage tarifaire est substantiel. Un système Gaudi 3 à huit accélérateurs coûte 157 613 $ contre 300 107 $ pour un système H100 équivalent.⁴³ Le prix par puce est d'environ 15 625 $ pour Gaudi 3 contre 30 678 $ pour H100.⁴⁴ Le différentiel de coût permet aux organisations de déployer environ deux fois la capacité de calcul pour un budget équivalent.

Gaudi 3 utilise la HBM2e plutôt que la HBM3 ou HBM3e, contribuant au coût inférieur mais limitant la bande passante mémoire par rapport aux alternatives de génération actuelle.⁴⁵ Les organisations exécutant des charges de travail limitées par la bande passante mémoire devraient évaluer soigneusement ce compromis.

Le défi de l'écosystème limite l'adoption de Gaudi. Le CUDA de NVIDIA domine le développement IA, et la transition vers les outils d'Intel nécessite un investissement en ingénierie.⁴⁶ La part de marché d'Intel dans les accélérateurs IA reste négligeable malgré un matériel compétitif.⁴⁷

Intel a annoncé que Gaudi sera abandonné lors du lancement de ses GPU IA nouvelle génération en 2026-2027.⁴⁸ L'annonce d'abandon crée un risque d'adoption pour les organisations envisageant des déploiements Gaudi pluriannuels. Les partenaires peuvent hésiter à investir dans une gamme de produits avec une fin de vie annoncée.

Groq LPU : le leadership en vitesse d'inférence

L'unité de traitement du langage (LPU) de Groq adopte une approche architecturale fondamentalement différente, optimisant spécifiquement pour l'inférence plutôt que l'entraînement.⁴⁹ L'architecture Tensor Streaming Processor atteint 750 TOPS en INT8 et 188 téraflops en FP16 avec une bande passante SRAM sur puce massive de 80 téraoctets par seconde.⁵⁰

Le LPU de première génération délivre plus de 1 téraop par seconde par millimètre carré sur une puce 14nm fonctionnant à 900 MHz.⁵¹ Le LPU de deuxième génération utilisera le procédé 4nm de Samsung.⁵²

La vitesse d'inférence définit la proposition de valeur de Groq. Le LPU sert Mixtral 8x7B à 480 tokens par seconde et Llama 2 70B à 300 tokens par seconde.⁵³ Les modèles plus petits comme Llama 2 7B atteignent 750 tokens par seconde.⁵⁴ Groq a été le premier fournisseur d'API à dépasser 100 tokens par seconde sur Llama2-70B.⁵⁵

Le LPU délivre une inférence jusqu'à 18 fois plus rapide que les GPU traditionnels pour les modèles de langage avec une latence déterministe inférieure à la milliseconde.⁵⁶ L'efficacité énergétique atteint 1-3 joules par token.⁵⁷

Les cartes LPU coûtent environ 20 000 $ — comparable aux GPU NVIDIA haut de gamme — mais excellent spécifiquement en vitesse et efficacité d'inférence.⁵⁸ Le compromis est clair : les LPU gèrent uniquement l'inférence, pas l'entraînement.⁵⁹

L'empreinte de déploiement de Groq s'est considérablement étendue en 2025. L'entreprise exploite une douzaine de centres de données aux États-Unis, au Canada, au Moyen-Orient et en Europe.⁶⁰ En septembre 2025, Groq a levé 750 millions de dollars pour une valorisation de 6,9 milliards de dollars.⁶¹

Le partenariat avec l'Arabie saoudite annoncé en février 2025 engage 1,5 milliard de dollars pour construire ce que Groq décrit comme le plus grand centre de données d'inférence IA au monde à Dammam.⁶² Les déploiements initiaux comportent 19 000 LPU avec des extensions de capacité prévues pour dépasser 100 000 LPU d'ici 2027.⁶³

Cerebras WSE-3 : intégration à l'échelle de la galette

Cerebras adopte l'approche architecturale la plus radicale, construisant des puces à l'échelle de la galette plutôt que de découper les galettes en processeurs individuels.⁶⁴ Le WSE-3 contient 4 000 milliards de transistors sur l'ensemble de la galette — 46 225 millimètres carrés de silicium.⁶⁵

Le WSE-3 intègre 900 000 cœurs de calcul optimisés pour l'IA délivrant 125 pétaflops de performance IA en pic.⁶⁶ La SRAM sur puce atteint 44 gigaoctets avec une bande passante mémoire de 21 pétaoctets par seconde.⁶⁷ La bande passante du fabric atteint 214 pétabits par seconde.⁶⁸ La puce est fabriquée sur le procédé 5nm de TSMC.⁶⁹

Le système CS-3 double la performance du CS-2 dans la même enveloppe de puissance de 15 kilowatts.⁷⁰ Un seul CS-3 tient dans 15U d'espace rack.⁷¹ Les options de mémoire externe étendent la capacité à 1,5 téraoctet, 12 téraoctets ou 1,2 pétaoctet selon la configuration.⁷²

La capacité des modèles évolue de façon spectaculaire. Le CS-3 peut entraîner des modèles de réseaux neuronaux jusqu'à 24 000 milliards de paramètres.⁷³ Les clusters évoluent jusqu'à 2 048 systèmes CS-3 délivrant jusqu'à 256 exaflops de calcul FP16.⁷⁴

Cerebras revendique des avantages significatifs en facilité d'utilisation. La plateforme nécessite 97 % de code en moins que les GPU pour les LLM et entraîne des modèles de 1 milliard à 24 000 milliards de paramètres en mode purement parallèle sur les données.⁷⁵ Des configurations compactes à quatre systèmes peuvent affiner des modèles 70B en une journée.⁷⁶ À pleine échelle de 2 048 systèmes, Llama 70B s'entraîne à partir de zéro en une seule journée.⁷⁷

Le superordinateur Condor Galaxy 3 à Dallas déploiera 64 systèmes CS-3 pour 8 exaflops de calcul FP16.⁷⁸ TIME Magazine a reconnu le WSE-3 comme l'une des meilleures inventions de 2024.⁷⁹

SambaNova SN40L : flux de données reconfigurable

L'architecture d'unité de flux de données reconfigurable (RDU) de SambaNova diffère à la fois des GPU et des ASIC personnalisés.⁸⁰ Le SN40L combine la flexibilité du flux de données sur puce avec un système de mémoire à trois niveaux : SRAM sur puce, HBM sur boîtier et DRAM hors boîtier.⁸¹

Le SN40L utilise le procédé 5nm de TSMC dans un boîtier CoWoS à double puce.⁸² Chaque socket contient 102 milliards de transistors délivrant 640 téraflops BF16 et 520 mégaoctets de SRAM sur puce.⁸³ Le niveau DDR prend en charge jusqu'à 1,5 téraoctet de capacité mémoire à plus de

[Contenu tronqué pour la traduction]

Demander un devis_

Parlez-nous de votre projet et nous vous répondrons sous 72 heures.

> TRANSMISSION_TERMINÉE

Demande reçue_

Merci pour votre demande. Notre équipe examinera votre requête et vous répondra sous 72 heures.

EN ATTENTE DE TRAITEMENT