Accélérateurs AI au-delà des GPU : le paysage du silicium alternatif
Mis à jour le 11 décembre 2025
Mise à jour décembre 2025 : AWS Trainium3 est disponible avec 2,52 PFLOPS FP8 par puce et 144GB HBM3e. Google TPU v7 Ironwood délivre 4 614 TFLOPS par puce—les analystes le qualifient de « à égalité avec Blackwell ». Intel confirme l'arrêt de Gaudi lors du lancement des GPU de nouvelle génération en 2026-2027. Groq LPU atteint 750 tokens/sec sur des modèles plus petits tandis que Cerebras WSE-3 atteint 125 PFLOPS en crête. Le silicium alternatif gagne du terrain pour des charges de travail spécifiques malgré les 80% de dominance marché de NVIDIA.
NVIDIA détient approximativement 80% du marché des accélérateurs AI, mais la demande croissante d'infrastructure rentable et intégrée verticalement augmente lentement l'adoption du silicium alternatif.¹ Google a lancé sa septième génération de TPU Ironwood en novembre 2025, que les analystes décrivent comme « sans doute à égalité avec NVIDIA Blackwell ».² AWS a déployé plus de 500 000 puces Trainium2 pour l'entraînement de modèles d'Anthropic—le plus grand cluster AI non-NVIDIA en production.³ Cerebras a lancé le WSE-3 avec 4 trillions de transistors et 125 pétaflops de performance crête.⁴ Le paysage des accélérateurs AI s'étend bien au-delà des GPU, offrant des architectures optimisées pour des charges de travail spécifiques que les entreprises évaluent de plus en plus.
Le GPU reste le choix par défaut pour la flexibilité et la maturité de l'écosystème. La dominance de CUDA et l'innovation soutenue de NVIDIA rendent les coûts de changement substantiels. Pourtant, les hyperscalers concevant leur propre silicium, les startups remettant en question les hypothèses sur l'architecture des puces, et la tarification agressive d'Intel créent tous des options qui n'existaient pas il y a cinq ans. Les organisations exécutant l'AI à grande échelle évaluent maintenant les choix d'accélérateurs comme des décisions d'infrastructure stratégiques plutôt que comme des achats de commodités.
Google TPU : la référence hyperscaler
Google a annoncé Trillium (TPU v6) en mai 2024 et l'a rendu généralement disponible en 2025.⁵ La sixième génération de TPU atteint 4,7 fois la performance de calcul crête par puce comparée au TPU v5e.⁶ Google a élargi les tailles d'unités de multiplication matricielle et augmenté les fréquences d'horloge pour atteindre approximativement 926 téraflops de performance BF16.⁷
La capacité et la bande passante mémoire ont doublé par rapport à la génération précédente.⁸ Trillium fournit 32 gigaoctets de capacité HBM par puce avec une bande passante proportionnellement augmentée.⁹ La bande passante d'interconnexion inter-puces a aussi doublé, améliorant l'efficacité de mise à l'échelle multi-puces.¹⁰
L'efficacité énergétique s'est améliorée de plus de 67% comparée au TPU v5e.¹¹ Les analystes de l'industrie estiment que le TPU v6 opère avec 60-65% plus d'efficacité que les GPU, comparé aux avantages d'efficacité de 40-45% des générations précédentes.¹² Les gains d'efficacité se cumulent à l'échelle du centre de données où les contraintes d'alimentation limitent la densité de déploiement.
Trillium monte en charge jusqu'à 256 TPU dans un seul pod à haute bande passante et faible latence.¹³ Au-delà de la scalabilité au niveau pod, la technologie multislice et les Titanium Intelligence Processing Units permettent la mise à l'échelle vers des centaines de pods, connectant des dizaines de milliers de puces dans des supercalculateurs à l'échelle de bâtiments.¹⁴ Le plus grand cluster Trillium délivre 91 exaflops—quatre fois plus que le plus grand cluster TPU v5p.¹⁵
Les benchmarks d'entraînement démontrent les améliorations de performance. Trillium a fourni plus de quatre fois l'augmentation de performance d'entraînement pour Gemma 2-27B, MaxText Default-32B, et Llama2-70B comparé au TPU v5e.¹⁶ Le débit d'inférence s'est amélioré de trois fois pour Stable Diffusion XL.¹⁷ Google a utilisé Trillium pour entraîner Gemini 2.0.¹⁸
Google a dévoilé TPU v7 (Ironwood) à Cloud Next en avril 2025.¹⁹ Ironwood délivre 4 614 téraflops par puce et sera livré en configurations de 256 puces et 9 216 puces.²⁰ L'équipe SemiAnalysis a salué le silicium, déclarant que la suprématie de Google parmi les hyperscalers est inégalée.²¹
L'accès TPU nécessite Google Cloud. Les organisations engagées dans un déploiement multi-cloud ou sur site ne peuvent pas utiliser directement l'infrastructure TPU. Le modèle cloud uniquement limite l'adoption pour les organisations avec des exigences de résidence ou de souveraineté des données que les régions Google Cloud ne satisfont pas.
AWS Trainium : le partenariat Anthropic
AWS a lancé Trainium3 en décembre 2025—la première puce AI 3nm de la société.²² Chaque puce Trainium3 fournit 2,52 pétaflops de calcul FP8 avec 144 gigaoctets de mémoire HBM3e et 4,9 téraoctets par seconde de bande passante mémoire.²³ Les spécifications représentent 1,5 fois plus de capacité mémoire et 1,7 fois plus de bande passante que Trainium2.²⁴
Les Trn3 UltraServers montent en charge jusqu'à 144 puces Trainium3 délivrant 362 pétaflops de performance FP8 totale.²⁵ Un UltraServer entièrement configuré fournit 20,7 téraoctets de HBM3e et 706 téraoctets par seconde de bande passante mémoire agrégée.²⁶ AWS revendique 4,4 fois plus de performance de calcul, 4 fois plus d'efficacité énergétique, et près de 4 fois plus de bande passante mémoire que les systèmes basés sur Trainium2.²⁷
Le fabric NeuronSwitch-v1 double la bande passante d'interconnexion inter-puces par rapport à Trn2 UltraServer.²⁸ L'architecture fabric all-to-all permet un entraînement distribué efficace sur l'ensemble complet de puces.
Le projet Rainier représente le plus grand déploiement d'infrastructure AI d'AWS. AWS a collaboré avec Anthropic pour connecter plus de 500 000 puces Trainium2 dans le plus grand cluster de calcul AI au monde—cinq fois plus grand que l'infrastructure utilisée pour entraîner la génération précédente de modèles d'Anthropic.²⁹ Le partenariat démontre la viabilité de Trainium pour l'entraînement de modèles frontière.
Les instances EC2 Trn2 basées sur Trainium2 offrent 30-40% de meilleur rapport prix-performance que les instances EC2 P5e et P5en basées sur GPU selon AWS.³⁰ L'avantage coût compte pour les charges de travail d'entraînement soutenues où les coûts de calcul dominent les budgets.
AWS a arrêté la ligne Inferentia car les charges de travail d'inférence ressemblent de plus en plus à l'entraînement dans leurs exigences computationnelles.³¹ L'architecture Trainium gère maintenant à la fois l'entraînement et l'inférence, simplifiant le portefeuille de puces.
Trainium4 est en développement avec une livraison attendue fin 2026 ou début 2027.³² AWS a annoncé au moins 6 fois le débit FP4, 3 fois la performance FP8, et 4 fois plus de bande passante mémoire comparé à Trainium3.³³ Trainium4 supportera la technologie d'interconnexion NVIDIA NVLink Fusion, permettant l'intégration avec les GPU NVIDIA dans des configurations de rack communes.³⁴
Intel Gaudi : le concurrent prix
Intel a lancé Gaudi 3 en 2024, le positionnant comme une alternative rentable au NVIDIA H100.³⁵ Gaudi 3 utilise deux chiplets avec 64 cœurs de processeur tensoriel, huit moteurs de multiplication matricielle, et 96 mégaoctets de cache SRAM sur puce avec 19,2 téraoctets par seconde de bande passante.³⁶ La puce intègre 128 gigaoctets de mémoire HBM2e avec 3,67 téraoctets par seconde de bande passante.³⁷
Gaudi 3 délivre 1 835 téraflops matriciels BF16/FP8 à approximativement 600 watts TDP.³⁸ Comparé au NVIDIA H100, Gaudi 3 offre une performance matricielle BF16 plus élevée (1 835 versus 1 979 téraflops sans sparsité) et plus de capacité HBM (128 versus 80 gigaoctets).³⁹ La bande passante mémoire dépasse aussi le H100.⁴⁰
Intel revendique que Gaudi 3 est typiquement 40% plus rapide que NVIDIA H100 et pourrait surpasser le H100 jusqu'à 1,7 fois en entraînant Llama2-13B à la précision FP8.⁴¹ Les revendications d'efficacité énergétique sont plus dramatiques—jusqu'à 220% de la valeur du H100 sur les benchmarks Llama et 230% sur Falcon.⁴²
L'avantage tarifaire est substantiel. Un système à huit accélérateurs Gaudi 3 coûte 157 613$ comparé à 300 107$ pour un système H100 équivalent.⁴³ La tarification par puce s'élève à approximativement 15 625$ pour Gaudi 3 versus 30 678$ pour H100.⁴⁴ Le différentiel de coût permet aux organisations de déployer approximativement deux fois la capacité de calcul pour un budget équivalent.
Gaudi 3 utilise HBM2e plutôt que HBM3 ou HBM3e, contribuant au coût plus bas mais limitant la bande passante mémoire comparée aux alternatives de génération actuelle.⁴⁵ Les organisations exécutant des charges de travail limitées par la bande passante mémoire devraient évaluer ce compromis soigneusement.
Le défi écosystème limite l'adoption de Gaudi. CUDA de NVIDIA domine le développement AI, et la transition vers les outils d'Intel nécessite un investissement d'ingénierie.⁴⁶ La part de marché d'Intel dans les accélérateurs AI reste négligeable malgré le matériel compétitif.⁴⁷
Intel a annoncé que Gaudi sera arrêté lorsque ses GPU AI de nouvelle génération seront lancés en 2026-2027.⁴⁸ L'annonce d'arrêt crée un risque d'adoption pour les organisations considérant des déploiements Gaudi multi-années. Les partenaires peuvent hésiter à investir dans une ligne de produits avec une fin de vie annoncée.
Groq LPU : leadership de vitesse d'inférence
Le Language Processing Unit (LPU) de Groq adopte une approche architecturale fondamentalement différente, optimisant spécifiquement pour l'inférence plutôt que l'entraînement.⁴⁹ L'architecture Tensor Streaming Processor atteint 750 TOPS à INT8 et 188 téraflops à FP16 avec une bande passante SRAM sur puce massive de 80 téraoctets par seconde.⁵⁰
Le LPU de première génération délivre plus de 1 téraop par seconde par millimètre carré sur une puce 14nm opérant à 900 MHz.⁵¹ Le LPU de seconde génération utilisera le processus 4nm de Samsung.⁵²
La vitesse d'inférence définit la proposition de valeur de Groq. Le LPU sert Mixtral 8x7B à 480 tokens par seconde et Llama 2 70B à 300 tokens par seconde.⁵³ Des modèles plus petits comme Llama 2 7B atteignent 750 tokens par seconde.⁵⁴ Groq a été le premier fournisseur API à dépasser 100 tokens par seconde sur Llama2-70B.⁵⁵
Le LPU délivre jusqu'à 18 fois plus d'inférence rapide que les GPU traditionnels pour les modèles de langage avec une latence déterministe sub-milliseconde.⁵⁶ L'efficacité énergétique atteint 1-3 joules par token.⁵⁷
Les cartes LPU coûtent approximativement 20 000$—comparable aux GPU NVIDIA haut de gamme—mais excellent spécifiquement en vitesse et efficacité d'inférence.⁵⁸ Le compromis est clair : les LPU gèrent uniquement l'inférence, pas l'entraînement.⁵⁹
L'empreinte de déploiement de Groq s'est considérablement élargie en 2025. La société opère une douzaine de centres de données à travers les États-Unis, le Canada, le Moyen-Orient, et l'Europe.⁶⁰ En septembre 2025, Groq a levé 750 millions$ à une valorisation de 6,9 milliards$.⁶¹
Le partenariat Arabie Saoudite annoncé en février 2025 engage 1,5 milliard$ pour construire ce que Groq décrit comme le plus grand centre de données d'inférence AI au monde à Dammam.⁶² Les déploiements initiaux comportent 19 000 LPU avec des expansions de capacité prévues pour dépasser 100 000 LPU d'ici 2027.⁶³
Cerebras WSE-3 : intégration à l'échelle wafer
Cerebras adopte l'approche architecturale la plus radicale, construisant des puces à l'échelle wafer plutôt que de découper les wafers en processeurs individuels.⁶⁴ Le WSE-3 contient 4 trillions de transistors sur l'ensemble du wafer—46 225 millimètres carrés de silicium.⁶⁵
Le WSE-3 comprend 900 000 cœurs de calcul optimisés AI délivrant 125 pétaflops de performance AI crête.⁶⁶ La SRAM sur puce atteint 44 gigaoctets avec 21 pétaoctets par seconde de bande passante mémoire.⁶⁷ La bande passante fabric atteint 214 pétabits par seconde.⁶⁸ La puce est fabriquée sur le processus 5nm de TSMC.⁶⁹
Le système CS-3 double la performance du CS-2 dans la même enveloppe énergétique de 15 kilowatts.⁷⁰ Un seul CS-3 tient dans 15U d'espace rack.⁷¹ Les options de mémoire externe étendent la capacité à 1,5 téraoctets, 12 téraoctets, ou 1,2 pétaoctets selon la configuration.⁷²
La capacité de modèle monte en charge dramatiquement. Le CS-3 peut entraîner des modèles de réseaux de neurones jusqu'à 24 trillions de paramètres.⁷³ Les clusters montent en charge jusqu'à 2 048 systèmes CS-3 délivrant jusqu'à 256 exaflops de calcul FP16.⁷⁴
Cerebras revendique des avantages significatifs de facilité d'utilisation. La plateforme nécessite 97% moins de code que les GPU pour les LLM et entraîne des modèles de 1 milliard à 24 trillions de paramètres en mode purement parallèle de données.⁷⁵ Des configurations compactes à quatre systèmes peuvent affiner des modèles 70B en une journée.⁷⁶ À l'échelle complète de 2 048 systèmes, Llama 70B s'entraîne à partir de zéro en une seule journée.⁷⁷
Le supercalculateur Condor Galaxy 3 à Dallas déploiera 64 systèmes CS-3 pour 8 exaflops de calcul FP16.⁷⁸ Le magazine TIME a reconnu le WSE-3 comme l'une des Meilleures Inventions de 2024.⁷⁹
SambaNova SN40L : flux de données reconfigurable
L'architecture Reconfigurable Dataflow Unit (RDU) de SambaNova diffère à la fois des GPU et des ASIC personnalisés.⁸⁰ Le SN40L combine la flexibilité de flux de données sur puce avec un système mémoire à trois niveaux : SRAM sur puce, HBM sur package, et DRAM hors package.⁸¹
Le SN40L utilise le processus 5nm de TSMC dans un package CoWoS double-die.⁸² Chaque socket contient 102 milliards de transistors délivrant 640 téraflops BF16 et 520 mégaoctets de SRAM sur puce.⁸³ Le niveau DDR supporte jusqu'à 1,5 téraoctets de capacité mémoire à plus de