La position inattaquable de NVIDIA : une analyse technique de la pérennité du fossé concurrentiel jusqu'en 2030
Mis à jour le 11 décembre 2025
Mise à jour de décembre 2025 : NVIDIA maintient 80 % de parts de marché des accélérateurs IA, 78 % de marge brute malgré les challengers (DeepSeek, TPUs, MI300X, contrôles à l'exportation). L'action chute face aux menaces, puis se redresse. Le fossé, ce n'est pas CUDA en soi — ce sont 19 ans d'écosystème accumulé : cuDNN, cuBLAS, NCCL, optimisation PyTorch/TensorFlow, suite d'outils Nsight, documentation. Les coûts de migration dépassent les avantages de performance pour pratiquement tous les clients.
Chaque menace contre NVIDIA suit le même scénario. Les analystes identifient un challenger — l'efficacité de DeepSeek, les TPUs de Google, le MI300X d'AMD, les modèles open source, les contrôles à l'exportation — et prédisent une érosion des parts de marché. L'action chute. Les gros titres se multiplient. Puis la menace passe. Les parts de marché restent à 80 %.¹ Les marges brutes se maintiennent à 78 %.² Les hyperscalers annoncent une nouvelle vague de dépenses d'investissement, dont la majeure partie va au matériel NVIDIA.³
Ce schéma se répète parce que l'analyse se concentre sur la mauvaise variable. Les observateurs comparent les spécifications et concluent que les concurrents ont rattrapé leur retard ou le feront bientôt. Cette comparaison passe à côté de ce qui rend la position de NVIDIA durable : des coûts de migration qui dépassent les avantages de performance dans une mesure telle que les acteurs rationnels restent même lorsque des alternatives offrent de meilleures spécifications.
NVIDIA maintiendra sa position dominante sur le marché jusqu'en 2030. Non pas parce que les concurrents ne produiront pas de meilleur matériel sur des métriques spécifiques — c'est déjà le cas dans certains domaines. Non pas parce que les gains d'efficacité ne réduiront pas les besoins en calcul par modèle — c'est déjà le cas. NVIDIA gagne parce que le coût total de migration de plateforme dépasse le bénéfice total de cette migration pour pratiquement tous les clients du marché. Comprendre pourquoi nécessite de comprendre ce qui constitue réellement ce fossé.
Le fossé, ce n'est pas CUDA. Le fossé, c'est tout ce qui est construit sur CUDA.
CUDA a été lancé en 2006. Dix-neuf ans d'investissements accumulés ont suivi. Cet investissement n'a pas simplement créé une interface de programmation. Il a créé un écosystème si complet que CUDA fonctionne moins comme une plateforme logicielle que comme l'infrastructure fondamentale du développement de l'IA elle-même.
La couche de base comprend le modèle de calcul parallèle et les abstractions de programmation. CUDA fournit aux développeurs un moyen d'exprimer des calculs parallèles qui s'exécutent efficacement sur les architectures GPU. Cette couche de base fonctionne bien, mais pourrait théoriquement être répliquée. ROCm d'AMD fournit des abstractions similaires. oneAPI d'Intel tente la même chose.
Ce sont les couches accumulées au-dessus de la base qui créent l'avantage défendable.
Bibliothèques et primitives : cuDNN pour les primitives de deep learning. cuBLAS pour l'algèbre linéaire. cuFFT pour les transformées de Fourier. Thrust pour les algorithmes parallèles. NCCL pour la communication multi-GPU. Chaque bibliothèque représente des milliers d'heures d'ingénierie pour optimiser les architectures NVIDIA. Chaque optimisation se compose avec les autres. Un modèle qui utilise cuDNN pour les convolutions, cuBLAS pour les opérations matricielles et NCCL pour l'agrégation des gradients capture des optimisations à chaque couche de la pile.⁴
Intégration aux frameworks : PyTorch, TensorFlow, JAX et tous les autres grands frameworks s'optimisent d'abord et plus profondément pour les GPU NVIDIA. Les développeurs de frameworks utilisent du matériel NVIDIA. Les suites de tests des frameworks tournent sur du matériel NVIDIA. Les rapports de bugs proviennent principalement d'utilisateurs NVIDIA. Les frameworks fonctionnent sur d'autres matériels ; ils fonctionnent mieux sur du matériel NVIDIA.⁵
Chaînes d'outils et débogage : Nsight pour le profilage et le débogage. CUDA-GDB pour le débogage des kernels. Compute Sanitizer pour la détection d'erreurs. Des outils qui aident les développeurs à écrire du code correct et efficace. Des outils qui n'existent pas ou existent sous forme immature pour les plateformes concurrentes.
Documentation et connaissances : Dix-neuf ans d'articles de blog, de tutoriels, de publications académiques, de réponses Stack Overflow et de connaissances institutionnelles. Quand un développeur rencontre un problème CUDA, la solution existe quelque part. Quand un développeur rencontre un problème ROCm, il pourrait être la première personne à le voir.
Mémoire musculaire des développeurs : Les doctorants apprennent CUDA. Les équipes de recherche utilisent CUDA. Les ingénieurs construisent des carrières autour de l'expertise CUDA. Les personnes qui prennent les décisions technologiques ont passé des années à accumuler des compétences spécifiques à CUDA qui ne se transfèrent pas vers d'autres plateformes.
Les couches se composent. Une organisation qui passe de NVIDIA à AMD ne change pas simplement de matériel. Elle réécrit les kernels CUDA en HIP ou ROCm. Elle remplace les appels cuDNN par des appels MIOpen. Elle reforme les développeurs. Elle abandonne Nsight et apprend de nouveaux outils. Elle laisse derrière elle les connaissances communautaires qui résolvent les problèmes ésotériques à 2 heures du matin. Elle prend un risque de débogage dans un écosystème moins mature.
Chaque couche ajoute un coût de migration. Les coûts de migration s'empilent de manière multiplicative, pas additive. Un avantage de 20 % sur le papier devient un désavantage de 20 % en pratique lorsque l'atteindre nécessite de reconstruire l'ensemble de la pile à partir de zéro.
Pourquoi DeepSeek a prouvé l'existence du fossé plutôt que de le menacer
L'annonce de DeepSeek en janvier 2025 affirmait que des modèles d'IA de pointe pouvaient être entraînés pour 6 millions de dollars au lieu de 600 millions.⁶ Le marché a interprété cela comme une menace existentielle : si les modèles pouvaient être construits à moindre coût, la demande de matériel coûteux s'effondrerait.
L'interprétation a échoué sur plusieurs niveaux, chacun révélant des aspects de la force structurelle de NVIDIA.
Les gains d'efficacité ne réduisent pas la demande ; ils l'étendent. Le paradoxe de Jevons — l'observation selon laquelle les améliorations d'efficacité augmentent plutôt qu'elles ne diminuent la consommation totale de ressources — s'applique directement. Quand les coûts d'entraînement chutent de 99 %, le marché adressable s'étend de plus de 99x. Les organisations qui ne pouvaient pas se permettre l'IA de pointe à 600 millions de dollars peuvent se la permettre à 6 millions. La consommation agrégée de calcul augmente même si la consommation par modèle diminue.
La réponse de Meta l'a démontré immédiatement. Quelques jours après l'annonce de DeepSeek, Meta a relevé ses prévisions de dépenses IA pour 2025 à 60-65 milliards de dollars.⁷ L'entreprise a vu l'entraînement moins cher comme une raison d'entraîner plus de modèles pour plus de cas d'usage, pas comme une raison de réduire les investissements en infrastructure.
DeepSeek tournait sur du matériel NVIDIA. L'entreprise a utilisé des puces NVIDIA soumises à restrictions d'exportation, complétées par l'Ascend 910B de Huawei, qui atteint 91 % des performances de puces NVIDIA comparables.⁸ Même l'entreprise supposée menacer la domination de NVIDIA n'a pas pu échapper entièrement à l'écosystème NVIDIA. Les innovations d'efficacité développées par DeepSeek — mixture of experts, optimisation de l'attention, améliorations du curriculum d'entraînement — se transfèrent au matériel NVIDIA. Les organisations qui veulent l'efficacité de DeepSeek peuvent l'atteindre tout en restant sur la plateforme NVIDIA.
Le marché a correctement traité le signal en 48 heures. La perte de 593 milliards de dollars de NVIDIA en une seule journée s'est inversée lorsque les investisseurs institutionnels ont reconnu la surréaction.⁹ L'action a récupéré 8,9 % le jour suivant. Les investisseurs particuliers ont vendu ; les institutions ont acheté la baisse. Les participants sophistiqués du marché ont compris ce que les gros titres avaient manqué.
L'engagement industriel n'a pas faibli. Chevron et GE Vernova ont annoncé des plans pour construire des centrales électriques dédiées aux centres de données après l'annonce de DeepSeek, pas avant.¹⁰ Les entreprises industrielles n'engagent pas des milliards dans des projets d'infrastructure sur la base de bulles ou de technologies bientôt obsolètes. Elles construisent pour des décennies de demande soutenue.
L'épisode DeepSeek a testé le fossé de NVIDIA dans les conditions les plus favorables possibles pour la thèse baissière : des améliorations d'efficacité dramatiques, d'un concurrent non contraint par les réglementations américaines d'exportation, annoncées au pic de l'exubérance du marché. Le fossé a tenu. Tout défi futur opère dans des conditions moins favorables.
TPUs : une concurrence réelle dans un segment défini, pas une menace de plateforme
Les Tensor Processing Units de Google représentent une concurrence réelle. Le TPUv7 (Ironwood) délivre 4 614 TFLOPS en BF16, une amélioration de 10x par rapport au TPUv5p.¹¹ Google a conquis des clients significatifs : le déploiement d'Anthropic dépasse 1 GW de capacité TPU.¹² Meta prévoit apparemment d'utiliser des TPUs dans ses centres de données d'ici 2027.¹³ OpenAI, SSI et xAI ont discuté de l'accès aux TPUs avec Google.¹⁴
Les victoires sont réelles. Elles ne menacent pas la position dominante de NVIDIA parce qu'elles se produisent dans un segment de marché spécifique avec des caractéristiques qui ne se généralisent pas.
Les TPUs optimisent pour le coût d'inférence à hyperscale. Les coûts d'inférence pour les systèmes d'IA en production dépassent les coûts d'entraînement de 15 à 118x.¹⁵ À hyperscale, l'optimisation des coûts d'inférence génère une valeur économique significative. Les TPUs de Google offrent 4,7x meilleures performances par dollar et 67 % de consommation électrique en moins pour ces charges de travail.¹⁶ Pour les organisations exécutant l'inférence à grande échelle avec le coût comme contrainte principale, les TPUs offrent une économie convaincante.
Les TPUs restent captifs de l'écosystème Google. Les organisations accèdent aux TPUs via Google Cloud ou via des relations directes avec Google. Le matériel n'est pas expédié vers les centres de données des clients. L'écosystème logiciel n'existe pas indépendamment de l'infrastructure de Google. Choisir les TPUs signifie choisir Google comme partenaire stratégique à un niveau fondamental.
Cette contrainte élimine la majeure partie du marché. Les entreprises déployant l'IA dans leurs propres centres de données ne peuvent pas utiliser les TPUs. Les organisations réticentes à concentrer leur infrastructure chez un seul hyperscaler ne peuvent pas utiliser les TPUs. Les entreprises dans des secteurs réglementés qui interdisent les dépendances spécifiques au cloud ne peuvent pas utiliser les TPUs. La contrainte ne s'applique pas à Anthropic ou Meta, qui opèrent à une échelle suffisante pour négocier des relations directes. Elle s'applique à la longue traîne du marché.
L'entraînement se fait encore principalement sur NVIDIA. Google entraîne Gemini sur TPUs. Tous les autres entraînent sur NVIDIA. Le marché de l'entraînement diffère du marché de l'inférence de plusieurs façons : les charges de travail d'entraînement sont plus variées et moins standardisées que l'inférence ; l'entraînement requiert plus de flexibilité pour expérimenter avec les architectures ; l'entraînement bénéficie davantage de la profondeur de l'écosystème. La position de NVIDIA dans l'entraînement reste plus forte que sa position dans l'inférence.
La segmentation du marché n'équivaut pas à une perte de marché. Si les TPUs capturent 20 % de l'inférence hyperscale tandis que NVIDIA conserve 95 % de l'entraînement, 90 % de l'inférence entreprise et 80 % de l'autre inférence hyperscale, le volume absolu et le chiffre d'affaires de NVIDIA continuent de croître. Le marché du calcul IA s'étend plus vite que tout segment que les TPUs pourraient capturer. La part de NVIDIA pourrait légèrement décliner tandis que son chiffre d'affaires double.
La prédiction : les TPUs deviennent une partie significative du paysage du calcul IA, spécifiquement pour l'inférence sensible aux coûts à hyperscale. NVIDIA conserve la dominance sur l'entraînement, la dominance entreprise et une majorité du calcul hyperscale. Les deux entreprises croissent. Présenter les TPUs comme une « menace » pour NVIDIA confond la concurrence de segment avec le déplacement de plateforme.
AMD MI300X : les spécifications gagnent les benchmarks, les écosystèmes gagnent les marchés
Le MI300X d'AMD offre des spécifications convaincantes : 192 Go de mémoire HBM3 contre 80 Go pour le H100.¹⁷ Pour les charges de travail d'inférence limitées par la mémoire, plus de mémoire compte. Les grands modèles de langage pendant l'inférence sont souvent limités par la bande passante mémoire plutôt que par le calcul. La fiche technique du MI300X présente un matériel véritablement compétitif.
Les parts de marché racontent une autre histoire. Omdia estime que NVIDIA détient environ 80 % du marché des accélérateurs IA.¹⁸ AMD capture des pourcentages à un seul chiffre. L'écart ne s'est pas comblé de manière significative malgré plusieurs générations de sorties de matériel compétitif.
Ce schéma s'étend à l'ensemble de l'historique concurrentiel d'AMD face à NVIDIA. À chaque génération, AMD annonce du matériel qui égale ou dépasse NVIDIA sur les spécifications. À chaque génération, NVIDIA maintient ses parts de marché. À chaque génération, les observateurs prédisent que l'écart va se réduire. À chaque génération, ce n'est pas le cas.
La constance de ce schéma sur quinze ans de concurrence fournit une preuve solide que quelque chose d'autre que les spécifications détermine les résultats du marché. Ce quelque chose, c'est l'écosystème.
ROCm, la réponse d'AMD à CUDA, existe et fonctionne. Le support des frameworks existe. Les bibliothèques existent. La documentation existe. Mais chaque élément existe à une densité inférieure à l'équivalent NVIDIA. PyTorch fonctionne sur ROCm ; plus d'utilisateurs PyTorch tournent sur CUDA. MIOpen fournit des
[Contenu tronqué pour la traduction]