Stockage optimisé pour l'IA : la pile technologique qui alimente les clusters GPU
Mis à jour le 11 décembre 2025
Mise à jour de décembre 2025 : Le marché du stockage IA croît de 36 milliards de dollars (2025) à 322 milliards de dollars d'ici 2035. DDN EXAScaler fournit 4 To/s au supercalculateur NVIDIA Eos. GPUDirect Storage permet des transferts directs de plus de 40 Go/s ; la technologie SCADA de NVIDIA lancée en novembre 2025 élimine la dernière implication du CPU. NVMe-oF connaît une croissance annuelle de 27,8 % alors que les organisations étendent la latence de niveau PCIe à travers les réseaux.
Les goulots d'étranglement de stockage laissent les GPU inactifs. Une seule implémentation DDN EXAScaler fournit quatre téraoctets par seconde au supercalculateur Eos de NVIDIA, alimentant 18,4 exaflops de performance IA à partir de 576 systèmes DGX H100.¹ Quand les GPU coûtent des dizaines de milliers de dollars l'unité et que les clusters d'entraînement atteignent des milliers d'accélérateurs, une infrastructure de stockage incapable de maintenir le débit de données gaspille des millions en ressources de calcul. Le marché du stockage alimenté par l'IA reflète cette urgence, avec une projection de croissance de 36,28 milliards de dollars en 2025 à 321,93 milliards de dollars d'ici 2035, soit un taux de croissance annuel composé de 24,4 %.²
Les charges de travail IA modernes exigent des caractéristiques de performance de stockage fondamentalement différentes des applications d'entreprise traditionnelles. Les jeux de données d'entraînement mesurés en pétaoctets nécessitent un débit séquentiel soutenu. Les opérations de checkpointing doivent se terminer en quelques secondes pour minimiser l'interruption de l'entraînement. Les charges de travail d'inférence génèrent des schémas d'E/S imprévisibles mélangeant petites lectures aléatoires et écritures en rafale. Les organisations déployant une infrastructure IA à grande échelle évaluent désormais les systèmes de stockage sur la base des métriques d'utilisation GPU plutôt que des benchmarks IOPS traditionnels.
NVMe-oF étend les performances flash à travers le réseau
NVMe over Fabrics (NVMe-oF) permet des charges de travail haute performance à grande échelle en fournissant un partage à faible latence des SSD NVMe sur des fabrics Ethernet ou InfiniBand haute performance.³ Le protocole offre des performances similaires aux SSD NVMe connectés localement tout en permettant aux organisations de faire évoluer les ressources de stockage indépendamment de l'allocation de calcul, GPU et mémoire.⁴
Les protocoles de stockage traditionnels ajoutent des millisecondes de latence via des piles logicielles optimisées pour les disques rotatifs. NVMe-oF élimine ces couches, atteignant des latences de l'ordre de dizaines de microsecondes même à l'échelle de milliers de nœuds utilisant des transports RDMA.⁵ Les transports TCP permettent le déploiement sur Ethernet standard tout en offrant des améliorations de performance substantielles par rapport aux protocoles NFS ou iSCSI hérités.⁶
Pour l'infrastructure IA, NVMe-oF compte là où chaque microseconde est cruciale : les pipelines d'entraînement où les GPU attendent les données inactifs, les opérations de checkpoint qui doivent se terminer dans des fenêtres de temps strictes, et les charges de travail d'inférence nécessitant des temps de réponse inférieurs à la milliseconde.⁷ Les benchmarks publiés montrent 351 Gio par seconde en lectures séquentielles avec l'intégration GPUDirect Storage, avec des réductions de latence attendues pour augmenter l'utilisation effective des GPU de 2 à 3 fois dans les configurations limitées par les E/S.⁸
L'adoption industrielle s'accélère tout au long de 2025. Western Digital et Ingrasys ont établi un partenariat en mai 2025 combinant l'expertise en serveurs GPU avec NVMe-oF et les capacités de stockage attaché au fabric.⁹ Hitachi Vantara a lancé Virtual Storage Platform One Block High End en novembre 2025, une solution de stockage bloc tout-flash NVMe de nouvelle génération conçue pour les charges de travail critiques et IA.¹⁰ Les systèmes NVMe-oF prévoient un taux de croissance annuel composé de 27,80 % alors que les organisations étendent la latence de niveau PCIe à travers les réseaux pour améliorer l'utilisation GPU dans les clusters IA distribués.¹¹
GPUDirect Storage élimine le goulot d'étranglement CPU
GPUDirect Storage de NVIDIA permet le transfert direct de données du stockage vers la mémoire GPU sans passer par le CPU et la mémoire système.¹² Cette technologie supprime une barrière de performance fondamentale dans les pipelines d'entraînement IA où de grands jeux de données doivent circuler continuellement vers la mémoire GPU pour traitement.
L'entraînement en deep learning implique des opérations de checkpointing fréquentes où les poids du réseau entraîné sont sauvegardés sur disque à différentes étapes de l'entraînement. Par définition, le checkpointing se situe sur le chemin critique des E/S.¹³ Un modèle de 100 milliards de paramètres génère environ 800 Go à 1,6 To par checkpoint, et l'entraînement à grande échelle avec 16 000 accélérateurs nécessite 155 checkpoints par jour.¹⁴ Pour maintenir la surcharge en dessous de 5 %, les opérations de checkpoint doivent se terminer en moins de 28 secondes à cette échelle, diminuant à 4,4 secondes pour des clusters de 100 000 accélérateurs.¹⁵
GPUDirect Storage répond à ces exigences en permettant des taux de transfert direct de plus de 40 Go/s du stockage vers la mémoire GPU.¹⁶ L'architecture de référence Lenovo/NVIDIA fournit 20 Go/s par nœud avec des capacités de mise à l'échelle linéaire, supportant l'entraînement LLM, l'inférence et les fonctions de checkpointing.¹⁷ La technologie SCADA de NVIDIA lancée en novembre 2025 pousse GPUDirect plus loin en déchargeant même le chemin de contrôle du stockage vers le GPU, éliminant la dernière implication du CPU dans les opérations de stockage.¹⁸
Les implémentations matérielles prolifèrent dans l'écosystème. L'adaptateur HighPoint Rocker 7638D permet des flux de travail GPUDirect Storage avec jusqu'à 64 Go/s de bande passante et une latence prévisible, particulièrement utile pour les grands jeux de données d'entraînement.¹⁹ Les fournisseurs de stockage incluant DDN, Pure Storage, WEKA et VAST Data certifient leurs plateformes pour l'intégration GPUDirect avec les systèmes NVIDIA DGX et HGX.
Les systèmes de fichiers parallèles propulsent l'IA à l'échelle exaflopique
Les systèmes de fichiers parallèles distribuent les données et métadonnées sur plusieurs serveurs, permettant un débit agrégé qui évolue avec le nombre de nœuds de stockage. Trois plateformes dominent les déploiements IA et HPC : Lustre, IBM Storage Scale (anciennement GPFS) et WekaFS.
Lustre détient 41 % de part de marché dans les systèmes de fichiers parallèles, suivi par IBM Storage Scale à 17 % et WEKA à 6 %.²⁰ Chaque architecture optimise pour différentes caractéristiques de charge de travail.
Lustre excelle dans les environnements dominés par de grandes opérations séquentielles incluant les simulations scientifiques et les pipelines de rendu vidéo.²¹ L'architecture priorise la bande passante soutenue sur la gestion des petits fichiers, atteignant une mise à l'échelle des performances quasi linéaire avec l'ajout de serveurs de stockage d'objets (OSS) pour les charges de travail intensives en bande passante.²² Lustre performe au mieux avec les fabrics InfiniBand et alimente la plupart des supercalculateurs mondiaux. Le produit EXAScaler de DDN package Lustre avec des optimisations de performance et des capacités de gestion d'entreprise.
IBM Storage Scale offre des performances supérieures dans les opérations intensives en métadonnées.²³ L'approche de métadonnées distribuées crée des petits fichiers, modifie les attributs et structure les répertoires complexes plus efficacement que l'architecture de serveur de métadonnées centralisé de Lustre.²⁴ Storage Scale fournit des performances constantes à travers des schémas d'E/S variés et s'intègre dans les architectures de référence NVIDIA DGX SuperPOD avec support GPUDirect.²⁵
WekaFS cible spécifiquement les charges de travail IA/ML, conçu dès l'origine pour les SSD NVMe plutôt que rétrofité depuis les architectures de disques rotatifs.²⁶ Les métadonnées distribuées de WEKA éliminent le goulot d'étranglement du serveur de métadonnées qui contraint les systèmes de fichiers parallèles hérités.²⁷ Les benchmarks montrent que WekaFS surpasse FSx for Lustre de 300 % ou plus à capacités similaires, avec une latence d'E/S parfois inférieure à 30 % des solutions concurrentes.²⁸ WekaFS supporte les protocoles pNFS, SMB et S3, permettant les schémas d'accès multiprotocoles courants dans les pipelines IA.
DDN, Pure Storage et VAST Data dominent le paysage des fournisseurs
Trois fournisseurs de stockage dominent les déploiements d'infrastructure IA avec des produits spécifiquement architecturés pour les charges de travail des clusters GPU.
DDN alimente les supercalculateurs IA les plus prestigieux. Le système Eos de NVIDIA intègre 576 systèmes DGX H100 avec 48 appliances DDN A³I fournissant 12 pétaoctets de stockage à quatre téraoctets par seconde de débit dans moins de trois racks utilisant seulement 100 kW de puissance.²⁹ DDN a annoncé la certification Blackwell en mars 2025, optimisant EXAScaler et Infinia 2.0 pour DGX SuperPOD avec les systèmes DGX GB200 et DGX B200.³⁰ Un seul DDN AI400X2-Turbo atteint 10 fois l'exigence minimale de 1 Go/s/GPU pour les opérations de lecture et d'écriture couplé au DGX B200, délivrant jusqu'à 96 % d'utilisation réseau.³¹ Le partenariat de DDN avec Yotta pour l'initiative IA souveraine de l'Inde a déployé des systèmes EXAScaler AI400X3 alimentant 8 000 GPU NVIDIA B200.³²
Pure Storage a introduit FlashBlade//EXA en mars 2025, projetant plus de 10 téraoctets par seconde de performance en lecture dans un seul namespace.³³ La plateforme cible les clients exploitant entre un et des dizaines de milliers de GPU nécessitant 1 To/s à 50 To/s de débit de stockage.³⁴ L'architecture désagrégée de FlashBlade//EXA fait évoluer les données et métadonnées indépendamment en utilisant des nœuds de données tiers, permettant des performances parallèles massives.³⁵ Pure Storage a obtenu la certification FlashBlade//S500 avec NVIDIA DGX SuperPOD, intégrant la conception de référence NVIDIA AI Data Platform avec support GPUDirect Storage.³⁶
VAST Data a atteint 2 milliards de dollars en réservations logicielles cumulées en mai 2025.³⁷ L'architecture DASE (Distributed and Shared Everything) fournit un parallélisme révolutionnaire pour les clusters de plus de 100 000 GPU à des téraoctets par seconde, éliminant les goulots d'étranglement de données IA.³⁸ VAST revendique plus de 50 % de coût total de possession inférieur pour les charges de travail IA exigeantes grâce à une efficacité radicale.³⁹ La plateforme supporte des exaoctets de stockage tout-flash avec accès NFS, SMB, S3 et Kubernetes CSI conformes aux standards de l'industrie.⁴⁰ Microsoft Azure a annoncé l'intégration avec le système d'exploitation IA de VAST en novembre 2025 pour étendre les pipelines IA sur site vers une infrastructure cloud accélérée par GPU.⁴¹
Les architectures de checkpointing équilibrent vitesse et fiabilité
Le checkpointing de modèles crée les exigences de stockage les plus exigeantes dans l'entraînement IA. Les tailles de checkpoint évoluent avec le nombre de paramètres : environ 8 à 12 octets par paramètre pour l'entraînement en précision mixte signifie qu'un modèle de 100 milliards de paramètres génère 800 Go à 1,2 To par checkpoint.⁴² Les exigences de fréquence s'intensifient avec l'échelle du cluster, atteignant des checkpoints toutes les 1,5 minutes pour les déploiements de 100 000 accélérateurs.⁴³
Les systèmes d'entraînement modernes emploient des architectures de checkpointing hiérarchisées. Les checkpoints de niveau rapide s'écrivent sur le stockage NVMe local au nœud toutes les quelques minutes. Les checkpoints de niveau intermédiaire se propagent vers les systèmes de fichiers partagés toutes les 30 minutes. Les checkpoints durables n'atteignent le stockage objet comme Amazon S3 que toutes les quelques heures.⁴⁴ Le checkpointing asynchrone permet à l'entraînement de continuer pendant que des processus en arrière-plan drainent le stockage local vers les niveaux globaux.⁴⁵
Les exigences de bande passante de checkpoint global restent étonnamment modestes même à grande échelle. L'analyse de 85 000 checkpoints à travers des systèmes réels a révélé une bande passante typiquement bien en dessous de 1 To/s même pour les modèles de mille milliards de paramètres.⁴⁶ La bande passante de checkpoint par GPU diminue à mesure que la taille du modèle augmente car une seule réplique data-parallel écrit pendant le checkpointing quelle que soit la taille totale du cluster.⁴⁷
Le débit rapporté varie significativement selon les implémentations. Gemini rapporte 3,13 Go/s de débit de checkpoint. Nebula de Microsoft (DeepSpeed) atteint 1-4 Go/s. Ces chiffres reflètent les compromis architecturaux entre fréquence de checkpoint, niveau de stockage et surcharge d'entraînement acceptable.⁴⁸
Le stockage computationnel déplace le traitement vers les données
Les dispositifs de stockage computationnel (CSD) intègrent des fonctions de calcul dans le matériel de stockage, traitant les données avant transfert pour réduire les exigences de bande passante d'E/S.⁴⁹ L'architecture s'avère particulièrement précieuse pour les déploiements IA en périphérie faisant face à des ressources de calcul limitées, des budgets énergétiques stricts et des exigences de latence en temps réel.⁵⁰
Les applications CSD avancées incluent l'exécution de bases de données, de modèles d'apprentissage automatique et d'analyses directement sur les dispositifs de stockage. Certaines implémentations supportent des systèmes d'exploitation Linux complets, permettant l'inférence IA/ML sur le disque lui-même.⁵¹ Les déploiements en périphérie bénéficient du traitement initial au niveau de la couche de stockage, filtrant les résultats avant transmission aux processeurs principaux.⁵²
Cette technologie répond aux contraintes uniques de l'IA en périphérie. L'exécution de l'inférence se déplace de plus en plus vers les dispositifs périphériques pour améliorer l'accessibilité, la personnalisation et l'efficacité.⁵³ Cisco a lancé Unified Edge en novembre 2025, une plateforme informatique intégrée réunissant calcul, réseau, stockage et sécurité pour l'IA en temps réel
[Contenu tronqué pour la traduction]