Architecture des pipelines de données IA : Alimenter l'entraînement à l'échelle du pétaoctet à 100 Go/s
Mis à jour le 11 décembre 2025
Mise à jour de décembre 2025 : Le Data PreProcessing Service (DPP) de Meta élimine désormais les blocages de données dans les clusters d'entraînement à l'échelle de l'exaoctet. WEKApod atteint un débit de 720 Go/s depuis 8 nœuds de stockage alimentant 768 GPU H100. Les SSD NVMe PCIe Gen5 dépassant 14 Go/s en lecture séquentielle deviennent la norme pour le stockage de niveau entraînement. Les feature stores et les architectures de cache hiérarchisées réduisent la latence d'accès aux données froides d'un facteur 10.
Meta a découvert que 56 % des cycles GPU restaient bloqués, en attente des données d'entraînement.[^1] L'entreprise stocke des exaoctets de données d'entraînement dans Tectonic, son système de fichiers distribué, mais manquait de capacité de stockage pour conserver les ensembles de données à l'échelle du pétaoctet en local près du matériel d'entraînement.[^2] La solution a nécessité la construction d'un Data PreProcessing Service (DPP) capable de s'adapter pour éliminer complètement les blocages de données. Les organisations entraînant de grands modèles font face au même défi fondamental : les GPU les plus puissants ne produisent rien en attendant les données d'entrée.
Le stockage qui alimente l'entraînement IA détermine si les investissements en GPU offrent les rendements attendus. WEKApod atteint plus de 720 Go/s de débit et 18 millions d'IOPS avec des latences inférieures à 150 microsecondes, alimentant 768 GPU H100 depuis seulement 8 nœuds de stockage.[^3] Le supercalculateur RSC de Meta utilise 46 pétaoctets de stockage cache pour maintenir l'alimentation des GPU.[^4] L'entraînement de GPT-4 a nécessité environ 25 000 GPU A100 traitant 13 000 milliards de tokens sur 90-100 jours.[^5] À grande échelle, l'architecture du pipeline de données devient aussi critique que l'architecture de calcul.
Le défi du pipeline de données
Les grands modèles de langage nécessitent l'accès à des pétaoctets de données prétraitées de haute qualité. Sans stockage rapide et fiable, même les GPU les plus puissants restent inactifs en attente d'entrées.[^6] Le niveau de performance de l'infrastructure de stockage permet le flux continu des données à travers les étapes du pipeline intensives en calcul : normalisation, tokenisation et entraînement.
Un pipeline de machine learning typique implique un prétraitement des données géré par les CPU, un entraînement du modèle déchargé sur les GPU, et un post-traitement renvoyé aux CPU.[^7] Les goulots d'étranglement surviennent lors du transfert des données entre la RAM du CPU et la DRAM du GPU. Le décalage entre le débit de stockage, la bande passante réseau, le calcul de prétraitement et la consommation des GPU crée des blocages qui gaspillent la capacité coûteuse des accélérateurs.
L'architecture de stockage et d'ingestion de données de Meta
Le pipeline DSI de bout en bout de Meta se compose d'un entrepôt de données central construit sur un stockage distribué et d'un Data PreProcessing Service qui adapte le prétraitement indépendamment du calcul d'entraînement.[^8] L'architecture sépare le stockage, le prétraitement et l'entraînement en niveaux distincts et évolutifs.
Tectonic sert de système de fichiers distribué à l'échelle de l'exaoctet pour Meta, fournissant une infrastructure de stockage désagrégée pour les modèles d'entraînement IA.[^9] L'entreprise entraîne des modèles sur des ensembles de données de l'ordre du téraoctet au pétaoctet sans capacité de stockage local correspondant à ces échelles. Le stockage désagrégé permet une allocation flexible des ressources mais nécessite des réseaux à haute bande passante connectant le stockage au calcul.
Le DPP Master reçoit des spécifications de session contenant les tables d'ensembles de données, les partitions, les caractéristiques requises et les opérations de transformation.[^10] Le Master décompose les charges de travail de prétraitement sur des pétaoctets de données en éléments de travail indépendants et autonomes appelés splits. Les DPP Workers demandent des splits au Master et exécutent les transformations de prétraitement, découplant le débit de prétraitement de la capacité CPU des nœuds d'entraînement.
Hiérarchie de stockage et mise en cache
Meta évolue vers des solutions de stockage hiérarchisées combinant HDD et SSD, avec les SSD servant de niveaux de cache pour les caractéristiques à haute réutilisation.[^11] Toutes les données d'entraînement ne nécessitent pas les mêmes schémas d'accès : les caractéristiques fréquemment consultées bénéficient du stockage flash tandis que les données froides restent sur des supports optimisés pour la capacité.
La stratégie de mise en cache réduit les coûts de stockage sans sacrifier le débit d'entraînement. Les données chaudes résidant dans les niveaux rapides servent la majorité des lectures tandis que les données froides sont diffusées depuis le stockage de capacité pendant les premières époques. Comprendre les schémas d'accès aux données permet des décisions de hiérarchisation intelligentes qui équilibrent coût et performance.
Technologies de stockage pour l'entraînement IA
Différentes technologies de stockage remplissent différents rôles dans les pipelines de données IA. Le choix dépend des schémas d'accès, des exigences de capacité et des contraintes budgétaires.
Systèmes de fichiers parallèles
Les systèmes de fichiers parallèles comme Lustre et GPFS offrent des performances extrêmes avec une concurrence massive, les rendant idéaux pour les charges de travail IA intensives en E/S synchrones.[^12] Ces systèmes répartissent les données sur de nombreux serveurs de stockage, fournissant une bande passante agrégée qui évolue avec le nombre de serveurs.
Google Cloud propose Managed Lustre comme cache haute performance au-dessus de Cloud Storage, accélérant les charges de travail IA nécessitant un débit extrêmement élevé et des opérations E/S à faible latence.[^13] Les organisations importent et exportent des données entre Managed Lustre et Cloud Storage, utilisant le système de fichiers parallèle comme niveau de performance pour l'entraînement actif tout en maintenant les données dans le stockage objet pour la durabilité.
Stockage NVMe
Les SSD NVMe PCIe Gen5 dépassent 14 Go/s de débit en lecture séquentielle et gèrent des millions d'IOPS en lecture aléatoire.[^14] Cette technologie élimine le stockage comme goulot d'étranglement lors de l'entraînement de modèles IA sur des dizaines de téraoctets de données. L'adoption de PCIe Gen5 tout au long de 2024-2025 a doublé le débit par voie à environ 4 Go/s par voie, atteignant 64 Go/s dans les configurations x16.
NVMe-oF (NVMe over Fabrics) étend les performances NVMe à travers les réseaux, permettant des architectures de stockage désagrégées qui maintiennent des latences proches du local. Les clusters d'entraînement accèdent à des pools de stockage NVMe partagés sans sacrifier les avantages de performance des disques directement attachés.
Stockage objet pour les données froides
Le stockage objet fournit une capacité économique pour les ensembles de données à l'échelle du pétaoctet qui tolèrent des latences plus élevées. Une grande entreprise de commerce électronique stocke des centaines de pétaoctets de données d'entraînement dans AWS S3, avec des charges de travail d'entraînement IA/ML distribuées sur plusieurs régions AWS et centres de données sur site.[^15]
Le stockage objet fonctionne mieux pour les schémas d'ingestion par lots où les tâches d'entraînement chargent les données dans des niveaux plus rapides avant que le traitement intensif ne commence. L'économie favorise le stockage objet pour l'archivage et la sauvegarde tandis que les niveaux de performance gèrent les E/S d'entraînement actif.
Prétraitement à grande échelle
Le prétraitement des données consomme des ressources de calcul significatives et devient souvent le goulot d'étranglement empêchant l'utilisation complète des GPU. L'expérience de Meta a montré que les CPU sur les nœuds d'entraînement ne pouvaient pas prétraiter les données assez rapidement pour servir les GPU, motivant l'architecture DPP distribuée.[^16]
Workers de prétraitement distribués
L'architecture DPP adapte les workers de prétraitement indépendamment des nœuds d'entraînement.[^17] Ajouter de la capacité de prétraitement ne nécessite que l'ajout d'instances de workers, sans modifier l'infrastructure d'entraînement. Cette séparation permet aux organisations de dimensionner correctement le calcul de prétraitement pour des ensembles de données spécifiques et la complexité des transformations.
Les instances de workers exécutent des opérations de transformation incluant le nettoyage, la normalisation, la tokenisation et l'extraction de caractéristiques. Les transformations complexes nécessitent plus de calcul de prétraitement par unité de débit d'entraînement. Les transformations simples peuvent suivre le rythme de l'entraînement avec des ressources de prétraitement minimales.
Prétraitement accéléré
Les efforts de l'industrie exécutent de plus en plus les opérations de transformation de prétraitement sur des accélérateurs plutôt que sur des CPU.[^18] NVIDIA DALI (Data Loading Library) décharge le décodage d'images, l'augmentation et la conversion de format sur les GPU. Le prétraitement accéléré élimine les goulots d'étranglement CPU pour les pipelines d'entraînement d'images et de vidéos.
Déplacer le prétraitement vers les GPU nécessite une conception soignée du pipeline pour éviter de créer de nouveaux goulots d'étranglement. La mémoire GPU utilisée pour le prétraitement réduit la mémoire disponible pour les paramètres et activations du modèle. Le compromis entre l'accélération du prétraitement et la capacité d'entraînement dépend des caractéristiques de la charge de travail.
Feature stores
Google recommande d'utiliser Vertex AI Feature Store pour les caractéristiques prêtes pour le serving en ligne.[^19] Les feature stores précalculent et mettent en cache les valeurs des caractéristiques, éliminant le calcul répété entre les exécutions d'entraînement. Planifier des tâches d'ingénierie de caractéristiques pour calculer régulièrement de nouvelles valeurs à la cadence requise garantit des données fraîches sans surcharge de prétraitement en temps réel.
Les feature stores s'avèrent particulièrement précieux pour les modèles de recommandation où la complexité du calcul des caractéristiques dépasse les budgets de temps par requête. L'entraînement et l'inférence peuvent tous deux accéder aux mêmes caractéristiques précalculées, maintenant la cohérence entre le développement et la production.
Architecture réseau pour les pipelines de données
Les interconnexions à haute bande passante fournissent la base des architectures de stockage désagrégées. InfiniBand et RoCE (RDMA over Converged Ethernet) offrent une latence ultra-faible et un débit élevé essentiels pour l'entraînement distribué à travers les clusters GPU et l'accès rapide aux ensembles de données.[^20]
Conception du réseau de stockage
Les réseaux de stockage doivent faire correspondre le débit de lecture agrégé à la consommation d'entraînement des GPU. Un cluster de 1 000 GPU H100 entraînant une charge de travail gourmande en données peut nécessiter des dizaines de gigaoctets par seconde de débit de stockage soutenu. La capacité réseau entre les niveaux de stockage et de calcul doit dépasser cette exigence avec une marge pour les schémas de rafales.
La topologie réseau affecte le débit atteignable. Les topologies fat-tree fournissent une bande passante de bisection complète mais coûtent plus cher que les conceptions sur-souscrites. Les charges de travail d'entraînement avec des E/S de stockage intensives bénéficient de fabrics non-bloquants qui éliminent la congestion réseau comme goulot d'étranglement.
Optimisation du transfert de données
Les techniques d'optimisation du transfert de données incluant les E/S parallèles, le préchargement, la mise en cache, la compression et l'optimisation de la localité des données assurent un mouvement efficace des données entre les systèmes de stockage et les nœuds de calcul.[^21] Le préchargement anticipe les besoins en données et prépare les données avant que les nœuds de calcul ne les demandent. La compression réduit les besoins en bande passante réseau au prix de cycles de calcul.
Le regroupement des données réduit la fréquence des transactions, amortissant la surcharge par requête sur des transferts plus importants.[^22] Le filtrage des données minimise la taille des échantillons avant l'envoi aux GPU, réduisant à la fois les lectures de stockage et les transferts réseau. La combinaison de techniques peut réduire significativement les besoins effectifs en bande passante de stockage.
Construire des pipelines de données à grande échelle
Les organisations déployant une infrastructure d'entraînement à l'échelle du pétaoctet ont besoin d'approches intégrées du stockage, du prétraitement et du réseau qui correspondent à la capacité de calcul GPU.
Planification de capacité
La planification de la capacité de stockage doit tenir compte de la croissance des données d'entraînement parallèlement à l'évolution des modèles. Les ensembles de données d'entraînement croissent à mesure que les organisations accumulent plus de données et poursuivent des modèles plus grands nécessitant plus de tokens. Les besoins en capacité se composent à mesure que les organisations conservent plusieurs versions d'ensembles de données pour la reproductibilité.
La planification du débit s'avère plus difficile que la planification de la capacité. La relation entre la taille du modèle, la taille du batch et les besoins en débit de données varie selon l'architecture et la configuration d'entraînement. L'évaluation comparative de charges de travail spécifiques sur l'infrastructure cible fournit les besoins en débit les plus fiables.
Expertise en déploiement d'infrastructure
La complexité de l'infrastructure de pipeline de données égale ou dépasse celle de l'infrastructure de calcul. Les systèmes de stockage, les réseaux haute vitesse et les services de prétraitement doivent s'intégrer parfaitement aux clusters GPU. Les erreurs de configuration dans n'importe quel composant créent des goulots d'étranglement qui gaspillent l'investissement GPU.
Le réseau de 550 ingénieurs de terrain d'Introl se spécialise dans les déploiements d'infrastructure intégrée que nécessite l'entraînement IA à grande échelle.[^23] L'entreprise s'est classée #14 au Inc. 5000 2025 avec une croissance de 9 594 % sur trois ans, reflétant la demande pour des services d'infrastructure professionnels.[^24] Les organisations construisant des clusters d'entraînement bénéficient d'une expertise en déploiement qui traite le stockage, le réseau et le calcul comme un système intégré.
Gérer des déploiements atteignant 100 000 GPU avec plus de 64 000 kilomètres d'infrastructure réseau en fibre optique nécessite une échelle opérationnelle qui correspond aux plus grandes initiatives d'entraînement.