AI-datapijplijnarchitectuur: Petabyte-schaal training voeden met 100GB/s
Bijgewerkt op 11 december 2025
Update december 2025: Meta's Data PreProcessing Service (DPP) elimineert nu datastalls in exabyte-schaal trainingsclusters. WEKApod behaalt 720GB/s doorvoer van 8 opslagknooppunten die 768 H100 GPU's aandrijven. PCIe Gen5 NVMe SSD's die 14GB/s sequentiële leessnelheden overschrijden worden standaard voor trainingstier-opslag. Feature stores en gelaagde caching-architecturen verminderen latentie bij toegang tot koude data met 10x.
Meta ontdekte dat 56% van de GPU-cycli stilviel, wachtend op trainingsdata.[^1] Het bedrijf slaat exabytes aan trainingsdata op in Tectonic, hun gedistribueerde bestandssysteem, maar miste de opslagcapaciteit om petabyte-schaal datasets lokaal bij trainingshardware te houden.[^2] De oplossing vereiste het bouwen van een Data PreProcessing Service (DPP) die schaalt om datastalls volledig te elimineren. Organisaties die grote modellen trainen staan voor dezelfde fundamentele uitdaging: de krachtigste GPU's bereiken niets terwijl ze wachten op invoerdata.
De opslag die AI-training voedt bepaalt of GPU-investeringen het verwachte rendement opleveren. WEKApod behaalt meer dan 720GB/s doorvoer en 18 miljoen IOPS met latenties onder de 150 microseconden, en drijft 768 H100 GPU's aan vanuit slechts 8 opslagknooppunten.[^3] Meta's RSC-supercomputer gebruikt 46 petabytes aan cache-opslag om GPU's gevoed te houden.[^4] Het trainen van GPT-4 vereiste ongeveer 25.000 A100 GPU's die 13 biljoen tokens verwerkten gedurende 90-100 dagen.[^5] Op schaal wordt datapijplijnarchitectuur net zo kritiek als compute-architectuur.
De datapijplijn-uitdaging
Grote taalmodellen vereisen toegang tot petabytes aan hoogwaardige, voorbewerkte data. Zonder snelle, betrouwbare opslag zitten zelfs de krachtigste GPU's werkeloos te wachten op invoer.[^6] De prestatieklasse van opslaginfrastructuur maakt de naadloze doorstroom van data door rekenintensieve pijplijnfasen mogelijk: normalisatie, tokenisatie en training.
Een typische machine learning-pijplijn omvat datavoorbewerking beheerd door CPU's, modeltraining uitbesteed aan GPU's, en naverwerking teruggebracht naar CPU's.[^7] Knelpunten ontstaan bij het overdragen van data tussen CPU RAM en GPU DRAM. De mismatch tussen opslagdoorvoer, netwerkbandbreedte, voorverwerkingsrekenkracht en GPU-verbruik creëert stalls die dure acceleratorcapaciteit verspillen.
Meta's data-opslag en -ingestie-architectuur
Meta's end-to-end DSI-pijplijn bestaat uit een centraal datawarehouse gebouwd op gedistribueerde opslag en een Data PreProcessing Service die voorbewerking onafhankelijk van trainingsrekenkracht schaalt.[^8] De architectuur scheidt opslag, voorbewerking en training in afzonderlijke schaalbare lagen.
Tectonic dient als Meta's exabyte-schaal gedistribueerd bestandssysteem, dat gedisaggregeerde opslaginfrastructuur biedt voor AI-trainingsmodellen.[^9] Het bedrijf traint modellen op terabyte- tot petabyte-schaal datasets zonder lokale opslagcapaciteit die overeenkomt met die schalen. Gedisaggregeerde opslag maakt flexibele resource-allocatie mogelijk maar vereist netwerken met hoge bandbreedte die opslag met rekenkracht verbinden.
De DPP Master ontvangt sessiespecificaties met datasettabellen, partities, vereiste features en transformatie-operaties.[^10] De Master verdeelt voorverwerkingsworkloads over petabytes aan data in onafhankelijke, op zichzelf staande werkeenheden genaamd splits. DPP Workers vragen splits aan bij de Master en voeren voorverwerkingstransformaties uit, waarbij voorverwerkingsdoorvoer wordt losgekoppeld van de CPU-capaciteit van trainingsknooppunten.
Opslaghiërarchie en caching
Meta bouwt naar gelaagde opslagoplossingen die HDD's en SSD's combineren, waarbij SSD's dienen als caching-lagen voor veelgebruikte features.[^11] Niet alle trainingsdata vereist dezelfde toegangspatronen: frequent benaderde features profiteren van flash-opslag terwijl koude data op capaciteitsgeoptimaliseerde media blijft.
De caching-strategie verlaagt opslagkosten zonder trainingsdoorvoer op te offeren. Hete data in snelle lagen bedient het merendeel van de reads terwijl koude data vanuit capaciteitsopslag streamt tijdens initiële epochs. Het begrijpen van datatoegangspatronen maakt intelligente gelaagdheidsbeslissingen mogelijk die kosten tegen prestaties afwegen.
Opslagtechnologieën voor AI-training
Verschillende opslagtechnologieën vervullen verschillende rollen in AI-datapijplijnen. De keuze hangt af van toegangspatronen, capaciteitsvereisten en budgetbeperkingen.
Parallelle bestandssystemen
Parallelle bestandssystemen zoals Lustre en GPFS leveren extreme prestaties met massieve concurrency, waardoor ze ideaal zijn voor synchrone I/O-intensieve AI-workloads.[^12] Deze systemen stripen data over veel opslagservers, wat geaggregeerde bandbreedte biedt die schaalt met serveraantal.
Google Cloud biedt Managed Lustre als hoogpresterende cache bovenop Cloud Storage, wat AI-workloads versnelt die extreem hoge doorvoer en I/O-operaties met lage latentie vereisen.[^13] Organisaties importeren en exporteren data tussen Managed Lustre en Cloud Storage, waarbij het parallelle bestandssysteem als prestatielaag voor actieve training wordt gebruikt terwijl data in objectopslag wordt behouden voor duurzaamheid.
NVMe-opslag
PCIe Gen5 NVMe SSD's overschrijden 14 GB/s sequentiële leesdoorvoer en verwerken miljoenen random read IOPS.[^14] De technologie elimineert opslag als knelpunt bij het trainen van AI-modellen op tientallen terabytes aan data. PCIe Gen5-adoptie gedurende 2024-2025 verdubbelde de doorvoer per lane naar ongeveer 4 GB/s per lane, met 64 GB/s in x16-configuraties.
NVMe-oF (NVMe over Fabrics) breidt NVMe-prestaties uit over netwerken, wat gedisaggregeerde opslagarchitecturen mogelijk maakt die bijna-lokale latenties behouden. Trainingsclusters benaderen gedeelde NVMe-opslagpools zonder de prestatievoordelen van direct-attached drives op te offeren.
Objectopslag voor koude data
Objectopslag biedt kosteneffectieve capaciteit voor petabyte-schaal datasets die hogere latenties tolereren. Een groot e-commercebedrijf slaat honderden petabytes aan trainingsdata op in AWS S3, met AI/ML-trainingsworkloads verdeeld over meerdere AWS-regio's en on-premises datacenters.[^15]
Objectopslag werkt het beste voor batch-ingestiepatronen waarbij trainingsjobs data laden in snellere lagen voordat intensieve verwerking begint. De economie begunstigt objectopslag voor archief en backup terwijl prestatielagen actieve training-I/O afhandelen.
Voorbewerking op schaal
Datavoorbewerking verbruikt aanzienlijke rekenkracht en wordt vaak het knelpunt dat volledige GPU-benutting verhindert. Meta's ervaring toonde aan dat CPU's op trainerknooppunten data niet snel genoeg konden voorbewerken om GPU's te bedienen, wat de gedistribueerde DPP-architectuur motiveerde.[^16]
Gedistribueerde voorverwerkingsworkers
De DPP-architectuur schaalt voorverwerkingsworkers onafhankelijk van trainingsknooppunten.[^17] Het toevoegen van voorverwerkingscapaciteit vereist alleen het toevoegen van worker-instanties, geen wijziging van trainingsinfrastructuur. De scheiding stelt organisaties in staat voorverwerkingsrekenkracht op maat te maken voor specifieke datasets en transformatiecomplexiteit.
Worker-instanties voeren transformatie-operaties uit waaronder schoonmaken, normalisatie, tokenisatie en feature-extractie. Complexe transformaties vereisen meer voorverwerkingsrekenkracht per trainingsdoorvoer-eenheid. Eenvoudige transformaties kunnen de training bijhouden met minimale voorverwerkingsmiddelen.
Versnelde voorbewerking
Industrie-inspanningen voeren voorverwerkingstransformatie-operaties steeds vaker uit op accelerators in plaats van CPU's.[^18] NVIDIA DALI (Data Loading Library) laadt beelddecodering, augmentatie en formaatconversie uit naar GPU's. Versnelde voorbewerking elimineert CPU-knelpunten voor beeld- en videotrainingspijplijnen.
Het verplaatsen van voorbewerking naar GPU's vereist zorgvuldig pijplijnontwerp om het creëren van nieuwe knelpunten te vermijden. GPU-geheugen gebruikt voor voorbewerking vermindert geheugen beschikbaar voor modelparameters en activaties. De afweging tussen voorverwerkingsversnelling en trainingscapaciteit hangt af van workloadkenmerken.
Feature stores
Google raadt aan Vertex AI Feature Store te gebruiken voor features die klaar zijn voor online serving.[^19] Feature stores berekenen feature-waarden vooraf en cachen ze, waardoor herhaalde berekening over trainingsruns wordt geëlimineerd. Het plannen van feature engineering-jobs om regelmatig nieuwe feature-waarden te berekenen met de vereiste cadans zorgt voor verse data zonder real-time voorverwerkingsoverhead.
Feature stores zijn bijzonder waardevol voor aanbevelingsmodellen waar feature-berekeningscomplexiteit per-request-tijdbudgetten overschrijdt. Zowel training als inference kunnen dezelfde voorberekende features benaderen, wat consistentie tussen ontwikkeling en productie behoudt.
Netwerkarchitectuur voor datapijplijnen
Hoge-bandbreedte-interconnects vormen de basis voor gedisaggregeerde opslagarchitecturen. InfiniBand en RoCE (RDMA over Converged Ethernet) leveren ultralage latentie en hoge doorvoer die essentieel zijn voor gedistribueerde training over GPU-clusters en snelle datasettoegang.[^20]
Opslagnetwerkontwerp
Opslagnetwerken moeten geaggregeerde leesdoorvoer matchen met GPU-trainingsverbruik. Een cluster van 1.000 H100 GPU's die een data-hongerige workload trainen kan tientallen gigabytes per seconde aan aanhoudende opslagdoorvoer vereisen. Netwerkcapaciteit tussen opslag- en rekenlagen moet deze vereiste overschrijden met speelruimte voor burst-patronen.
Netwerktopologie beïnvloedt haalbare doorvoer. Fat-tree-topologieën bieden volledige bisectie-bandbreedte maar kosten meer dan oversubscribed ontwerpen. Trainingsworkloads met zware opslag-I/O profiteren van non-blocking fabrics die netwerkcongestie als knelpunt elimineren.
Datatransferoptimalisatie
Datatransferoptimalisatietechnieken waaronder parallelle I/O, prefetching, caching, compressie en datalocaliteitsoptimalisatie zorgen voor efficiënte dataverplaatsing tussen opslagsystemen en rekenknooppunten.[^21] Prefetching anticipeert op datavereisten en stageert data voordat rekenknooppunten erom vragen. Compressie vermindert netwerkbandbreedtevereisten ten koste van rekencycli.
Batching van data vermindert transactiefrequentie, waarbij per-request-overhead wordt geamortiseerd over grotere transfers.[^22] Filteren van data minimaliseert samplegrootte voordat naar GPU's wordt verzonden, wat zowel opslagreads als netwerktransfers vermindert. De combinatie van technieken kan effectieve opslagbandbreedtevereisten aanzienlijk verminderen.
Datapijplijnen bouwen op schaal
Organisaties die petabyte-schaal trainingsinfrastructuur implementeren hebben geïntegreerde benaderingen nodig voor opslag, voorbewerking en netwerken die matchen met GPU-rekencapaciteit.
Capaciteitsplanning
Opslagcapaciteitsplanning moet rekening houden met groei van trainingsdata naast modelschaling. Trainingsdatasets groeien naarmate organisaties meer data verzamelen en grotere modellen nastreven die meer tokens vereisen. Capaciteitsvereisten stapelen zich op naarmate organisaties meerdere datasetversies behouden voor reproduceerbaarheid.
Doorvoerplanning blijkt uitdagender dan capaciteitsplanning. De relatie tussen modelgrootte, batchgrootte en datadoorvoervereisten varieert per architectuur en trainingsconfiguratie. Benchmarking van specifieke workloads op doelinfrastructuur biedt de meest betrouwbare doorvoervereisten.
Infrastructuurimplementatie-expertise
Datapijplijninfrastructuurcomplexiteit evenaart of overtreft compute-infrastructuurcomplexiteit. Opslagsystemen, hogesnelheidsnetwerken en voorverwerkingsdiensten moeten naadloos integreren met GPU-clusters. Configuratiefouten in enig component creëren knelpunten die GPU-investeringen verspillen.
Introl's netwerk van 550 field engineers specialiseren zich in de geïntegreerde infrastructuurimplementaties die grootschalige AI-training vereist.[^23] Het bedrijf stond op #14 in de 2025 Inc. 5000 met 9.594% driejaarsgroei, wat de vraag naar professionele infrastructuurdiensten weerspiegelt.[^24] Organisaties die trainingsclusters bouwen profiteren van implementatie-expertise die opslag, netwerken en rekenkracht als geïntegreerd systeem behandelt.
Het beheren van implementaties die 100.000 GPU's bereiken met meer dan 64.000 kilometer glasvezelnetwerkinfrastructuur vereist operationele schaal die de grootste trainingsinitiatieven evenaart.