AI数据管道架构:以100GB/s速度为PB级训练提供数据
更新于2025年12月11日
2025年12月更新: Meta的数据预处理服务(DPP)现已消除EB级训练集群中的数据停顿问题。WEKApod通过8个存储节点实现720GB/s吞吐量,为768块H100 GPU提供支持。PCIe Gen5 NVMe SSD的顺序读取速度已超过14GB/s,正在成为训练层存储的标准配置。特征存储和分层缓存架构将冷数据访问延迟降低了10倍。
Meta发现56%的GPU周期处于停顿状态,等待训练数据。[^1] 该公司在其分布式文件系统Tectonic中存储了EB级的训练数据,但缺乏足够的存储容量来将PB级数据集保存在训练硬件本地。[^2] 解决方案需要构建一个可扩展的数据预处理服务(DPP),以完全消除数据停顿。训练大型模型的组织面临同样的根本挑战:最强大的GPU在等待输入数据时也无能为力。
为AI训练提供数据的存储决定了GPU投资能否带来预期回报。WEKApod实现了超过720GB/s的吞吐量和1800万IOPS,延迟低于150微秒,仅用8个存储节点就能支持768块H100 GPU。[^3] Meta的RSC超级计算机使用46PB的缓存存储来保持GPU的数据供给。[^4] 训练GPT-4大约需要25,000块A100 GPU在90-100天内处理13万亿个token。[^5] 在大规模场景下,数据管道架构与计算架构同等重要。
数据管道挑战
大型语言模型需要访问PB级经过高质量预处理的数据。没有快速、可靠的存储,即使最强大的GPU也只能闲置等待输入。[^6] 存储基础设施的性能层确保数据能够在计算密集型管道阶段之间顺畅流动:归一化、分词和训练。
典型的机器学习管道包括由CPU管理的数据预处理、卸载到GPU的模型训练,以及返回CPU的后处理。[^7] 在CPU RAM和GPU DRAM之间传输数据时会出现瓶颈。存储吞吐量、网络带宽、预处理计算和GPU消耗之间的不匹配会造成停顿,浪费昂贵的加速器容量。
Meta的数据存储和摄取架构
Meta的端到端DSI管道由建立在分布式存储之上的中央数据仓库和独立于训练计算扩展预处理的数据预处理服务组成。[^8] 该架构将存储、预处理和训练分为独立的可扩展层。
Tectonic是Meta的EB级分布式文件系统,为AI训练模型提供分离式存储基础设施。[^9] 该公司在TB到PB级数据集上训练模型,而无需本地存储容量与这些规模相匹配。分离式存储实现了灵活的资源分配,但需要高带宽网络连接存储和计算。
DPP Master接收包含数据集表、分区、所需特征和转换操作的会话规范。[^10] Master将跨PB级数据的预处理工作负载分解为独立、自包含的工作项,称为splits。DPP Workers从Master请求splits并执行预处理转换,将预处理吞吐量与训练节点CPU容量解耦。
存储层次结构和缓存
Meta正在构建结合HDD和SSD的分层存储解决方案,SSD作为高频复用特征的缓存层。[^11] 并非所有训练数据都需要相同的访问模式:频繁访问的特征受益于闪存存储,而冷数据保留在容量优化的介质上。
缓存策略在不牺牲训练吞吐量的情况下降低了存储成本。驻留在快速层的热数据服务于大多数读取,而冷数据在初始epoch期间从容量存储流式传输。理解数据访问模式可以实现在成本和性能之间取得平衡的智能分层决策。
AI训练的存储技术
不同的存储技术在AI数据管道中扮演不同的角色。选择取决于访问模式、容量需求和预算限制。
并行文件系统
Lustre和GPFS等并行文件系统通过大规模并发提供极致性能,使其非常适合同步I/O密集型AI工作负载。[^12] 这些系统将数据条带化分布在多个存储服务器上,提供随服务器数量扩展的聚合带宽。
Google Cloud提供托管Lustre作为Cloud Storage之上的高性能缓存,加速需要极高吞吐量和低延迟I/O操作的AI工作负载。[^13] 组织可以在托管Lustre和Cloud Storage之间导入和导出数据,使用并行文件系统作为活跃训练的性能层,同时在对象存储中维护数据以确保持久性。
NVMe存储
PCIe Gen5 NVMe SSD的顺序读取吞吐量超过14 GB/s,并可处理数百万随机读取IOPS。[^14] 当在数十TB数据上训练AI模型时,该技术消除了存储作为瓶颈的可能。2024-2025年间PCIe Gen5的采用将每通道吞吐量翻倍至约4 GB/s,在x16配置中达到64 GB/s。
NVMe-oF(NVMe over Fabrics)将NVMe性能扩展到网络,实现保持接近本地延迟的分离式存储架构。训练集群可以访问共享NVMe存储池,而不牺牲直连驱动器的性能优势。
冷数据的对象存储
对象存储为可容忍较高延迟的PB级数据集提供经济高效的容量。一家大型电商公司在AWS S3中存储了数百PB的训练数据,AI/ML训练工作负载分布在多个AWS区域和本地数据中心。[^15]
对象存储最适合批量摄取模式,在密集处理开始之前,训练作业将数据加载到更快的层中。从经济角度来看,对象存储适合归档和备份,而性能层处理活跃的训练I/O。
大规模预处理
数据预处理消耗大量计算资源,通常成为阻碍GPU充分利用的瓶颈。Meta的经验表明,训练节点上的CPU无法快速预处理数据以供给GPU,这推动了分布式DPP架构的发展。[^16]
分布式预处理Worker
DPP架构独立于训练节点扩展预处理worker。[^17] 增加预处理容量只需添加worker实例,无需修改训练基础设施。这种分离使组织能够根据特定数据集和转换复杂度合理配置预处理计算资源。
Worker实例执行包括清洗、归一化、分词和特征提取在内的转换操作。复杂的转换需要更多的预处理计算来支持每单位训练吞吐量。简单的转换可能使用最少的预处理资源就能跟上训练速度。
加速预处理
业界正越来越多地在加速器而非CPU上执行预处理转换操作。[^18] NVIDIA DALI(数据加载库)将图像解码、增强和格式转换卸载到GPU。加速预处理消除了图像和视频训练管道中的CPU瓶颈。
将预处理移至GPU需要仔细的管道设计,以避免产生新的瓶颈。用于预处理的GPU内存会减少可用于模型参数和激活值的内存。预处理加速与训练容量之间的权衡取决于工作负载特性。
特征存储
Google建议使用Vertex AI Feature Store来存储准备好进行在线服务的特征。[^19] 特征存储预计算和缓存特征值,消除跨训练运行的重复计算。按所需频率调度特征工程作业定期计算新特征值,可确保数据新鲜度而无需实时预处理开销。
特征存储对于推荐模型特别有价值,因为这类模型的特征计算复杂度超过了每请求的时间预算。训练和推理都可以访问相同的预计算特征,保持开发和生产之间的一致性。
数据管道的网络架构
高带宽互连为分离式存储架构提供了基础。InfiniBand和RoCE(RDMA over Converged Ethernet)提供超低延迟和高吞吐量,这对于跨GPU集群的分布式训练和快速数据集访问至关重要。[^20]
存储网络设计
存储网络必须使聚合读取吞吐量与GPU训练消耗相匹配。由1,000块H100 GPU组成的集群训练数据密集型工作负载可能需要每秒数十GB的持续存储吞吐量。存储层和计算层之间的网络容量必须超过此要求,并留有突发模式的余量。
网络拓扑影响可实现的吞吐量。胖树拓扑提供完整的对分带宽,但成本高于超额订阅设计。具有大量存储I/O的训练工作负载受益于无阻塞架构,消除网络拥塞作为瓶颈。
数据传输优化
数据传输优化技术包括并行I/O、预取、缓存、压缩和数据局部性优化,确保存储系统和计算节点之间的高效数据移动。[^21] 预取可预测数据需求并在计算节点请求之前暂存数据。压缩以计算周期为代价减少网络带宽需求。
批量处理数据可减少事务频率,将每请求开销分摊到更大的传输上。[^22] 过滤数据可在发送到GPU之前最小化样本大小,减少存储读取和网络传输。这些技术的组合可以显著降低有效存储带宽需求。
大规模构建数据管道
部署PB级训练基础设施的组织需要将存储、预处理和网络进行集成的方法,以匹配GPU计算容量。
容量规划
存储容量规划必须考虑训练数据增长和模型扩展。随着组织积累更多数据并追求需要更多token的更大模型,训练数据集不断增长。由于组织为了可重复性而保留多个数据集版本,容量需求会复合增长。
吞吐量规划比容量规划更具挑战性。模型大小、批次大小和数据吞吐量需求之间的关系因架构和训练配置而异。在目标基础设施上对特定工作负载进行基准测试可提供最可靠的吞吐量需求数据。
基础设施部署专业知识
数据管道基础设施的复杂性与计算基础设施的复杂性相当甚至更高。存储系统、高速网络和预处理服务必须与GPU集群无缝集成。任何组件的配置错误都会造成瓶颈,浪费GPU投资。
Introl的550名现场工程师网络专注于大规模AI训练所需的集成基础设施部署。[^23] 该公司在2025年Inc. 5000榜单上排名第14位,三年增长率达9,594%,反映了市场对专业基础设施服务的需求。[^24] 构建训练集群的组织可以从将存储、网络和计算作为集成系统处理的部署专业知识中获益。
管理规模达100,000块GPU、超过40,000英里光纤网络基础设施的部署需要与最大训练计划相匹配的运营规模。