AI优化存储:支撑GPU集群的技术栈
更新于2025年12月11日
2025年12月更新: AI存储市场正从2025年的360亿美元增长至2035年的3220亿美元。DDN EXAScaler为NVIDIA Eos超级计算机提供4TB/s的传输速率。GPUDirect Storage实现40+ GB/s的直接传输;NVIDIA于2025年11月发布的SCADA技术消除了最后的CPU参与环节。随着企业将PCIe级延迟扩展到网络层面,NVMe-oF正以27.8%的复合年增长率快速发展。
存储瓶颈会导致GPU闲置。仅凭一套DDN EXAScaler部署,就能以每秒4TB的速度为NVIDIA Eos超级计算机提供数据支持,该系统由576台DGX H100组成,可提供18.4 exaflops的AI性能。¹ 当单个GPU成本高达数万美元,训练集群规模达到数千个加速器时,无法维持数据吞吐量的存储基础设施将浪费数百万美元的计算资源。AI驱动的存储市场反映出这一紧迫性——预计将从2025年的362.8亿美元增长至2035年的3219.3亿美元,复合年增长率达24.4%。²
现代AI工作负载对存储性能的要求与传统企业应用有着本质区别。以PB级计量的训练数据集需要持续的顺序吞吐量。检查点操作必须在数秒内完成,以最大限度减少训练中断。推理工作负载产生不可预测的I/O模式,混合着小型随机读取和突发写入。大规模部署AI基础设施的企业现在基于GPU利用率指标而非传统IOPS基准来评估存储系统。
NVMe-oF将闪存性能扩展到网络层面
NVMe over Fabrics (NVMe-oF) 通过高性能以太网或InfiniBand fabric实现NVMe SSD的低延迟共享,从而支持大规模高性能工作负载。³ 该协议提供与本地连接NVMe SSD相近的性能,同时允许企业独立于计算、GPU和内存分配来扩展存储资源。⁴
传统存储协议通过针对机械硬盘优化的软件栈增加了数毫秒的延迟。NVMe-oF消除了这些层级,即使使用RDMA传输扩展到数千节点,也能实现数十微秒级的延迟。⁵ TCP传输支持在通用以太网上部署,与传统NFS或iSCSI协议相比仍能提供显著的性能提升。⁶
对于AI基础设施而言,NVMe-oF在以下场景中至关重要:训练管道中GPU等待数据而闲置、检查点操作必须在严格时间窗口内完成、以及推理工作负载需要亚毫秒级响应时间。⁷ 公开基准测试显示,集成GPUDirect Storage后顺序读取可达351 GiB/秒,预计在I/O受限配置中延迟降低可将有效GPU利用率提升2至3倍。⁸
行业采用在2025年加速推进。2025年5月,Western Digital与Ingrasys建立合作伙伴关系,结合GPU服务器专业技术与NVMe-oF及fabric连接存储能力。⁹ 2025年11月,Hitachi Vantara推出Virtual Storage Platform One Block High End,这是一款专为关键任务和AI工作负载设计的下一代全闪存NVMe块存储解决方案。¹⁰ 随着企业将PCIe级延迟扩展到网络层面以提升分布式AI集群中的GPU利用率,NVMe-oF系统预计复合年增长率将达27.80%。¹¹
GPUDirect Storage消除CPU瓶颈
NVIDIA的GPUDirect Storage支持从存储到GPU内存的直接数据传输,无需经过CPU和系统内存。¹² 该技术消除了AI训练管道中的根本性能障碍——大型数据集必须持续流入GPU内存进行处理。
深度学习训练涉及频繁的检查点操作,在训练的各个阶段将训练好的网络权重保存到磁盘。从定义上讲,检查点处于关键I/O路径上。¹³ 一个1000亿参数的模型每次检查点大约产生800GB至1.6TB数据,在16000个加速器规模下训练每天需要155次检查点。¹⁴ 为将开销控制在5%以下,该规模下检查点操作必须在28秒内完成,对于10万加速器集群则缩短至4.4秒。¹⁵
GPUDirect Storage通过实现40+ GBps的存储到GPU内存直接传输速率来满足这些需求。¹⁶ Lenovo/NVIDIA参考架构可为每个节点提供20 GBps的传输速率,并具备线性扩展能力,支持LLM训练、推理和检查点功能。¹⁷ NVIDIA于2025年11月发布的SCADA技术进一步扩展了GPUDirect,将存储控制路径也卸载到GPU,消除了存储操作中最后的CPU参与环节。¹⁸
硬件实现在整个生态系统中不断涌现。HighPoint Rocker 7638D适配器支持高达64 GB/s带宽和可预测延迟的GPUDirect Storage工作流,特别适用于大规模训练数据集。¹⁹ DDN、Pure Storage、WEKA和VAST Data等存储供应商已为其平台通过了与NVIDIA DGX和HGX系统的GPUDirect集成认证。
并行文件系统驱动百亿亿级AI
并行文件系统将数据和元数据分布在多个服务器上,实现随存储节点数量扩展的聚合吞吐量。三个平台主导着AI和HPC部署:Lustre、IBM Storage Scale(原GPFS)和WekaFS。
Lustre在并行文件系统市场占据41%的份额,其次是IBM Storage Scale的17%和WEKA的6%。²⁰ 每种架构针对不同的工作负载特性进行优化。
Lustre 在以大型顺序操作为主的环境中表现出色,包括科学模拟和视频渲染管道。²¹ 该架构优先考虑持续带宽而非小文件处理,通过增加对象存储服务器(OSS)可实现带宽密集型工作负载的近线性性能扩展。²² Lustre与InfiniBand fabric配合效果最佳,为全球大多数超级计算机提供支持。DDN的EXAScaler产品将Lustre与性能优化和企业管理功能打包在一起。
IBM Storage Scale 在元数据密集型操作中提供卓越性能。²³ 与Lustre的集中式元数据服务器架构相比,分布式元数据方法在创建小文件、修改属性和构建复杂目录结构方面效率更高。²⁴ Storage Scale在不同I/O模式下提供一致的性能,并集成到支持GPUDirect的NVIDIA DGX SuperPOD参考架构中。²⁵
WekaFS 专门针对AI/ML工作负载设计,从一开始就为NVMe SSD构建,而非从机械硬盘架构改造而来。²⁶ WEKA的分布式元数据消除了困扰传统并行文件系统的元数据服务器瓶颈。²⁷ 基准测试显示,在相同容量下WekaFS性能比FSx for Lustre高出300%或更多,I/O延迟有时不到竞争解决方案的30%。²⁸ WekaFS支持pNFS、SMB和S3协议,满足AI管道中常见的多协议访问模式。
DDN、Pure Storage和VAST Data引领供应商格局
三家存储供应商以专门为GPU集群工作负载设计的产品主导AI基础设施部署。
DDN 为最知名的AI超级计算机提供支持。NVIDIA的Eos系统集成576台DGX H100,配备48个DDN A³I设备,仅用不到3个机架和100 kW功耗就提供12 PB存储和每秒4TB的吞吐量。²⁹ DDN于2025年3月宣布获得Blackwell认证,针对配备DGX GB200和DGX B200系统的DGX SuperPOD优化EXAScaler和Infinia 2.0。³⁰ 单个DDN AI400X2-Turbo与DGX B200配对时,读写操作均达到1 GBps/GPU最低要求的10倍,网络利用率高达96%。³¹ DDN与Yotta合作的印度主权AI计划部署了EXAScaler AI400X3系统,为8000个NVIDIA B200 GPU提供支持。³²
Pure Storage 于2025年3月推出FlashBlade//EXA,预计在单个命名空间内可实现超过每秒10TB的读取性能。³³ 该平台面向运行1个到数万个GPU、需要1 TB/秒到50 TB/秒存储吞吐量的客户。³⁴ FlashBlade//EXA的解耦架构使用第三方数据节点独立扩展数据和元数据,实现大规模并行性能。³⁵ Pure Storage的FlashBlade//S500已通过NVIDIA DGX SuperPOD认证,集成支持GPUDirect Storage的NVIDIA AI数据平台参考设计。³⁶
VAST Data 到2025年5月累计软件订单达到20亿美元。³⁷ DASE(分布式共享一切)架构为10万+ GPU集群提供每秒TB级的突破性并行能力,消除AI数据瓶颈。³⁸ VAST声称通过极致效率,针对高要求AI工作负载可降低50%以上的总拥有成本。³⁹ 该平台支持EB级全闪存存储,提供行业标准NFS、SMB、S3和Kubernetes CSI访问。⁴⁰ 2025年11月,微软Azure宣布与VAST的AI操作系统集成,用于将本地AI管道扩展到GPU加速的云基础设施。⁴¹
检查点架构平衡速度与可靠性
模型检查点在AI训练中产生最苛刻的存储需求。检查点大小随参数数量扩展:混合精度训练大约每个参数需要8至12字节,意味着1000亿参数模型每次检查点产生800GB至1.2TB数据。⁴² 频率要求随集群规模加剧,10万加速器部署需要每1.5分钟进行一次检查点。⁴³
现代训练系统采用分层检查点架构。快速层检查点每隔几分钟写入节点本地NVMe存储。中间层检查点每30分钟传播到共享文件系统。持久检查点仅每隔几小时才到达Amazon S3等对象存储。⁴⁴ 异步检查点允许训练继续进行,同时后台进程将本地存储数据转移到全局层。⁴⁵
即使在大规模情况下,全局检查点带宽需求也出奇地适中。对真实系统中85000次检查点的分析发现,即使对于万亿参数模型,带宽通常也远低于1 TB/s。⁴⁶ 随着模型规模增长,每GPU检查点带宽反而降低,因为无论总集群规模如何,检查点期间只有单个数据并行副本进行写入。⁴⁷
不同实现报告的吞吐量差异显著。Gemini报告3.13 GB/s检查点吞吐量。微软的Nebula(DeepSpeed)达到1-4 GB/s。这些数字反映了检查点频率、存储层级和可接受训练开销之间的架构权衡。⁴⁸
计算存储将处理移至数据端
计算存储设备(CSD)在存储硬件中嵌入计算功能,在传输前处理数据以减少I/O带宽需求。⁴⁹ 该架构对面临有限计算资源、严格功耗预算和实时延迟要求的边缘AI部署特别有价值。⁵⁰
高级CSD应用包括直接在存储设备上运行数据库、机器学习模型和分析。一些实现支持完整的Linux操作系统,可在驱动器本身上进行AI/ML推理。⁵¹ 边缘部署受益于存储层的初始处理,在传输到主处理器之前过滤结果。⁵²
该技术解决了边缘AI的独特约束。为提高可访问性、可定制性和效率,推理正越来越多地转移到边缘设备上运行。⁵³ Cisco于2025年11月推出Unified Edge,这是一个集成计算、网络、存储和安全的统一计算平台,用于实时AI
[内容因翻译需要已截断]