NVMe-oF实施:为10万GPU部署解耦存储

随着PCIe Gen5硬盘提供14GB/s带宽和400GbE网络成为标准配置,NVMe-oF的采用正在加速。NVMe 2.0规范已定稿,改进了多路径和分区命名空间支持....

NVMe-oF实施:为10万GPU部署解耦存储

NVMe-oF实施:为10万GPU部署解耦存储

更新于2025年12月8日

2025年12月更新: 随着PCIe Gen5硬盘提供14GB/s带宽和400GbE网络成为标准配置,NVMe-oF的采用正在加速。NVMe 2.0规范已定稿,改进了多路径和分区命名空间支持。NVIDIA BlueField-3 DPU实现了硬件加速的NVMe-oF,吞吐量达400Gb/s。计算型存储正在兴起,可在数据传输至GPU前进行预处理,针对特定工作负载将带宽需求降低40-60%。

字节跳动的推荐引擎横跨12个数据中心的10万个GPU,却通过NVMe over Fabric技术实现了94%的存储利用率。该技术将85PB的闪存存储汇集成一个单一的逻辑命名空间,任何GPU都可以180GB/s的吞吐量和5微秒的延迟进行访问。¹ 这家中国科技巨头此前为每台GPU服务器分配固定存储,导致40%的容量闲置,而其他节点却面临存储空间不足的问题。他们的NVMe-oF架构现在可以按需动态分配存储块给GPU,在消除4200万美元冗余SSD采购的同时,通过优化数据放置将模型训练速度提升了2.3倍。传统的直连存储架构在超大规模场景下将会崩溃——当管理10万个GPU时,解耦存储与计算的能力决定了是线性扩展还是指数级复杂度。

NVMe over Fabric将NVMe协议扩展到网络结构上,实现近乎本地性能的远程存储访问。实施NVMe-oF的组织报告存储利用率达85-95%,而直连配置仅为50-60%,同时保持低于10微秒的延迟。² 该技术支持多种传输协议,包括RDMA over Converged Ethernet (RoCE)、InfiniBand、Fibre Channel和TCP,其中RoCE部署因以太网的普及性而在AI基础设施中占主导地位。解耦存储架构通过提高利用率将资本支出降低35-45%,实现计算和存储资源的独立扩展,并提供传统架构无法实现的运营灵活性。

NVMe-oF协议基础

NVMe over Fabric在保持NVMe协议效率的同时将其扩展到网络传输。该协议保留了NVMe精简的命令集、并行队列架构和中断驱动模型,同时仅为网络传输增加了最小的开销。典型的NVMe-oF事务与本地NVMe相比仅增加2-8微秒的延迟,在正确配置的网络上可达到本地SSD 95%的性能。³

传输选项决定了性能特性和部署复杂度:

NVMe over RoCE v2 因复用以太网基础设施而在企业部署中占主导地位。RoCE(RDMA over Converged Ethernet)提供内核旁路和零拷贝传输,实现低于5微秒的延迟。使用优先级流控制的无损以太网配置可防止丢包。标准以太网交换机通过适当的固件支持RoCE。部署需要仔细调优服务质量以防止拥塞。

NVMe over InfiniBand 以2-3微秒的延迟提供最低延迟,但需要专用基础设施。InfiniBand基于信用的流控制保证无损传输,无需PFC复杂性。内置的拥塞管理防止负载下的性能下降。较高的成本将其采用限制在性能关键型部署中。原生支持GPU Direct Storage可最大化吞吐量。

NVMe over TCP 使用标准TCP/IP网络提供最大兼容性。纯软件实现不需要特殊硬件。延迟根据网络条件在15-50微秒之间。TCP的拥塞控制和重传增加了开销。适用于成本比性能更重要的容量导向型存储层。

NVMe over Fibre Channel 在企业环境中利用现有的SAN基础设施。FC的无损传输和分区提供存储隔离。延迟通常为10-20微秒。目前限制在32Gbps,而以太网可达400Gbps。主要用于将传统FC环境过渡到NVMe。

面向10万GPU规模的架构设计

将NVMe-oF扩展到10万个GPU需要具有多个聚合层的分层架构:

Leaf-Spine存储网络:存储节点以100-200GbE连接到leaf交换机。每个leaf处理32-48个存储节点,采用2:1超额订阅。spine交换机使用400-800GbE链路互连各leaf。无阻塞spine层防止leaf之间的拥塞。典型部署使用4-8个spine以实现冗余和带宽。

基于Pod的扩展:将基础设施组织成1,000-2,000个GPU的pod,以实现可管理的域。每个pod包含20-40个存储节点的专用存储网络。Pod间连接使用高速DCI(数据中心互连)链路。Pod可独立扩展而不影响其他pod。故障域限制中断的影响范围。

存储节点配置:双路服务器每节点配置24-36个NVMe硬盘。200GbE双端口网卡用于冗余网络连接。512GB-1TB内存用于元数据缓存和缓冲区。用于NVMe-oF处理的硬件卸载功能。管理硬盘池的软件定义存储层。

命名空间架构:全局命名空间提供所有节点的统一存储视图。子命名空间隔离租户或应用程序数据。动态创建/删除命名空间而不中断服务。精简配置防止容量浪费。命名空间共享实现协作工作流。

字节跳动规模的实际部署: - 12个数据中心,每个8,000-10,000个GPU - 2,500个存储节点提供85PB可用容量 - 3层Clos网络配备400GbE spine - 每机架180GB/s聚合吞吐量 - 平均延迟5微秒 - 实现94%存储利用率

实施最佳实践

成功的NVMe-oF部署遵循既定模式:

卓越的网络配置:端到端启用巨型帧(9000 MTU)以提高效率。在所有交换机端口上配置优先级流控制(PFC)以实现无损传输。实施增强传输选择(ETS)进行带宽分配。部署数据中心桥接(DCB)进行统一配置。监控PFC暂停帧统计以检测拥塞。使用VLAN或overlay网络分离存储流量。

服务质量优化:将存储流量分配到最高优先级类别。为存储流保留至少40%的带宽。为流量类别配置加权公平队列。实施速率限制以防止单个流占主导。监控缓冲区利用率以防止丢包。根据工作负载模式调整QoS参数。

冗余和高可用性:将存储节点双宿连接到不同交换机。实施主动-主动路径的多路径I/O。配置50毫秒或更短的自动路径故障切换。使用一致性哈希进行数据分布。保持3路复制或纠删码以确保持久性。在组件级别设计N+2冗余。

安全实施:启用IPsec或TLS进行传输加密。实施基于区域的访问控制以实现隔离。为NVMe-oF连接使用认证密钥。部署微分段以限制横向移动。审计所有存储访问以满足合规要求。定期进行安全漏洞扫描。

Introl在我们的全球覆盖区域内为超大规模AI基础设施设计和部署NVMe-oF架构,拥有管理支持多达10万GPU的解耦存储系统的成熟专业知识。⁴ 我们的团队已实施超过50个NVMe-oF部署,规模从1PB到100PB不等。

性能优化技术

实现最大NVMe-oF性能需要系统性优化:

CPU和中断调优:将NVMe-oF中断固定到专用CPU核心以避免调度器开销。禁用CPU频率调节以获得一致性能。配置NUMA亲和性以实现本地内存访问。增加中断合并以减少CPU使用率。启用自适应中断调节以进行动态优化。监控CPU利用率以识别瓶颈。

内存和缓冲区管理:为NVMe-oF缓冲区分配大页以减少TLB缺失。为高吞吐量工作负载调优内核内存设置。为网络栈配置适当的套接字缓冲区大小。实施内存池以减少分配开销。监控内存带宽利用率。通过仔细分配防止内存碎片。

存储栈优化:将I/O大小与SSD页边界对齐以提高效率。每个连接配置256-1024的队列深度。启用控制器内存缓冲区(CMB)以降低延迟。实施针对NVMe特性优化的I/O调度。禁用不必要的功能如日志记录。监控SSD磨损均衡和垃圾回收。

工作负载放置智能:实施数据局部性算法,使热数据靠近计算。使用一致性哈希实现可预测的数据分布。在存储节点之间平衡容量和性能。根据访问模式迁移数据。在更快的层中缓存频繁访问的数据。使用ML模型预测未来访问模式。

生产部署的性能指标: - 4KB随机读:每存储节点1500万IOPS - 128KB顺序读:每存储节点180GB/s - 平均延迟:RoCE上5-7微秒 - 尾延迟(p99.9):25微秒 - CPU开销:饱和工作负载8-12%

常见问题排查

NVMe-oF部署面临需要特定解决方案的典型挑战:

高延迟尖峰: 症状:延迟周期性从5μs增加到500μs 原因:PFC风暴、缓冲区耗尽、TCP重传 解决方案:调优PFC阈值、增加交换机缓冲区、隔离存储流量 监控:跟踪暂停帧持续时间和频率

吞吐量下降: 症状:性能从180GB/s下降到50GB/s 原因:网络拥塞、SSD热节流、CPU瓶颈 解决方案:实施流量整形、改善散热、横向扩展存储节点 监控:测量每链路利用率和SSD温度

连接失败: 症状:NVMe-oF连接随机断开 原因:认证问题、网络抖动、驱动程序bug 解决方案:验证凭据、检查线缆/光模块、更新驱动程序/固件 监控:记录连接状态变化和错误计数器

容量不平衡: 症状:部分节点容量达95%而其他节点仅40% 原因:数据放置不当、工作负载倾斜、重平衡失败 解决方案:实施更好的哈希、主动迁移数据、修复自动化 监控:跟踪每节点容量和IOPS分布

真实部署案例研究

Meta - 训练基础设施现代化: - 挑战:50,000个GPU,存储利用率60% - 解决方案:部署40PB解耦存储的NVMe-oF - 架构:200GbE以太网网络上的RoCE v2 - 成果:90%利用率,模型训练速度提升2.1倍 - 投资:存储采购节省4500万美元 - 关键创新:使用访问模式的预测性数据放置

金融服务公司 - 行情数据分析: - 规模:5,000个GPU处理每天10TB市场数据 - 存储:5PB NVMe-oF池,亚毫秒级访问 - 网络:InfiniBand网络实现确定性延迟 - 性能:实现平均延迟3微秒 - 收益:对20年历史数据进行实时分析 - 架构:NVMe和Optane PMem的分层存储

自动驾驶公司 - 仿真平台: - 数据集:100PB驾驶录像和传感器数据 - 基础设施:8,000个GPU配备集中存储 - 技术:NVMe-oF over TCP以优化成本 - 吞吐量:500GB/s聚合

[内容因翻译需要而截断]

申请报价_

告诉我们您的项目需求,我们将在72小时内回复。

> 传输完成

请求已收到_

感谢您的咨询。我们的团队将审核您的请求并在72小时内回复。

排队处理中