强化学习基础设施:用于RLHF和机器人技术的GPU集群
更新于2025年12月11日
2025年12月更新: RLHF训练80%的计算资源用于样本生成——吞吐量优化至关重要。OpenRLHF通过基于Ray的模型分离技术实现70B+参数RLHF跨GPU训练。NVIDIA三计算机架构:DGX用于训练,Omniverse用于仿真,Jetson Thor用于机器人端推理。vLLM加速技术显著提升样本生成吞吐量。
RLHF训练80%的计算时间用于样本生成,这使得吞吐量优化成为那些致力于将大语言模型与人类偏好对齐的组织面临的关键基础设施挑战。[^1] OpenRLHF作为首个高性能开源框架,通过将Actor、Reward、Reference和Critic模型分离到不同GPU上,实现了70B+参数的RLHF训练。[^2] 与此同时,NVIDIA针对物理AI的三计算机架构将DGX超级计算机(用于训练)、Omniverse服务器(用于仿真)和Jetson AGX Thor(用于机器人端推理)连接在一起。[^3] 强化学习工作负载需要与标准监督训练截然不同的基础设施模式,构建RL能力的组织需要根据这些差异做出架构决策。
基础设施的差异从内存需求开始。现有RLHF框架难以满足70B+参数模型的巨大内存需求,限制了对齐技术的全部潜力。[^4] 过度的模型跨GPU分区导致单个设备上的内存碎片化,降低了有效批处理大小并减慢了整体训练速度。机器人仿真增加了另一个维度:并行训练数百或数千个机器人实例需要GPU加速的物理引擎与神经网络训练同时运行。[^5]
RLHF基础设施模式
基于人类反馈的强化学习涉及协调多个不同阶段,这些阶段对基础设施有不同的要求。奖励建模训练一个模型来预测人类偏好。然后RL阶段使用奖励模型来指导策略优化。两个阶段都同时涉及大模型推理和训练,产生标准监督学习中不存在的资源竞争模式。
多模型协调
RLHF训练需要同时运行四个模型:Actor(正在训练的策略模型)、Reward模型(对响应评分)、Reference模型(防止分布漂移)和Critic模型(估计价值函数)。[^6] 每个模型可能达到数百亿参数。管理四个70B模型之间的内存分配和计算调度,其复杂性超出了典型训练基础设施的范畴。
OpenRLHF通过Ray(一个分布式任务调度器)解决多模型挑战,智能地在GPU之间分配模型而不过度分区。[^7] 该框架利用Hybrid Engine调度,允许所有模型和vLLM推理引擎共享GPU资源。这种方法通过在训练和推理阶段之间动态重新平衡资源来最小化空闲时间并最大化利用率。
样本生成瓶颈
80%的计算时间用于样本生成,这反映了RLHF的一个基本特征:策略模型必须生成完整响应,然后才能进行奖励评分。[^8] 标准训练将静态数据批量通过前向和反向传播。RLHF在每一步都生成新样本,产生主导实际运行时间的推理瓶颈。
vLLM加速通过优化的内存管理和跨多个GPU的并行处理,显著提高了样本生成吞吐量。[^9] OpenRLHF中的Auto Tensor Parallelism(AutoTP)自动在可用GPU之间分配推理,实现高吞吐量生成,为训练阶段持续提供新鲜样本。
系统级优化(2025年)
研究团队在2024年和2025年期间开发了多种方法来提高RLHF吞吐量。RLHFuse、AReal和Verl通过细粒度并行性提高吞吐量,将模型协同定位以减少通信开销,并动态扩展GPU资源以匹配工作负载需求。[^10]
Verl、RLHFuse、ReaL和PUZZLE将不同阶段的LLM协同定位在同一资源池中,当单个模型会使资源闲置时提高GPU利用率。[^11] StreamRL将训练和生成阶段分离,在流水线中异步运行,利用专用推理集群的高内存带宽优势。
OPPO(Pipeline Overlap for PPO)通过重叠先前按顺序运行的计算阶段实现额外的加速。[^12] 该技术通过在前一批次完成之前启动后续批次来减少空闲时间,以略微增加内存使用为代价换取更高的吞吐量。
物理AI和机器人基础设施
机器人应用在神经网络训练之外引入了仿真需求。机器人必须在仿真环境中学习后才能在真实世界中部署,这需要以使强化学习切实可行的速度运行物理精确的虚拟世界。
NVIDIA的三计算机架构
NVIDIA为物理AI开发设计了一套完整的技术栈,涵盖训练、仿真和部署。[^13] DGX AI超级计算机以大规模RL所需的计算密度处理模型训练。在RTX PRO服务器上运行的Omniverse和Cosmos提供仿真环境,机器人在基于物理的数字孪生中进行训练。Jetson AGX Thor以实时性能处理机器人端推理,实现自主操作。
该架构反映了物理AI的独特需求。机器人必须在毫秒内处理传感器数据、推理环境状态、规划动作并执行移动。[^14] 训练基础设施必须生成在计算预算有限的边缘硬件上部署时能满足这些延迟约束的模型。
GPU加速仿真
NVIDIA Isaac Lab提供了一个基于Isaac Sim构建的开源机器人训练框架,支持强化学习、从演示学习和运动规划工作流程。[^15] 该框架能够并行训练数百或数千个机器人实例,迭代策略的速度远超真实世界训练所能达到的水平。
Newton是由Google DeepMind和Disney Research联合开发的GPU加速物理引擎,提供高速、物理精确、可微分的仿真。[^16] 可微分物理支持通过仿真进行基于梯度的优化,与黑盒强化学习方法相比加速了策略学习。
仿真优先的方法对物理AI开发至关重要。开发人员在部署前在数字孪生中验证机器人行为,发现可能损坏物理硬件或伤害人类的故障。[^17] 这种方法需要能够以超实时速度运行物理仿真的基础设施,同时保持足够的精度以实现策略向真实机器人的迁移。
机器人多GPU协调
NVIDIA OSMO为跨多GPU和多节点系统的多阶段、多容器复杂机器人工作负载提供云原生协调。[^18] 机器人开发流水线涉及数据收集、模型训练、仿真测试和部署打包。跨异构GPU资源协调这些阶段需要超越标准Kubernetes能力的协调功能。
包括Agility Robotics、Boston Dynamics、Figure AI和Skild AI在内的领先机器人公司采用了NVIDIA Isaac和Omniverse技术。[^19] 斯坦福大学、苏黎世联邦理工学院和新加坡国立大学的研究机构利用相同的加速计算基础设施推进机器人研究。
基础设施需求对比
RLHF和机器人RL共享一些基础设施模式,但在其他方面存在显著差异。
内存需求
用于LLM对齐的RLHF需要同时托管多个大型模型。一个70B的Actor、70B的Reference以及独立的Reward和Critic模型可能仅模型权重就需要8-16个H100 GPU,还不包括优化器状态和激活值。[^20] 机器人策略通常涉及较小的模型,但需要并发的仿真状态。
机器人仿真内存随环境复杂度和并行实例数量而扩展。运行1000个具有物理状态、传感器数据和神经网络推理的仿真机器人,即使策略网络相对较小,也会消耗大量GPU内存。
计算模式
RLHF工作负载在推理密集型样本生成和训练密集型策略更新之间交替。基础设施必须高效处理两种模式,要么通过具有动态调度的共享资源,要么为每个阶段提供专用池。
机器人训练同时运行仿真和策略更新。物理计算与神经网络前向和反向传播重叠。GPU利用模式与语言模型训练不同,负载更加一致,而不是RLHF样本生成的突发推理。
网络需求
多节点RLHF训练需要高带宽互连用于梯度同步和模型状态共享。四模型架构相比单模型训练成倍增加了通信开销。
机器人分布式训练在多个策略在同一仿真中交互时可能涉及额外的共享环境状态通信。集中式critic或共享世界模型需要从并行仿真实例收集观察数据。
大规模部署
大规模部署RL基础设施的组织面临集群架构、资源分配和运营实践方面的决策。
集群设计考虑因素
RL工作负载受益于简化调度并避免混合硬件性能差异的同构GPU集群。内存优化配置对RLHF的多模型需求很有价值,而计算优化配置适合机器人仿真。
对于RL而言,网络投资比典型推理工作负载更重要。节点内的NVLink互连加速RLHF所需的模型并行通信。当模型大小超过单节点容量时,InfiniBand或高速以太网支持多节点扩展。
专业基础设施部署
强化学习基础设施的复杂性超出了典型AI部署的要求。多模型协调、仿真集成和专用网络带来的集成挑战需要经验丰富的团队才能高效解决。
Introl拥有550名现场工程师组成的网络,专门从事支持包括强化学习系统在内的先进AI工作负载的GPU基础设施部署。[^21] 公司以9,594%的三年增长率在2025年Inc. 5000榜单中排名第14位,反映了企业对专业基础设施服务的需求。[^22] 构建RL能力的组织可从部署专业知识中受益,加速实现可运营基础设施的时间。
跨全球257个地点管理GPU部署使组织能够将RL基础设施放置在研究人员和应用程序所在的位置。[^23] Introl处理达100,000个GPU的部署,拥有超过40,000英里的光纤网络基础设施,提供与最大规模RL计划相匹配的规模。[^24]
物理基础设施质量直接影响RL训练稳定性。热节流、电源波动和网络不一致表现为训练不稳定性,使调试变得复杂。专业部署确保基础设施基础支持可靠的RL实验。
RL基础设施的发展轨迹
[内容已截断以供翻译]