具身AI基础设施:机器人与物理AI的GPU需求
更新于2025年12月11日
2025年12月更新: NVIDIA Isaac Sim现已在AWS EC2 G6e实例(L40S GPU)上运行,机器人仿真扩展性能提升2倍。德国工业AI工厂即将启动,配备10,000块DGX B200 GPU用于制造业应用。物理AI涵盖自动驾驶汽车、工业机械臂、人形机器人以及机器人运营的工厂——需要多模态传感器训练、复杂物理仿真和实时边缘部署。
NVIDIA Isaac Sim现可在Amazon EC2 G6e实例的L40S GPU云实例上运行,为扩展机器人仿真和加速AI模型训练提供2倍性能提升。[^1]这一部署选项展示了云基础设施如何扩大具身AI开发所需大规模计算资源的可及性。德国计划建设的工业AI工厂将配备NVIDIA DGX B200和RTX PRO服务器,初期部署10,000块GPU,助力欧洲工业领导者加速从工程仿真到工厂数字孪生和机器人技术的制造业应用。[^2]
物理AI描述的是理解并与物理世界交互的AI模型,代表着下一波自主机器浪潮,包括自动驾驶汽车、工业机械臂、移动机器人、人形机器人以及机器人运营的基础设施如工厂和仓库。[^3]其基础设施需求与语言模型或图像生成器有本质区别:具身AI系统必须在多样化的传感器模态上训练、仿真复杂物理现象,并部署到在物理约束下实时运行的边缘设备。
三计算机架构
NVIDIA的机器人基础设施方法将工作负载分配到针对不同需求优化的三个计算平台上。
DGX用于模型训练
NVIDIA DGX系统结合了理想的软件和基础设施,用于训练机器人的多模态基础模型。[^4]机器人模型需要摄取多种数据类型,包括摄像头图像、激光雷达点云、关节编码器读数和力矩传感器测量值。训练基础设施必须能够大规模处理异构数据,同时保持迭代模型架构所需的吞吐量。
机器人基础模型需要在真实世界数据和仿真合成数据上进行训练。由于高维传感器输入和跨长轨迹的时间相关性,数据量超过了典型的语言模型训练。DGX系统提供了大规模多模态训练所需的互连带宽和内存容量。
从视觉和语言基础模型的迁移学习加速了机器人模型开发。在互联网规模的图像和文本数据上训练的模型提供了可迁移到机器人感知和推理的表征。训练基础设施支持在机器人特定数据上微调这些大规模基础模型。
OVX用于仿真
OVX系统为仿真工作负载提供业界领先的图形和计算性能。[^4]逼真渲染生成与真实摄像头图像无法区分的合成训练数据。物理仿真产生与物理现实匹配的传感器读数和机器人行为。
Isaac Lab结合了高保真GPU并行物理、逼真渲染和模块化架构,用于设计环境和训练机器人策略。[^5]该框架集成了执行器模型、多频率传感器仿真、数据收集管道和域随机化工具。仿真保真度决定了训练策略迁移到物理机器人的效果。
大规模并行加速了仿真吞吐量。GPU加速物理使数千个机器人实例能够同时在不同场景中进行训练。这种并行性将数周的真实世界数据收集转化为数小时的仿真体验。
AGX用于部署
AGX系统(包括NVIDIA Jetson)为机器人部署提供卓越的性能和能效。[^4]边缘部署需要在电池供电机器人提供的功率预算内以传感器速率进行推理。计算平台必须适应物理约束,同时运行复杂模型。
Jetson Orin在适合移动机器人和机械臂的外形尺寸中提供高达275 TOPS的AI性能。该平台运行与DGX和OVX系统上开发的相同CUDA代码,实现整个开发生命周期中工具的一致性。
部署基础设施必须处理训练基础设施可以忽略的实时需求。以100Hz或更高频率运行的控制循环只留下毫秒级的推理时间。边缘平台必须保证延迟边界,而开发系统只能平均达到这些边界。
仿真基础设施需求
仿真基础设施通过控制团队迭代模型架构和训练方法的速度来决定具身AI开发速度。
物理仿真扩展
Isaac Lab原生集成NVIDIA Isaac Sim,使用GPU加速的NVIDIA PhysX物理引擎和RTX渲染进行高保真验证。[^5]物理仿真精度决定了仿真到现实迁移的成功率。训练更快的简化物理可能产生在物理硬件上失败的策略。
接触动力学仿真对操作任务需要特别关注。抓取物体的机器人会经历复杂的接触力,简化物理近似效果不佳。高保真接触仿真增加了计算需求,但改善了向物理抓取的迁移。
跨GPU集群的并行仿真通过同时运行数千个环境实例来加速训练。每个环境为策略学习提供独立的经验。这种并行性需要支持跨仿真环境分布式训练的基础设施。
渲染需求
逼真渲染生成与真实传感器特性匹配的摄像头和深度传感器数据。域随机化改变光照、纹理和场景构成以提高策略泛化能力。渲染管道必须在生成多样化视觉观察的同时保持吞吐量。
RTX光线追踪实现精确的光照仿真,包括反射、阴影和全局照明。在工业环境中运行的机器人会遇到来自窗户、顶灯和反光表面的复杂光照。在精确光照上训练可提高在真实设施中的部署性能。
传感器噪声仿真为渲染图像和点云添加真实的退化效果。真实传感器表现出完美仿真所忽略的噪声、模糊和伪影。在干净仿真数据上训练的策略在面对嘈杂的真实传感器数据时可能会失败。
数据管道架构
仿真产生大量数据,需要高效的存储和检索用于训练。单次仿真活动可能产生PB级的轨迹、观察和奖励数据。数据管道架构决定了计算基础设施是实现充分利用还是因等待数据而闲置。
Lustre和GPFS等并行文件系统提供仿真和训练集群所需的带宽。具有足够聚合带宽的网络附加存储以匹配训练消耗速率向GPU集群馈送数据。存储配置不足会造成昂贵GPU计算无法克服的瓶颈。
数据版本控制跟踪仿真配置、环境参数和生成的数据集。可重现性要求重建确切哪个仿真产生了哪些训练数据。仿真配置的版本控制在实验跟踪中补充了模型版本控制。
真实世界数据基础设施
仅靠仿真无法训练可部署的机器人。真实世界数据捕获仿真只能近似的物理现象。
机器人车队管理
物理机器人车队通过遥操作、自主运行和人类演示生成训练数据。车队管理基础设施协调多个机器人在不同环境中的数据收集。编排确保全面覆盖机器人将遇到的场景。
从物理机器人收集数据需要可靠的日志记录,以完整的时间分辨率捕获所有传感器模态。遗漏的数据在训练集中造成仿真必须填补的空白。可靠的日志基础设施比应用于不完整数据的复杂收集程序更有价值。
安全监控在数据收集期间保护机器人、环境和附近的人类。在物理空间运行的具身AI系统可能造成纯数字AI系统无法造成的损害。安全基础设施增加了复杂性,但实现了训练所需的积极探索。
标注基础设施
监督学习需要人类标注员或自动化系统提供的标签。标注基础设施将标签生成扩展到与数据收集速率匹配。标注瓶颈限制了有用的训练数据,无论原始数据量多大。
语义分割、目标检测和姿态估计标签支持感知模型训练。大规模人工标注需要分布式劳动力管理和质量控制。结合模型预测与人工验证的半自动标注提高了吞吐量。
模仿学习的轨迹标注识别值得模仿的成功演示。质量评估区分专家演示和策略应避免的失败。标注基础设施必须捕获超越二元成功/失败分类的细微差别。
多站点数据汇聚
在多个设施运行机器人的组织将数据集中汇聚用于训练。网络基础设施必须支持从边缘位置到中央集群的大型数据传输。传输调度避免在运营时间内的网络争用。
数据治理要求可能限制机器人数据的流向。捕获设施布局、人类工人或专有流程的传感器数据面临文本数据所没有的控制。合规基础设施确保数据处理满足组织和监管要求。
联邦学习方法在不集中原始数据的情况下训练模型。边缘位置贡献梯度更新而非观察数据。该架构在解决数据治理问题的同时实现跨分布式机器人车队的学习。
部署基础设施
部署基础设施将训练好的模型连接到在生产环境中运行的物理机器人。
边缘计算配置
边缘计算平台必须匹配机器人外形和功率预算,同时提供所需的推理性能。携带电池的移动机器人无法部署数据中心GPU卡。平台选择限制了部署时可实现的模型复杂度。
西门子的工业Copilot运营版将在本地运行NVIDIA RTX PRO 6000 Blackwell服务器版GPU,展示了复杂AI能力的工业部署。[^2]工业环境通常允许比移动机器人更大规模的计算基础设施,从而实现更强大的模型。
空中更新基础设施无需物理访问即可将新模型部署到机器人车队。安全的更新程序确保机器人在部署过程中保持运行。回滚功能在问题更新影响运营之前将其恢复。
实时系统集成
机器人控制系统施加AI推理必须满足的实时约束。控制循环期望传感器处理和推理在固定时间边界内完成。错过截止时间会导致控制不稳定,而不仅仅是性能下降。
RTOS(实时操作系统)集成
[内容因翻译需要而截断]