智元具身研究中心近日提出了一套名为SOP(Scalable Online Post-training)的在线后训练系统,旨在解决机器人在真实世界部署中面临的挑战。SOP系统通过在线学习、分布式架构与多任务通才性的融合,使机器人集群能在真实环境中持续进化,并将个体经验在群体中高效复用,将“规模”转化为“智能”。
SOP采用Actor-Learner异步架构,实现了多机器人并行经验采集、云端集中在线更新以及模型参数即时回流的闭环系统。这一框架能够即插即用地使用任意后训练算法,使VLA从在线经验数据中获益。实验评估显示,SOP能显著提升预训练VLA的性能,如在商超场景中实现了33%的综合性能提升,并在多任务通才性上取得了近乎完美的性能,不同任务的成功率均提升至94%以上。
此外,SOP还显示出在不同预训练规模下都能稳定有效地提升性能,且最终性能与VLA预训练质量正相关。在真实新环境下,SOP能够使机器人快速适应并鲁棒地执行复杂任务,展现了其在机器人生命周期中重塑和进化的能力。



来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。