计算机科学 > 机器人技术
[提交于 2026年1月6日
]
标题: SOP:一种适用于视觉-语言-动作模型的可扩展在线微调系统
标题: SOP: A Scalable Online Post-Training System for Vision-Language-Action Models
摘要: 视觉-语言-动作(VLA)模型通过大规模预训练实现了强大的泛化能力,但实际部署需要除了广泛泛化之外的专家级任务熟练度。 现有的VLA模型后训练方法通常是离线的、单机器人的或任务特定的,限制了有效的策略内适应和从真实世界交互中可扩展的学习。 我们引入了一个可扩展的在线后训练(SOP)系统,该系统能够在物理世界中直接对通用VLA模型进行在线、分布式、多任务后训练。 SOP通过闭环架构将执行和学习紧密结合,在这种架构中,一支机器人队伍持续地将策略内的经验以及人类干预信号传输到一个中心云学习器,并异步接收更新后的策略。 这种设计支持及时的策略内校正,通过并行部署扩大经验收集,并在适应过程中保持泛化性。 SOP对后训练算法的选择是无偏的;我们使用交互式模仿学习(HG-DAgger)和强化学习(RECAP)对其进行实例化。 在一系列真实世界的操作任务中,包括衣物折叠、箱子组装和杂货补货,我们展示了SOP显著提升了大型预训练VLA模型的性能,同时在任务之间保持单一共享策略。 在数小时内的真实世界交互中可以实现有效的后训练,性能随着舰队中机器人数量的增加而近似线性增长。 这些结果表明,将在线学习与舰队规模的部署紧密结合起来,对于在物理世界中实现高效、可靠和可扩展的通用机器人策略后训练至关重要。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.