Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2601.03044

帮助 | 高级搜索

计算机科学 > 机器人技术

arXiv:2601.03044 (cs)
[提交于 2026年1月6日 ]

标题: SOP:一种适用于视觉-语言-动作模型的可扩展在线微调系统

标题: SOP: A Scalable Online Post-Training System for Vision-Language-Action Models

Authors:Mingjie Pan, Siyuan Feng, Qinglin Zhang, Xinchen Li, Jianheng Song, Chendi Qu, Yi Wang, Chuankang Li, Ziyu Xiong, Zhi Chen, Yi Liu, Jianlan Luo
摘要: 视觉-语言-动作(VLA)模型通过大规模预训练实现了强大的泛化能力,但实际部署需要除了广泛泛化之外的专家级任务熟练度。 现有的VLA模型后训练方法通常是离线的、单机器人的或任务特定的,限制了有效的策略内适应和从真实世界交互中可扩展的学习。 我们引入了一个可扩展的在线后训练(SOP)系统,该系统能够在物理世界中直接对通用VLA模型进行在线、分布式、多任务后训练。 SOP通过闭环架构将执行和学习紧密结合,在这种架构中,一支机器人队伍持续地将策略内的经验以及人类干预信号传输到一个中心云学习器,并异步接收更新后的策略。 这种设计支持及时的策略内校正,通过并行部署扩大经验收集,并在适应过程中保持泛化性。 SOP对后训练算法的选择是无偏的;我们使用交互式模仿学习(HG-DAgger)和强化学习(RECAP)对其进行实例化。 在一系列真实世界的操作任务中,包括衣物折叠、箱子组装和杂货补货,我们展示了SOP显著提升了大型预训练VLA模型的性能,同时在任务之间保持单一共享策略。 在数小时内的真实世界交互中可以实现有效的后训练,性能随着舰队中机器人数量的增加而近似线性增长。 这些结果表明,将在线学习与舰队规模的部署紧密结合起来,对于在物理世界中实现高效、可靠和可扩展的通用机器人策略后训练至关重要。
摘要: Vision-language-action (VLA) models achieve strong generalization through large-scale pre-training, but real-world deployment requires expert-level task proficiency in addition to broad generality. Existing post-training approaches for VLA models are typically offline, single-robot, or task-specific, limiting effective on-policy adaptation and scalable learning from real-world interaction. We introduce a Scalable Online Post-training (SOP) system that enables online, distributed, multi-task post-training of generalist VLA models directly in the physical world. SOP tightly couples execution and learning through a closed-loop architecture in which a fleet of robots continuously streams on-policy experience and human intervention signals to a centralized cloud learner, and asynchronously receives updated policies. This design supports prompt on-policy correction, scales experience collection through parallel deployment, and preserves generality during adaptation. SOP is agnostic to the choice of post-training algorithm; we instantiate it with both interactive imitation learning (HG-DAgger) and reinforcement learning (RECAP). Across a range of real-world manipulation tasks including cloth folding, box assembly, and grocery restocking, we show that SOP substantially improves the performance of large pretrained VLA models while maintaining a single shared policy across tasks. Effective post-training can be achieved within hours of real-world interaction, and performance scales near-linearly with the number of robots in the fleet. These results suggest that tightly coupling online learning with fleet-scale deployment is instrumental to enabling efficient, reliable, and scalable post-training of generalist robot policies in the physical world.
主题: 机器人技术 (cs.RO)
引用方式: arXiv:2601.03044 [cs.RO]
  (或者 arXiv:2601.03044v1 [cs.RO] 对于此版本)
  https://doi.org/10.48550/arXiv.2601.03044
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Mingjie Pan [查看电子邮件]
[v1] 星期二, 2026 年 1 月 6 日 14:25:11 UTC (19,748 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
查看许可
当前浏览上下文:
cs.RO
< 上一篇   |   下一篇 >
新的 | 最近的 | 2026-01
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号