计算机科学 > 机器人技术
[提交于 2025年8月14日
]
标题: CorrectNav:自我校正飞轮增强视觉-语言-动作导航模型
标题: CorrectNav: Self-Correction Flywheel Empowers Vision-Language-Action Navigation Model
摘要: 现有的视觉-语言导航模型在执行指令时经常偏离正确路径。 然而,这些模型缺乏有效的错误纠正能力,阻碍了它们从错误中恢复。 为了解决这一挑战,我们提出了自纠正飞轮,一种新的后训练范式。 我们的范式不将训练集上的模型错误轨迹视为缺点,而是强调它们作为有价值数据源的重要性。 我们开发了一种方法来识别这些错误轨迹中的偏差,并设计了创新技术以自动生成感知和动作的自纠正数据。 这些自纠正数据作为燃料,推动模型的持续训练。 当我们在训练集上重新评估模型时,我们的范式展现出其卓越之处,揭示出新的错误轨迹。 此时,自纠正飞轮开始运转。 通过多次飞轮迭代,我们逐步提升了基于单目RGB的VLA导航模型CorrectNav。 在R2R-CE和RxR-CE基准上的实验表明,CorrectNav实现了65.1%和69.3%的新最先进成功率,分别比之前的最佳VLA导航模型提高了8.2%和16.4%。 在各种室内和室外环境中的真实机器人测试展示了\method 优越的错误纠正能力、动态障碍物避让能力和长指令遵循能力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.