Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2508.10416

帮助 | 高级搜索

计算机科学 > 机器人技术

arXiv:2508.10416 (cs)
[提交于 2025年8月14日 ]

标题: CorrectNav:自我校正飞轮增强视觉-语言-动作导航模型

标题: CorrectNav: Self-Correction Flywheel Empowers Vision-Language-Action Navigation Model

Authors:Zhuoyuan Yu, Yuxing Long, Zihan Yang, Chengyan Zeng, Hongwei Fan, Jiyao Zhang, Hao Dong
摘要: 现有的视觉-语言导航模型在执行指令时经常偏离正确路径。 然而,这些模型缺乏有效的错误纠正能力,阻碍了它们从错误中恢复。 为了解决这一挑战,我们提出了自纠正飞轮,一种新的后训练范式。 我们的范式不将训练集上的模型错误轨迹视为缺点,而是强调它们作为有价值数据源的重要性。 我们开发了一种方法来识别这些错误轨迹中的偏差,并设计了创新技术以自动生成感知和动作的自纠正数据。 这些自纠正数据作为燃料,推动模型的持续训练。 当我们在训练集上重新评估模型时,我们的范式展现出其卓越之处,揭示出新的错误轨迹。 此时,自纠正飞轮开始运转。 通过多次飞轮迭代,我们逐步提升了基于单目RGB的VLA导航模型CorrectNav。 在R2R-CE和RxR-CE基准上的实验表明,CorrectNav实现了65.1%和69.3%的新最先进成功率,分别比之前的最佳VLA导航模型提高了8.2%和16.4%。 在各种室内和室外环境中的真实机器人测试展示了\method 优越的错误纠正能力、动态障碍物避让能力和长指令遵循能力。
摘要: Existing vision-and-language navigation models often deviate from the correct trajectory when executing instructions. However, these models lack effective error correction capability, hindering their recovery from errors. To address this challenge, we propose Self-correction Flywheel, a novel post-training paradigm. Instead of considering the model's error trajectories on the training set as a drawback, our paradigm emphasizes their significance as a valuable data source. We have developed a method to identify deviations in these error trajectories and devised innovative techniques to automatically generate self-correction data for perception and action. These self-correction data serve as fuel to power the model's continued training. The brilliance of our paradigm is revealed when we re-evaluate the model on the training set, uncovering new error trajectories. At this time, the self-correction flywheel begins to spin. Through multiple flywheel iterations, we progressively enhance our monocular RGB-based VLA navigation model CorrectNav. Experiments on R2R-CE and RxR-CE benchmarks show CorrectNav achieves new state-of-the-art success rates of 65.1% and 69.3%, surpassing prior best VLA navigation models by 8.2% and 16.4%. Real robot tests in various indoor and outdoor environments demonstrate \method's superior capability of error correction, dynamic obstacle avoidance, and long instruction following.
主题: 机器人技术 (cs.RO) ; 人工智能 (cs.AI); 计算与语言 (cs.CL); 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2508.10416 [cs.RO]
  (或者 arXiv:2508.10416v1 [cs.RO] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.10416
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Yuxing Long [查看电子邮件]
[v1] 星期四, 2025 年 8 月 14 日 07:39:26 UTC (3,876 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.CL
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08
切换浏览方式为:
cs
cs.AI
cs.CV
cs.RO

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号