计算机科学 > 计算机视觉与模式识别
[提交于 2025年10月2日
]
标题: RewardMap:通过多阶段强化学习解决细粒度视觉推理中的稀疏奖励问题
标题: RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning
摘要: 细粒度视觉推理仍然是多模态大语言模型(MLLMs)的核心挑战。 最近引入的ReasonMap通过显示即使先进的MLLMs在结构化和信息丰富的环境(如交通图)中的空间推理上也存在困难,突显了这一差距,这是一个具有明确实际和科学重要性的问题。 然而,在此类任务上的标准强化学习(RL)受到稀疏奖励和不稳定优化的阻碍。 为了解决这个问题,我们首先构建了ReasonMap-Plus,一个扩展的数据集,通过视觉问答(VQA)任务引入密集奖励信号,从而实现细粒度视觉理解技能的有效冷启动训练。 接下来,我们提出了RewardMap,一个多层次的RL框架,旨在提升MLLMs的视觉理解和推理能力。 RewardMap结合了两个关键设计。 首先,我们引入了一种难度感知的奖励设计,包括细节奖励,直接解决稀疏奖励问题,同时提供更丰富的监督。 其次,我们提出了一种多层次的RL方案,从简单的感知任务开始进行训练,逐步过渡到复杂的推理任务,相比传统的监督微调(SFT),提供了更有效的冷启动策略。 在ReasonMap和ReasonMap-Plus上的实验表明,RewardMap的每个组件都带来了持续的性能提升,而它们的结合则取得了最佳结果。 此外,使用RewardMap训练的模型在跨越空间推理、细粒度视觉推理和超越交通图的一般任务的6个基准测试中平均提升了3.47%,凸显了增强的视觉理解和推理能力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.