计算机科学 > 计算机视觉与模式识别
[提交于 2026年1月8日
(v1)
,最后修订 2026年1月9日 (此版本, v2)]
标题: CoV:用于空间推理的视角链提示
标题: CoV: Chain-of-View Prompting for Spatial Reasoning
摘要: 具身问答(EQA)在3D环境中通常需要收集分布在多个视角且部分遮挡的上下文。然而,大多数最新的视觉-语言模型(VLMs)被限制在一个固定且有限的输入视角集合中,这限制了它们在推理时获取与问题相关的上下文的能力,并阻碍了复杂的空间推理。我们提出了视图链(CoV)提示,这是一种无需训练的测试时推理框架,通过粗到细的探索过程将VLM转变为活动视角推理器。CoV首先使用一个视角选择代理来过滤冗余帧并识别与问题对齐的锚点视角。然后通过将迭代推理与离散相机动作交错进行精细的视角调整,从底层3D场景表示中获得新的观察结果,直到收集到足够的上下文或达到步骤预算。我们在OpenEQA上对CoV进行了评估,四种主流VLMs的LLM-Match平均提高了+11.56%,其中在Qwen3-VL-Flash上的最大提升为+13.62%。CoV还表现出测试时的扩展性:增加最小动作预算可带来额外的+2.51%平均提升,在Gemini-2.5-Flash上达到+3.73%。在ScanQA和SQA3D上,CoV表现出色(例如,在ScanQA上获得116 CIDEr / 31.9 EM@1,在SQA3D上获得51.1 EM@1)。总体而言,这些结果表明,与开放视角搜索相结合的问题对齐视角选择是一种有效的方法无关策略,可以在不进行额外训练的情况下提高3D EQA中的空间推理能力。代码可在https://github.com/ziplab/CoV 上获得。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.