计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月1日
]
标题: 分析-提示-推理:一种多图像视觉语言推理的协作代理框架
标题: Analyze-Prompt-Reason: A Collaborative Agent-Based Framework for Multi-Image Vision-Language Reasoning
摘要: 我们提出了一种基于协作代理的多图像推理框架。 我们的方法通过采用双代理系统来解决跨不同数据集和任务格式的交错多模态推理挑战:一个基于语言的PromptEngineer,生成上下文感知、任务特定的提示,以及一个VisionReasoner,一个负责最终推理的大规模视觉-语言模型(LVLM)。 该框架完全自动化、模块化且无需训练,能够泛化到涉及一个或多个输入图像的分类、问答和自由形式生成任务。 我们在2025年MIRAGE挑战赛(A赛道)的18个多样化数据集上评估了我们的方法,涵盖了从文档问答、视觉比较、基于对话的理解到场景级推理的各种视觉推理任务。 我们的结果表明,当由信息提示引导时,LVLM可以有效地对多张图像进行推理。 值得注意的是,Claude 3.7在具有挑战性的任务如TQA(99.13%准确率)、DocVQA(96.87%)和MMCoQA(75.28 ROUGE-L)上达到了接近上限的性能。 我们还探讨了设计选择——如模型选择、样本数量和输入长度——如何影响不同LVLM的推理性能。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.