计算机科学 > 计算与语言
[提交于 2025年8月11日
]
标题: InterChart:跨分解和分布式图表信息的视觉推理基准
标题: InterChart: Benchmarking Visual Reasoning Across Decomposed and Distributed Chart Information
摘要: 我们引入了InterChart,这是一个诊断基准,用于评估视觉-语言模型(VLMs)在多个相关图表之间进行推理的能力,这是科学报告、金融分析和公共政策仪表板等实际应用中的核心任务。 与以往专注于孤立、视觉统一图表的基准不同,InterChart通过多种问题类型对模型进行挑战,从实体推断和趋势相关性到数值估计以及基于2-3个主题或结构相关的图表的抽象多步骤推理。 我们将该基准分为三个难度递增的层级:(1) 单个图表上的事实推理,(2) 合成对齐图表集的整合分析,(3) 对视觉复杂的真实世界图表对进行语义推理。 我们对最先进的开源和闭源VLMs进行了评估,结果表明随着图表复杂性的增加,准确性出现一致且显著的下降。 我们发现,当我们将多实体图表分解为更简单的视觉单元时,模型表现更好,这突显了它们在跨图表整合方面的困难。 通过揭示这些系统性限制,InterChart提供了一个严格的框架,以推动复杂多视觉环境中的多模态推理发展。
提交历史
来自: Anirudh Iyengar Kaniyar Narayana Iyengar [查看电子邮件][v1] 星期一, 2025 年 8 月 11 日 05:19:23 UTC (9,318 KB)
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.