计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月21日
]
标题: 一种关于视频-LLMs如何回答视频问题的实证研究
标题: An Empirical Study on How Video-LLMs Answer Video Questions
摘要: 利用大规模数据和预训练语言模型,视频大型语言模型(Video-LLMs)在回答视频问题方面表现出强大的能力。然而,大多数现有工作集中在提高性能上,对理解其内部机制的关注有限。本文旨在通过系统的实证研究来弥补这一差距。为了解释现有的VideoLLMs,我们采用注意力击穿作为主要分析工具,并设计了三种变体:视频时间击穿、视频空间击穿和语言到视频击穿。然后,我们将这三种击穿应用于不同数量的层(层窗口)。通过仔细控制层窗口和击穿类型,我们提供了两种设置:全局设置和细粒度设置。我们的研究揭示了三个关键发现:(1) 全局设置表明视频信息提取主要发生在早期层,形成一个清晰的两阶段过程——低层专注于感知编码,而高层处理抽象推理;(2) 在细粒度设置中,某些中间层对视频问答产生不成比例的影响,作为关键异常值,而其他大多数层贡献很小;(3) 在两种设置中,我们观察到空间-时间建模更多依赖于语言引导的检索,而不是视频标记之间的内部和跨帧自注意力,尽管后者计算成本较高。最后,我们证明这些见解可以用来减少Video-LLMs中的注意力计算。据我们所知,这是第一项系统揭示Video-LLMs内部如何处理和理解视频内容的工作,为未来的研究提供了可解释性和效率视角。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.