计算机科学 > 人工智能
[提交于 2025年8月10日
]
标题: Invert4TVG:一种具有反转任务的时序视频定位框架以增强动作理解
标题: Invert4TVG: A Temporal Video Grounding Framework with Inversion Tasks for Enhanced Action Understanding
摘要: 时间视频定位(TVG)旨在定位与给定文本查询匹配的视频片段。当前的方法虽然针对高时间交并比(IoU)进行优化,但往往过度拟合这一指标,损害了视频和查询中的语义动作理解,这是稳健TVG的关键因素。为了解决这个问题,我们引入了TVG的反转任务(Invert4TVG),这是一个新颖的框架,在不增加数据的情况下提高了定位精度和动作理解。我们的方法利用了从现有TVG注释中派生的三个反转任务:(1)动词补全,从视频片段中预测查询中被遮罩的动作动词;(2)动作识别,识别查询描述的动作;(3)视频描述,生成明确嵌入查询相关动作的视频片段描述。这些任务通过具有精心设计奖励函数的强化学习框架与TVG集成,确保定位和语义的平衡优化。实验表明,我们的方法优于最先进的方法,在Charades-STA上,对于一个3B模型,R1@0.7的性能提升了7.1%,相比Time-R1。通过将TVG反转以从片段中推导出与查询相关的动作,我们的方法增强了语义理解,显著提高了定位精度的上限。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.