计算机科学 > 信息检索
            [提交于 2025年8月6日
            
             (v1)
            
            
              ,最后修订 2025年10月25日 (此版本, v3)]
          
          标题: 音频确实重要:用于视频时刻检索的重要性的多粒度融合
标题: Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval
摘要: 视频时刻检索(VMR)旨在检索与给定查询在语义上相关的特定时刻。 为了处理这个任务,现有的大多数VMR方法仅关注视觉和文本模态,而忽略了互补但重要的音频模态。 尽管最近有一些工作尝试解决联合的音频-视觉-文本推理,但它们将所有模态同等对待,并简单地将它们嵌入,而没有为时刻检索进行细粒度的交互。 这些设计不切实际,因为:并非所有音频都有助于视频时刻检索,某些视频的音频可能是完整的噪声或背景声音,对时刻确定毫无意义。 为此,我们提出了一种新颖的重要程度感知多粒度融合模型(IMG),该模型学习动态且有选择地聚合音频-视觉-文本上下文用于VMR。 具体来说,在将文本指导分别与视觉和音频集成之后,我们首先设计了一个伪标签监督的音频重要性预测器,该预测器预测音频的重要性得分,并相应地分配权重以减轻噪声音频引起的干扰。 然后,我们设计了一个多粒度音频融合模块,该模块在局部、事件和全局层面自适应地融合音频和视觉模态,充分捕捉它们的互补上下文。 我们进一步提出了一种跨模态知识蒸馏策略,以解决推理过程中音频模态缺失的挑战。 为了评估我们的方法,我们进一步构建了一个新的VMR数据集,即Charades-AudioMatter,其中音频相关的样本是从原始Charades-STA中手动选择并重新组织的,以验证模型利用音频模态的能力。 大量实验验证了我们方法的有效性,在VMR方法中实现了基于音频-视频融合的最先进性能。 我们的代码可在https://github.com/HuiGuanLab/IMG获取。
文献和引用工具
与本文相关的代码,数据和媒体
            alphaXiv (什么是 alphaXiv?)
          
        
            CatalyzeX 代码查找器 (什么是 CatalyzeX?)
          
        
            DagsHub (什么是 DagsHub?)
          
        
            Gotit.pub (什么是 GotitPub?)
          
        
            Hugging Face (什么是 Huggingface?)
          
        
            带有代码的论文 (什么是带有代码的论文?)
          
        
            ScienceCast (什么是 ScienceCast?)
          
        演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.
 
               
  