计算机科学 > 图形学
            [提交于 2025年8月1日
            
            
            
            ]
          
          标题: SpA2V:利用空间听觉线索进行音频驱动的空间感知视频生成
标题: SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation
摘要: 音频驱动的视频生成旨在合成与输入音频记录对齐的逼真视频,类似于人类从听觉输入中可视化场景的能力。 然而,现有方法主要关注探索语义信息,例如音频中存在的发声源类别,这限制了它们生成具有准确内容和空间构图的视频的能力。 相比之下,我们人类不仅可以自然地识别发声源的语义类别,还可以确定其深度编码的空间属性,包括位置和运动方向。 这种有用的信息可以通过考虑从声音固有物理特性(如响度或频率)中得出的具体空间指标来阐明。 由于先前的方法大多忽略了这一因素,我们提出了SpA2V,这是第一个显式利用这些空间听觉线索从音频生成具有高语义和空间对应关系的视频的框架。 SpA2V将生成过程分为两个阶段:1)音频引导的视频规划:我们仔细调整一种最先进的MLLM,以执行一项新任务,即利用输入音频中的空间和语义线索来构建视频场景布局(VSLs)。 这作为音频和视频模态之间的中间表示,弥合了两者之间的差距。 2)基于布局的视频生成:我们开发了一种高效且有效的方法,将VSLs无缝集成到预训练扩散模型中作为条件指导,从而在无需训练的情况下实现基于VSL的视频生成。 大量实验表明,SpA2V在生成与输入音频在语义和空间上对齐的逼真视频方面表现出色。
文献和引用工具
与本文相关的代码,数据和媒体
            alphaXiv (什么是 alphaXiv?)
          
        
            CatalyzeX 代码查找器 (什么是 CatalyzeX?)
          
        
            DagsHub (什么是 DagsHub?)
          
        
            Gotit.pub (什么是 GotitPub?)
          
        
            Hugging Face (什么是 Huggingface?)
          
        
            带有代码的论文 (什么是带有代码的论文?)
          
        
            ScienceCast (什么是 ScienceCast?)
          
        演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.
 
  