计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月4日
]
标题: 它会是什么样的声音? 面向室内场景的材料控制多模态声学轮廓生成
标题: How Would It Sound? Material-Controlled Multimodal Acoustic Profile Generation for Indoor Scenes
摘要: 在有地毯地板和墙上有吸音板的录音室中,声音会如何变化? 我们引入了材料控制的声学轮廓生成任务,其中给定一个具有特定视听特征的室内场景,目标是在推理时根据用户定义的材料配置生成目标声学轮廓。 我们采用一种新的编码器-解码器方法来解决这个问题,该方法从视听观察中编码场景的关键属性,并根据用户提供的材料规范生成目标房间冲激响应(RIR)。 我们的模型能够根据在推理时动态定义的各种材料配置生成多样化的RIR。 为了支持这项任务,我们创建了一个新的基准数据集,即声学奇境数据集,该数据集旨在在多样且具有挑战性的环境下开发和评估材料感知的RIR预测方法。 我们的结果表明,所提出的模型能够有效编码材料信息并生成高保真RIR,优于多个基线和最先进方法。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.