计算机科学 > 声音
[提交于 2026年1月30日
]
标题: 一种语义一致的数据集用于数据高效的基于查询的通用声音分离
标题: A Semantically Consistent Dataset for Data-Efficient Query-Based Universal Sound Separation
摘要: 基于查询的通用声音分离是智能听觉系统的基础,旨在从混合信号中隔离特定声源。 尽管最近取得了进展,现有方法在复杂的声学场景中仍持续受到残留干扰的影响。 这种性能限制主要源于数据瓶颈:真实环境数据集包含弱标签和严重的事件共现。 这些缺陷导致模型学习背景噪声与目标类别之间的虚假相关性,而不是稳健的声学特征。 为了解决这个问题,我们提出了一种自动化流程,通过语义一致的合成协议从真实环境数据集中挖掘高纯度单事件片段,从而消除事件的共现。 利用该流程,我们构建了Hive,一个高质量的合成数据集,包含2.4千小时的原始音频。 实验结果表明,与在比Hive大500倍的数据集$\sim$上训练的最先进的SAM-Audio模型相比,某些在Hive上训练的开源模型实现了具有竞争力的分离准确性和感知质量。 此外,这些模型在分布外评估基准上表现出显著的零样本泛化能力。 这些发现表明,优先考虑监督信号的纯净度可以实现显著的数据效率,为以减少计算成本的方式训练稳健的听觉基础模型提供了新范式。 代码和数据集可在https://shandaai.github.io/Hive获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.