电气工程与系统科学 > 音频与语音处理
[提交于 2025年9月23日
]
标题: FlexSED:面向开放词汇声音事件检测
标题: FlexSED: Towards Open-Vocabulary Sound Event Detection
摘要: 尽管在大规模声音事件检测(SED)系统方面取得了进展,这些系统能够处理数百种声音类别,但现有的多类分类框架仍然存在根本性的限制。 它们无法处理自由文本声音查询,这使得交互更加灵活和用户友好,并且缺乏零样本能力,且few-shot适应性较差。 虽然已经探索了基于文本查询的分离方法,但它们主要集中在源分离上,对于需要精确时间定位和在大型多样声音词汇中高效检测的SED任务来说并不适合。 在本文中,我们提出了FlexSED,一个开放词汇的声音事件检测系统。 FlexSED基于预训练的音频SSL模型和CLAP文本编码器,引入了编码器-解码器结构和自适应融合策略,以实现从预训练权重的有效连续训练。 为了确保稳健的监督,它还使用大语言模型(LLMs)在训练期间协助事件查询选择,解决了缺失标签相关的问题。 结果表明,与普通SED模型相比,FlexSED在AudioSet-Strong上表现出更优的性能,同时展现出强大的零样本和few-shot能力。 我们发布了代码和预训练模型,以支持基于FlexSED的未来研究和应用。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.