电气工程与系统科学 > 音频与语音处理
[提交于 2023年6月8日
]
标题: 基于音频-文本的关键词 spotting 的匹配隐编码
标题: Matching Latent Encoding for Audio-Text based Keyword Spotting
摘要: 使用音频和文本嵌入联合进行关键词检测(KWS)已显示出高质量的结果,但如何语义对齐不同序列长度的多词关键词的两种嵌入仍然是一个未解决的关键挑战。 在本文中,我们提出了一种基于音频-文本的端到端模型架构,用于灵活的关键词检测(KWS),该架构建立在学习到的音频和文本嵌入之上。 我们的架构采用了一种基于新型动态规划算法的动态序列划分(DSP),利用口语内容的单调对齐方式,将音频序列最佳地划分为与基于单词的文本序列相同长度。 我们提出的模型包括一个编码块以获取音频和文本嵌入,一个投影块以将各个嵌入投影到公共潜在空间,以及一个包含新型DSP算法的音频-文本对齐器,该算法对齐音频和文本嵌入以确定口语内容是否与文本相同。 实验结果表明,我们的DSP比其他分区方案更有效,并且所提出的架构在公开数据集上以ROC曲线下的面积(AUC)和等错误率(EER)衡量时,分别优于最先进的结果14.4%和28.9%。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.