计算机科学 > 声音
[提交于 2023年6月1日
]
标题: 基于编码器-解码器的多模态说话人变化检测
标题: Encoder-decoder multimodal speaker change detection
摘要: 说话人变化检测(SCD)任务,即检测输入中说话人发生变化的点,在多个应用中至关重要。一些研究仅使用音频输入解决了SCD任务,但性能有限。最近,利用文本模态与音频相结合的多模态SCD(MMSCD)模型显示出更好的性能。本研究提出的模型基于两个主要建议:一种新的模态融合机制和采用编码器-解码器架构。不同于以前从与单个单词对齐的极短音频片段中提取说话人嵌入的MMSCD工作,我们使用从1.5秒音频中提取的说话人嵌入。一个Transformer解码器层进一步提高了仅编码器的MMSCD模型的性能。所提出的模型在报告SCD性能的研究中达到了最先进的结果,并且与最近通过人工转录结合SCD和自动语音识别的工作相当。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.