计算机科学 > 计算与语言
[提交于 2022年2月12日
]
标题: USTED:通过统一的语音和文本编码器-解码器改进自动语音识别
标题: USTED: Improving ASR with a Unified Speech and Text Encoder-Decoder
摘要: 通过结合外部文本数据来改进端到端语音识别一直是长期的研究课题。 最近的研究重点是训练端到端自动语音识别(E2E ASR)模型,在不增加推理时评估外部语言模型的额外成本的情况下,获得外部文本数据的性能优势。 在本工作中,我们提出与一组文本到文本的辅助任务联合训练自动语音识别模型,这些任务与它共享解码器和部分编码器。 当我们分别使用960小时的Librispeech和Opensubtitles数据联合训练自动语音识别模型和掩码语言模型时,在测试其他和测试干净数据集上,相对于仅使用自动语音识别的基线模型,我们观察到了16%和20%的词错误率(WER)降低,且在推理时没有任何额外成本;与一个更强的MUTE-L基线模型相比,分别降低了6%和8%,该基线模型使用与我们模型相同的文本数据来训练解码器。 当我们在Librispeech数据上训练掩码语言模型,或者使用机器翻译作为辅助任务时,我们实现了进一步的改进,而不会显著牺牲任务本身的性能。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.