计算机科学 > 计算与语言
[提交于 2023年6月5日
]
标题: N次射击的阿拉伯语语音识别中的Whisper基准测试
标题: N-Shot Benchmarking of Whisper on Diverse Arabic Speech Recognition
摘要: 最近开发的多语言弱监督模型Whisper在单语和多语设置下的多个语音识别基准测试中表现良好。 然而,即使在阿拉伯语等它已被评估的语言上,也不清楚Whisper在各种条件下的表现如何。 在这项工作中,我们通过在ASR任务中对阿拉伯语语音的多种变体进行全面评估来解决这一差距。 我们的评估涵盖了大部分公开可用的阿拉伯语语音数据,并在n-shot(零次、少量和完整)微调条件下进行。 我们还研究了Whisper在完全新颖条件下的鲁棒性,例如在方言口音的标准阿拉伯语以及我们开发了评估数据的未见过的方言中。 我们的实验表明,尽管Whisper在所有数据集上的零样本设置下优于完全微调的XLS-R模型,但在五个未见过的方言(即阿尔及利亚、约旦、巴勒斯坦、阿联酋和也门)的零样本设置下,其性能显著下降。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.