电气工程与系统科学 > 音频与语音处理
[提交于 2023年6月1日
]
标题: ALO-VC:任意到任意低延迟一次性语音转换
标题: ALO-VC: Any-to-any Low-latency One-shot Voice Conversion
摘要: 本文提出了一种名为ALO-VC的非并行低延迟一次性音素后验图(PPGs)为基础的声音转换方法。 ALO-VC仅使用目标说话人的一个语音片段即可实现任意到任意的声音转换,且仅需47.5毫秒的未来预测时间。 所提出的混合信号处理和机器学习管道结合了一个预训练的说话人编码器、一个用于预测转换语音韵律的音高预测器以及位置编码以传达音素的位置信息。 我们介绍了两种系统版本:ALO-VC-R,它使用预训练的d-vector说话人编码器;以及ALO-VC-E,它通过使用ECAPA-TDNN说话人编码器来提升性能。 实验结果表明,ALO-VC-R和ALO-VC-E在VCTK数据集和两个域外数据集上均能达到与非因果基线系统相当的性能。 此外,这两种提议的系统均可部署在单个CPU核心上,延迟为55毫秒,实时因子为0.78。 我们的演示可在线访问。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.