Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > eess > arXiv:2306.01100v1

帮助 | 高级搜索

电气工程与系统科学 > 音频与语音处理

arXiv:2306.01100v1 (eess)
[提交于 2023年6月1日 ]

标题: ALO-VC:任意到任意低延迟一次性语音转换

标题: ALO-VC: Any-to-any Low-latency One-shot Voice Conversion

Authors:Bohan Wang, Damien Ronssin, Milos Cernak
摘要: 本文提出了一种名为ALO-VC的非并行低延迟一次性音素后验图(PPGs)为基础的声音转换方法。 ALO-VC仅使用目标说话人的一个语音片段即可实现任意到任意的声音转换,且仅需47.5毫秒的未来预测时间。 所提出的混合信号处理和机器学习管道结合了一个预训练的说话人编码器、一个用于预测转换语音韵律的音高预测器以及位置编码以传达音素的位置信息。 我们介绍了两种系统版本:ALO-VC-R,它使用预训练的d-vector说话人编码器;以及ALO-VC-E,它通过使用ECAPA-TDNN说话人编码器来提升性能。 实验结果表明,ALO-VC-R和ALO-VC-E在VCTK数据集和两个域外数据集上均能达到与非因果基线系统相当的性能。 此外,这两种提议的系统均可部署在单个CPU核心上,延迟为55毫秒,实时因子为0.78。 我们的演示可在线访问。
摘要: This paper presents ALO-VC, a non-parallel low-latency one-shot phonetic posteriorgrams (PPGs) based voice conversion method. ALO-VC enables any-to-any voice conversion using only one utterance from the target speaker, with only 47.5 ms future look-ahead. The proposed hybrid signal processing and machine learning pipeline combines a pre-trained speaker encoder, a pitch predictor to predict the converted speech's prosody, and positional encoding to convey the phoneme's location information. We introduce two system versions: ALO-VC-R, which uses a pre-trained d-vector speaker encoder, and ALO-VC-E, which improves performance using the ECAPA-TDNN speaker encoder. The experimental results demonstrate both ALO-VC-R and ALO-VC-E can achieve comparable performance to non-causal baseline systems on the VCTK dataset and two out-of-domain datasets. Furthermore, both proposed systems can be deployed on a single CPU core with 55 ms latency and 0.78 real-time factor. Our demo is available online.
评论: 已接受发表于Interspeech 2023。一些音频样本可在 <https://bohan7.github.io/ALO-VC-demo/> 获取。
主题: 音频与语音处理 (eess.AS) ; 机器学习 (cs.LG); 声音 (cs.SD)
引用方式: arXiv:2306.01100 [eess.AS]
  (或者 arXiv:2306.01100v1 [eess.AS] 对于此版本)
  https://doi.org/10.48550/arXiv.2306.01100
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Bohan Wang [查看电子邮件]
[v1] 星期四, 2023 年 6 月 1 日 19:23:38 UTC (1,312 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
eess.AS
< 上一篇   |   下一篇 >
新的 | 最近的 | 2023-06
切换浏览方式为:
cs
cs.LG
cs.SD
eess

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号