计算机科学 > 声音
[提交于 2023年8月31日
]
标题: QS-TTS:通过向量量化自监督语音表示学习实现半监督文本到语音合成
标题: QS-TTS: Towards Semi-Supervised Text-to-Speech Synthesis via Vector-Quantized Self-Supervised Speech Representation Learning
摘要: 本文提出了一种新颖的半监督TTS框架QS-TTS,通过利用更多未标记语音音频的向量量化自监督语音表示学习(VQ-S3RL),在较低监督数据需求的情况下提高TTS质量。该框架包含两个VQ-S3R学习器:首先,主学习器旨在通过MSMC-VQ-GAN结合对比S3RL提供生成式多阶段多码本(MSMC)VQ-S3R,并将其解码为高质量音频;然后,关联学习器通过VQ-VAE进一步将MSMC表示抽象为高度紧凑的VQ表示。这两个生成式VQ-S3R学习器为TTS提供了有益的语音表示和预训练模型,在较低的监督数据需求下显著提高了合成质量。QS-TTS在实验中通过主观和客观测试在各种场景下进行了全面评估。结果有力地证明了QS-TTS的优越性能,在监督或半监督基线TTS方法中获得了最高的MOS,尤其是在低资源场景中。此外,比较TTS中的各种语音表示和迁移学习方法进一步验证了所提出的VQ-S3RL对TTS的显著改进,显示出最佳的音频质量和可懂度指标。随着监督数据的减少,QS-TTS的合成质量衰减较慢的趋势进一步突显了其对监督数据的较低需求,表明其在低资源场景中具有巨大的潜力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.