Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2309.00126v1

帮助 | 高级搜索

计算机科学 > 声音

arXiv:2309.00126v1 (cs)
[提交于 2023年8月31日 ]

标题: QS-TTS:通过向量量化自监督语音表示学习实现半监督文本到语音合成

标题: QS-TTS: Towards Semi-Supervised Text-to-Speech Synthesis via Vector-Quantized Self-Supervised Speech Representation Learning

Authors:Haohan Guo, Fenglong Xie, Jiawen Kang, Yujia Xiao, Xixin Wu, Helen Meng
摘要: 本文提出了一种新颖的半监督TTS框架QS-TTS,通过利用更多未标记语音音频的向量量化自监督语音表示学习(VQ-S3RL),在较低监督数据需求的情况下提高TTS质量。该框架包含两个VQ-S3R学习器:首先,主学习器旨在通过MSMC-VQ-GAN结合对比S3RL提供生成式多阶段多码本(MSMC)VQ-S3R,并将其解码为高质量音频;然后,关联学习器通过VQ-VAE进一步将MSMC表示抽象为高度紧凑的VQ表示。这两个生成式VQ-S3R学习器为TTS提供了有益的语音表示和预训练模型,在较低的监督数据需求下显著提高了合成质量。QS-TTS在实验中通过主观和客观测试在各种场景下进行了全面评估。结果有力地证明了QS-TTS的优越性能,在监督或半监督基线TTS方法中获得了最高的MOS,尤其是在低资源场景中。此外,比较TTS中的各种语音表示和迁移学习方法进一步验证了所提出的VQ-S3RL对TTS的显著改进,显示出最佳的音频质量和可懂度指标。随着监督数据的减少,QS-TTS的合成质量衰减较慢的趋势进一步突显了其对监督数据的较低需求,表明其在低资源场景中具有巨大的潜力。
摘要: This paper proposes a novel semi-supervised TTS framework, QS-TTS, to improve TTS quality with lower supervised data requirements via Vector-Quantized Self-Supervised Speech Representation Learning (VQ-S3RL) utilizing more unlabeled speech audio. This framework comprises two VQ-S3R learners: first, the principal learner aims to provide a generative Multi-Stage Multi-Codebook (MSMC) VQ-S3R via the MSMC-VQ-GAN combined with the contrastive S3RL, while decoding it back to the high-quality audio; then, the associate learner further abstracts the MSMC representation into a highly-compact VQ representation through a VQ-VAE. These two generative VQ-S3R learners provide profitable speech representations and pre-trained models for TTS, significantly improving synthesis quality with the lower requirement for supervised data. QS-TTS is evaluated comprehensively under various scenarios via subjective and objective tests in experiments. The results powerfully demonstrate the superior performance of QS-TTS, winning the highest MOS over supervised or semi-supervised baseline TTS approaches, especially in low-resource scenarios. Moreover, comparing various speech representations and transfer learning methods in TTS further validates the notable improvement of the proposed VQ-S3RL to TTS, showing the best audio quality and intelligibility metrics. The trend of slower decay in the synthesis quality of QS-TTS with decreasing supervised data further highlights its lower requirements for supervised data, indicating its great potential in low-resource scenarios.
主题: 声音 (cs.SD) ; 计算与语言 (cs.CL); 音频与语音处理 (eess.AS)
引用方式: arXiv:2309.00126 [cs.SD]
  (或者 arXiv:2309.00126v1 [cs.SD] 对于此版本)
  https://doi.org/10.48550/arXiv.2309.00126
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Haohan Guo [查看电子邮件]
[v1] 星期四, 2023 年 8 月 31 日 20:25:44 UTC (4,588 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
查看许可
当前浏览上下文:
cs.SD
< 上一篇   |   下一篇 >
新的 | 最近的 | 2023-09
切换浏览方式为:
cs
cs.CL
eess
eess.AS

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号