电气工程与系统科学 > 音频与语音处理
[提交于 2023年6月6日
]
标题: Mega-TTS:具有内在归纳偏置的规模零样本文本到语音
标题: Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias
摘要: 将文本到语音扩展到大规模且复杂的数据集已被证明在实现音色和语音风格的泛化方面非常有效,特别是在零样本TTS中。 然而,以往的工作通常使用音频编解码器将语音编码为潜在表示,并使用自回归语言模型或扩散模型进行生成,这忽略了语音的内在特性,可能导致结果较差或不可控。 我们认为语音可以分解为几个属性(例如内容、音色、语调和相位),并且每个属性应使用具有适当归纳偏差的模块进行建模。 从这个角度来看,我们精心设计了一个新颖且大型的零样本TTS系统,称为Mega-TTS,它使用大规模的复杂数据进行训练,并以不同的方式对不同属性进行建模:1)而不是使用音频编解码器编码的潜在表示作为中间特征,我们仍然选择频谱图,因为它能很好地分离相位和其他属性。相位可以通过基于GAN的声码器适当构建,不需要由语言模型进行建模。2)我们使用全局向量来建模音色,因为音色是一个随时间缓慢变化的全局属性。3)我们进一步使用基于VQGAN的声学模型生成频谱图,并使用潜在代码语言模型来拟合语调的分布,因为语调在句子中随时间快速变化,而语言模型可以捕捉局部和长距离依赖关系。 我们将Mega-TTS扩展到包含20K小时语音的多领域数据集,并在未见过的说话人上评估其性能。 实验结果表明,由于每个模块的适当归纳偏差,Mega-TTS在零样本TTS、语音编辑和跨语言TTS任务中超越了最先进的TTS系统,表现出更自然、更稳健和更高的说话人相似性。 音频样本可在https://mega-tts.github.io/demo-page获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.