电气工程与系统科学 > 音频与语音处理
[提交于 2025年9月23日
]
标题: 重新思考时频域神经声码器中幅度和相位的联合估计
标题: Rethinking the joint estimation of magnitude and phase for time-frequency domain neural vocoders
摘要: 基于时频(T-F)域的神经声码器在合成高保真音频方面表现出良好的效果。 然而,有效联合预测幅度和相位目标的机制仍不明确。 在本文中,我们从两种具有代表性的 T-F 域声码器开始,即 Vocos 和 APNet2,它们分别属于单流和双流模式,用于幅度和相位估计。 在大规模数据集上评估它们的性能时,我们意外地观察到 APNet2 的性能严重崩溃。 为了稳定其性能,本文中,我们引入了三种简单而有效的策略,分别针对拓扑空间、源空间和输出空间。 具体来说,我们修改了架构拓扑以在拓扑空间中实现更好的信息交换,引入先验知识以在源空间中促进生成过程,并优化反向传播过程以在输出空间中通过改进的输出格式进行参数更新。 实验结果表明,我们提出的方法有效促进了 APNet2 中幅度和相位的联合估计,从而弥合了单流和双流声码器之间的性能差异。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.