计算机科学 > 声音
[提交于 2022年7月7日
]
标题: 跨尺度向量量化用于可扩展神经语音编码
标题: Cross-Scale Vector Quantization for Scalable Neural Speech Coding
摘要: 比特率可扩展性是实时通信中音频编码的一个理想特性。 现有的神经音频编解码器通常在训练期间强制特定的比特率,因此需要为每个目标比特率训练不同的模型,这增加了发送方和接收方的内存占用,并且通常需要转码以支持多个接收方。 在本文中,我们引入了一种跨尺度可扩展的矢量量化方案(CSVQ),其中多尺度特征通过逐步的特征融合和优化进行渐进式编码。 这样,如果只接收到一部分比特流,就可以重建粗略级别的信号,并且随着更多比特的可用,质量会逐步提高。 所提出的CSVQ方案可以灵活地应用于任何具有镜像自编码器结构的神经音频编码网络,以实现比特率可扩展性。 主观结果表明,所提出的方案在可扩展性方面优于经典的残差VQ(RVQ)。 此外,3 kbps的CSVQ在性能上超过了9 kbps的Opus和3 kbps的Lyra,并且可以在比特率增加时提供平滑的质量提升。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.