Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2602.01793

帮助 | 高级搜索

计算机科学 > 声音

arXiv:2602.01793 (cs)
[提交于 2026年2月2日 ]

标题: ParaGSE:基于组向量量化神经语音编解码器的并行生成语音增强

标题: ParaGSE: Parallel Generative Speech Enhancement with Group-Vector-Quantization-based Neural Speech Codec

Authors:Fei Liu, Yang Ai
摘要: 最近,生成式语音增强引起了广泛关注;然而,现有的方法受到过度复杂性、有限效率和次优语音质量的限制。 为了克服这些挑战,本文提出了一种新颖的并行生成式语音增强(ParaGSE)框架,该框架利用基于组向量量化(GVQ)的神经语音编解码器。 基于GVQ的编解码器采用独立的VQ来生成相互独立的标记,从而在ParaGSE中实现高效的并行标记预测。 具体来说,ParaGSE利用基于GVQ的编解码器将退化的语音编码为不同的标记,通过并行分支根据退化频谱特征预测相应的干净标记,并最终通过编解码器解码器重建干净语音。 实验结果表明,在包括噪声、混响、带宽限制及其混合在内的广泛失真情况下,ParaGSE始终能产生优于判别式和生成式基线的增强语音。 此外,得益于标记预测中的并行计算,与串行生成式语音增强方法相比,ParaGSE在CPU上的生成效率提高了约1.5倍。
摘要: Recently, generative speech enhancement has garnered considerable interest; however, existing approaches are hindered by excessive complexity, limited efficiency, and suboptimal speech quality. To overcome these challenges, this paper proposes a novel parallel generative speech enhancement (ParaGSE) framework that leverages a group vector quantization (GVQ)-based neural speech codec. The GVQ-based codec adopts separate VQs to produce mutually independent tokens, enabling efficient parallel token prediction in ParaGSE. Specifically, ParaGSE leverages the GVQ-based codec to encode degraded speech into distinct tokens, predicts the corresponding clean tokens through parallel branches conditioned on degraded spectral features, and ultimately reconstructs clean speech via the codec decoder. Experimental results demonstrate that ParaGSE consistently produces superior enhanced speech compared to both discriminative and generative baselines, under a wide range of distortions including noise, reverberation, band-limiting, and their mixtures. Furthermore, empowered by parallel computation in token prediction, ParaGSE attains about a 1.5-fold improvement in generation efficiency on CPU compared with serial generative speech enhancement approaches.
评论: 被ICASSP 2026接收
主题: 声音 (cs.SD)
引用方式: arXiv:2602.01793 [cs.SD]
  (或者 arXiv:2602.01793v1 [cs.SD] 对于此版本)
  https://doi.org/10.48550/arXiv.2602.01793
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Fei Liu [查看电子邮件]
[v1] 星期一, 2026 年 2 月 2 日 08:22:02 UTC (73 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
查看许可
当前浏览上下文:
cs.SD
< 上一篇   |   下一篇 >
新的 | 最近的 | 2026-02
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号