Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2306.03177

帮助 | 高级搜索

计算机科学 > 声音

arXiv:2306.03177 (cs)
[提交于 2023年6月5日 ]

标题: DeepVQE:用于联合声学回声消除、噪声抑制和去混响的实时深度语音质量增强

标题: DeepVQE: Real Time Deep Voice Quality Enhancement for Joint Acoustic Echo Cancellation, Noise Suppression and Dereverberation

Authors:Evgenii Indenbom, Nicolae-Catalin Ristea, Ando Saabas, Tanel Parnamaa, Jegor Guzvin, Ross Cutler
摘要: 声学回声消除(AEC)、噪声抑制(NS)和去混响(DR)是现代全双工通信系统不可或缺的一部分。随着对视频会议系统需求的增加,解决这些任务对于实现高效且有效的在线会议体验至关重要。大多数先前的研究分别提出了解决这些任务的方案,将其与基于数字信号处理(DSP)的组件结合,导致了复杂且在实际应用中往往不切实际的处理流程。本文提出了一种实时的交叉注意力深度模型,称为DeepVQE,该模型基于残差卷积神经网络(CNNs)和循环神经网络(RNNs),以同时处理AEC、NS和DR。我们进行了多项消融研究,以分析模型不同组件对整体性能的贡献。DeepVQE在ICASSP 2023声学回声消除挑战赛和ICASSP 2023深度噪声抑制挑战赛的非个性化测试集上达到了最先进水平,表明一个模型可以以卓越的性能处理多个任务。此外,该模型能够实时运行,并已在Microsoft Teams平台上成功测试。
摘要: Acoustic echo cancellation (AEC), noise suppression (NS) and dereverberation (DR) are an integral part of modern full-duplex communication systems. As the demand for teleconferencing systems increases, addressing these tasks is required for an effective and efficient online meeting experience. Most prior research proposes solutions for these tasks separately, combining them with digital signal processing (DSP) based components, resulting in complex pipelines that are often impractical to deploy in real-world applications. This paper proposes a real-time cross-attention deep model, named DeepVQE, based on residual convolutional neural networks (CNNs) and recurrent neural networks (RNNs) to simultaneously address AEC, NS, and DR. We conduct several ablation studies to analyze the contributions of different components of our model to the overall performance. DeepVQE achieves state-of-the-art performance on non-personalized tracks from the ICASSP 2023 Acoustic Echo Cancellation Challenge and ICASSP 2023 Deep Noise Suppression Challenge test sets, showing that a single model can handle multiple tasks with excellent performance. Moreover, the model runs in real-time and has been successfully tested for the Microsoft Teams platform.
主题: 声音 (cs.SD) ; 计算机视觉与模式识别 (cs.CV); 音频与语音处理 (eess.AS)
引用方式: arXiv:2306.03177 [cs.SD]
  (或者 arXiv:2306.03177v1 [cs.SD] 对于此版本)
  https://doi.org/10.48550/arXiv.2306.03177
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Nicolae Catain Ristea [查看电子邮件]
[v1] 星期一, 2023 年 6 月 5 日 18:37:05 UTC (2,188 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
许可图标 查看许可
当前浏览上下文:
eess
< 上一篇   |   下一篇 >
新的 | 最近的 | 2023-06
切换浏览方式为:
cs
cs.CV
cs.SD
eess.AS

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号