计算机科学 > 声音
[提交于 2025年8月11日
]
标题: 一种适用于移动全双工语音交互的小型声学回声消除解决方案
标题: A Small-footprint Acoustic Echo Cancellation Solution for Mobile Full-Duplex Speech Interactions
摘要: 在全双工语音交互系统中,有效的声学回声消除(AEC)对于恢复受回声污染的语音至关重要。本文提出了一种基于神经网络的AEC解决方案,以应对移动场景中的各种挑战,包括不同的硬件、非线性失真和长延迟。我们首先结合多种数据增强策略,以提高模型在不同环境中的鲁棒性。此外,采用渐进式学习来逐步提高AEC的效果,从而显著提升了语音质量。为了进一步优化AEC的下游应用,我们引入了一种新颖的后处理策略,采用专门为语音活动检测(VAD)和自动语音识别(ASR)等任务设计的定制参数,从而提高了它们的整体效果。最后,我们的方法采用了一个小尺寸模型和流式推理,使得在移动设备上的无缝部署成为可能。实证结果表明,所提出的方法在回声返回损耗增强和语音质量感知评估方面具有有效性,并且在VAD和ASR结果上均有显著提升。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.