电气工程与系统科学 > 音频与语音处理
[提交于 2025年8月1日
]
标题: 波束成形的360°声音图:U-Net驱动的声源分割与定位
标题: Beamformed 360° Sound Maps: U-Net-Driven Acoustic Source Segmentation and Localization
摘要: 我们引入了一个U-net模型用于360{\deg }声源定位,该模型被表述为球面语义分割任务。 而不是回归离散的到达方向(DoA)角度,我们的模型将波束成形音频图(方位角和仰角)分割成存在活跃声音的区域。 使用自定义的24麦克风阵列进行延迟与求和(DAS)波束成形,我们生成与无人机GPS遥测对齐的信号以创建二进制监督掩码。 一个修改后的U-Net,在这些图的频域表示上进行训练,能够识别空间分布的声源区域,并通过Tversky损失处理类别不平衡问题。 由于网络在波束成形能量图上运行,该方法本质上与阵列无关,可以在不从头开始重新训练的情况下适应不同的麦克风配置。 通过在激活区域上计算质心对分割输出进行后处理,从而实现稳健的DoA估计。 我们的数据集包括DJI Air 3无人机在多个日期和地点的真实开放场地录音,同步了360{\deg }视频和飞行日志。 实验结果表明,U-net在不同环境中具有泛化能力,提供了改进的角度精度,为超越传统声源定位(SSL)的密集空间音频理解提供了一种新范式。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.