计算机科学 > 声音
[提交于 2025年8月20日
(此版本)
, 最新版本 2025年9月27日 (v3)
]
标题: ECHO:面向频率的变长信号分层编码
标题: ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signal
摘要: 预训练基础模型在视觉和语言领域表现出色,但它们在通用机器信号建模方面的潜力——涵盖声学、振动和其他工业传感器数据——仍未得到充分探索。 现有的基于子带编码器的方法已取得有竞争力的结果,但受限于固定的输入长度,以及缺乏显式的频率位置编码。 在本工作中,我们提出了一种新颖的基础模型,该模型结合了先进的带分割架构与相对频率位置嵌入,能够在任意采样配置下实现精确的频谱定位。 该模型支持任意长度的输入,无需填充或分段,生成的嵌入表示保留了时间和频谱保真度。 我们在 SIREN(https://github.com/yucongzh/SIREN)上评估了我们的方法,这是一个新提出的用于机器信号编码的大规模基准,它统一了多个数据集,包括所有 DCASE 任务 2 挑战(2020-2025)和广泛使用的工业信号语料库。 实验结果表明,在异常检测和故障识别方面,我们的方法始终表现出最先进的性能,证实了所提出模型的有效性和泛化能力。 我们在 https://github.com/yucongzh/ECHO 上开源了 ECHO。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.