计算机科学 > 声音
[提交于 2023年6月2日
(v1)
,最后修订 2023年7月7日 (此版本, v2)]
标题: JEPOO:用于音乐信息检索的高精度音高、起始和终止联合估计
标题: JEPOO: Highly Accurate Joint Estimation of Pitch, Onset and Offset for Music Information Retrieval
摘要: 旋律提取是音乐信息检索中的核心任务,而音高、起始点和终止点的估计是旋律提取的关键子任务。现有方法的准确性有限,并且只能处理单一音高或复音高的某一种数据类型。本文提出了一种名为JEPOO的高度准确的方法,用于联合估计音高、起始点和终止点。我们通过新颖的模型设计以及一种名为帕累托调节损失(带有损失权重正则化的)的新优化技术,解决了联合学习优化以及处理单一音高和复音高数据的挑战。这是首个能够准确处理单一音高和复音高音乐数据(甚至包括它们的混合)的方法。广泛的真实数据集上的综合实验研究表明,JEPOO在预测音高、起始点和终止点方面分别比最先进的方法高出10.6%、8.3%和10.3%,并且JEPOO对各种类型的数据和乐器都具有鲁棒性。消融研究显示了JEPOO各组成部分的有效性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.