计算机科学 > 声音
[提交于 2023年6月9日
(v1)
,最后修订 2023年10月1日 (此版本, v2)]
标题: 使用变换网络重建钢琴表演中的人类表现力
标题: Reconstructing Human Expressiveness in Piano Performances with a Transformer Network
摘要: 使用计算方法捕捉音乐表演中人类表现力的复杂且微妙的变化是一项挑战。 本文提出了一种新颖的方法,利用多层双向 Transformer 编码器重建钢琴演奏中的情感表达。 为了解决训练神经网络时需要大量准确捕获和音符对齐的表演数据的问题,我们使用现有的转录模型获得的转录乐谱来训练我们的模型。 我们将钢琴家的身份纳入采样过程,并探索我们的系统建模不同钢琴家表现力变化的能力。 通过生成的富有表现力的表演的统计分析和听觉测试对系统进行评估。 总体而言,结果表明,我们的方法在从转录乐谱生成类人钢琴演奏方面达到了最先进的水平,但完全且一致地重建人类表现力仍面临进一步的挑战。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.