计算机科学 > 声音
[提交于 2023年5月31日
]
标题: MuseCoco:从文本生成符号音乐
标题: MuseCoco: Generating Symbolic Music from Text
摘要: 从文本描述生成音乐是一种用户友好的模式,因为文本是用户参与相对容易的界面。 虽然一些方法利用文本来控制音乐音频的生成,但在生成的音频中编辑音乐元素对用户来说具有挑战性。 相比之下,符号音乐易于编辑,使用户更容易操作特定的音乐元素。 在本文中,我们提出了MuseCoco,它通过音乐属性作为桥梁,将任务分解为文本到属性理解和属性到音乐生成两个阶段,从而从文本描述生成符号音乐。 MuseCoCo代表音乐创作协作者,它使音乐家能够直接从给定的文本描述生成音乐,与完全从零开始创作音乐相比,效率有显著提高。 该系统有两个主要优势:首先,它数据高效。 在属性到音乐生成阶段,属性可以直接从音乐序列中提取,使模型训练自我监督。 在文本到属性理解阶段,文本是基于定义的属性模板由ChatGPT合成和优化的。 其次,该系统可以通过属性条件或文本条件的方法实现对文本描述中特定属性的精确控制,并提供多种控制选项。 MuseCoco在音乐性、可控性和总体评分方面分别至少优于基线系统1.27、1.08和1.32。 此外,客观控制准确率有约20%的显著提升。 此外,我们开发了一个具有12亿参数的鲁棒大规模模型,展示了卓越的可控性和音乐性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.