计算机科学 > 声音
[提交于 2023年6月9日
]
标题: 基于Wav2vec2的假音频检测低秩自适应方法
标题: Low-rank Adaptation Method for Wav2vec2-based Fake Audio Detection
摘要: 自监督语音模型是假音频检测领域的一个快速发展研究课题。 许多预训练模型可以作为特征提取器,学习更丰富和更高层次的语音特征。 然而,在微调预训练模型时,通常会面临训练时间过长和内存消耗高的挑战,并且完全微调也非常昂贵。 为了解决这个问题,我们将低秩适应(LoRA)应用于wav2vec2模型,冻结预训练模型权重,并在Transformer架构的每一层中注入一个可训练的秩分解矩阵,大大减少了下游任务的可训练参数数量。 与在包含317M训练参数的wav2vec2模型上使用Adam进行微调相比,LoRA通过将可训练参数的数量减少198倍,实现了相似的性能。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.