Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2510.17474

帮助 | 高级搜索

计算机科学 > 声音

arXiv:2510.17474 (cs)
[提交于 2025年10月20日 (v1) ,最后修订 2025年11月18日 (此版本, v2)]

标题: 并非所有深度伪造都相同:对音频伪造进行优先处理以实现稳健的深度伪造歌手识别

标题: Not All Deepfakes Are Created Equal: Triaging Audio Forgeries for Robust Deepfake Singer Identification

Authors:Davide Salvi, Hendrik Vincent Koops, Elio Quinton
摘要: 高度逼真的歌唱语音深度伪造的泛滥给保护艺术家形象和内容真实性带来了重大挑战。 在语音深度伪造中自动识别歌手是一种有前景的途径,使艺术家和权利持有人能够对抗未经授权使用其声音,但仍然是一个开放的研究问题。 基于最有害的深度伪造是最高质量的这一前提,我们引入了一个两阶段的流程来识别歌手的语音相似性。 它首先使用一个判别器模型来过滤掉那些无法准确再现语音相似性的低质量伪造品。 随后的模型仅在真实录音上进行训练,用于识别剩余高质量深度伪造和真实音频中的歌手。 实验表明,该系统在真实和合成内容上始终优于现有的基线方法。
摘要: The proliferation of highly realistic singing voice deepfakes presents a significant challenge to protecting artist likeness and content authenticity. Automatic singer identification in vocal deepfakes is a promising avenue for artists and rights holders to defend against unauthorized use of their voice, but remains an open research problem. Based on the premise that the most harmful deepfakes are those of the highest quality, we introduce a two-stage pipeline to identify a singer's vocal likeness. It first employs a discriminator model to filter out low-quality forgeries that fail to accurately reproduce vocal likeness. A subsequent model, trained exclusively on authentic recordings, identifies the singer in the remaining high-quality deepfakes and authentic audio. Experiments show that this system consistently outperforms existing baselines on both authentic and synthetic content.
评论: 已被接受在NeurIPS 2025生成与保护性人工智能用于内容创作研讨会(非归档)上展示
主题: 声音 (cs.SD)
引用方式: arXiv:2510.17474 [cs.SD]
  (或者 arXiv:2510.17474v2 [cs.SD] 对于此版本)
  https://doi.org/10.48550/arXiv.2510.17474
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Hendrik Vincent Koops [查看电子邮件]
[v1] 星期一, 2025 年 10 月 20 日 12:16:52 UTC (342 KB)
[v2] 星期二, 2025 年 11 月 18 日 08:51:54 UTC (340 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
查看许可
当前浏览上下文:
cs.SD
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-10
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号