计算机科学 > 声音
[提交于 2026年2月1日
]
标题: 因果解耦对比学习用于多语言说话人嵌入
标题: Causally Disentangled Contrastive Learning for Multilingual Speaker Embeddings
摘要: 自监督说话人嵌入在说话人验证系统中被广泛使用,但先前的研究表明,它们通常会编码敏感的人口统计属性,引发公平性和隐私问题。 本文研究了在SimCLR训练的说话人嵌入中,人口统计信息(特别是性别、年龄和口音)的呈现程度,以及这种泄露是否可以在不严重降低说话人验证性能的情况下得到缓解。 我们研究了两种去偏策略:通过梯度反转进行对抗训练,以及一种显式分离人口统计信息和剩余信息的因果瓶颈架构。 使用线性和非线性探测分类器来量化人口统计信息的泄露,而说话人验证性能则通过ROC-AUC和EER进行评估。 我们的结果表明,性别信息在基线嵌入中被强烈且线性地编码,而年龄和口音较弱,主要以非线性方式表示。 对抗去偏减少了性别泄露,但对年龄和口音的影响有限,并且与验证准确率存在明显的权衡。 因果瓶颈进一步抑制了人口统计信息,尤其是在剩余表示中,但导致了显著的性能下降。 这些发现突显了在自监督说话人嵌入中减轻人口统计信息泄露的基本局限性,并阐明了当前去偏方法中固有的权衡。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.