电气工程与系统科学 > 音频与语音处理
            [提交于 2025年8月6日
            
            
            
            ]
          
          标题: 说话人验证的说话人文本因子分解嵌入文本适应
标题: Text adaptation for speaker verification with speaker-text factorized embeddings
摘要: 预收集数据(无论是训练数据还是注册数据)与实际测试数据之间的文本不匹配会显著影响文本依赖的说话人验证(SV)系统性能。 尽管可以通过仔细收集具有目标语音内容的数据来解决这个问题,但这种数据收集可能成本高昂且不够灵活。 在本文中,我们提出了一种新颖的文本适应框架来解决文本不匹配问题。 在这里,提出了一种说话人-文本因子分解网络,将输入语音分解为说话人嵌入和文本嵌入,然后在后续阶段将它们集成到一个表示中。 给定少量与说话人无关的适应语音,可以提取目标语音内容的文本嵌入,并用于将与文本无关的说话人嵌入适应为定制文本的说话人嵌入。 在RSR2015上的实验表明,文本适应可以显著提高文本不匹配条件下的性能。
文献和引用工具
与本文相关的代码,数据和媒体
            alphaXiv (什么是 alphaXiv?)
          
        
            CatalyzeX 代码查找器 (什么是 CatalyzeX?)
          
        
            DagsHub (什么是 DagsHub?)
          
        
            Gotit.pub (什么是 GotitPub?)
          
        
            Hugging Face (什么是 Huggingface?)
          
        
            带有代码的论文 (什么是带有代码的论文?)
          
        
            ScienceCast (什么是 ScienceCast?)
          
        演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.
 
  