计算机科学 > 声音
            [提交于 2025年8月5日
            
             (v1)
            
            
              ,最后修订 2025年10月25日 (此版本, v3)]
          
          标题: EmoSteer-TTS:通过激活引导实现细粒度和无需训练的情感可控文本转语音
标题: EmoSteer-TTS: Fine-Grained and Training-Free Emotion-Controllable Text-to-Speech via Activation Steering
摘要: 文本到语音(TTS)近年来取得了显著进展。 然而,大多数现有的TTS系统仅提供粗粒度和僵硬的情感控制,通常通过离散的情感标签或精心设计和详细的带有情感的文本提示来实现,这使得细粒度的情感操作要么不可用,要么不稳定。 这些模型还需要大量的高质量数据集进行训练。 为了解决这些限制,我们提出了EmoSteer-TTS,这是一种新颖的无需训练的方法,通过激活引导实现细粒度的语音情感控制(转换、插值、消除)。 我们首先通过实验观察到,在基于流匹配的TTS模型内部激活的一部分进行修改可以有效地改变合成语音的情感基调。 在此基础上,我们开发了一种无需训练且高效的算法,包括激活提取、情感标记搜索和推理时的引导,可以无缝集成到各种预训练模型中(例如F5-TTS、CosyVoice2和E2-TTS)。 此外,为了获得有效的引导向量,我们构建了一个具有多样说话者的精选情感语音数据集。 大量实验表明,EmoSteer-TTS实现了对语音情感的细粒度、可解释和连续的控制,优于最先进的(SOTA)方法。 据我们所知,这是第一个在TTS中实现无需训练和连续细粒度情感控制的方法。 演示样本可在https://emosteer-tts-demo.pages.dev/获取。
文献和引用工具
与本文相关的代码,数据和媒体
            alphaXiv (什么是 alphaXiv?)
          
        
            CatalyzeX 代码查找器 (什么是 CatalyzeX?)
          
        
            DagsHub (什么是 DagsHub?)
          
        
            Gotit.pub (什么是 GotitPub?)
          
        
            Hugging Face (什么是 Huggingface?)
          
        
            带有代码的论文 (什么是带有代码的论文?)
          
        
            ScienceCast (什么是 ScienceCast?)
          
        演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.
 
  