计算机科学 > 声音
            [提交于 2025年8月4日
            
            
            
            ]
          
          标题: 绘制深度学习在语音情感识别中15年进展的图表:一项复制研究
标题: Charting 15 years of progress in deep learning for speech emotion recognition: A replication study
摘要: 语音情感识别(SER)长期以来受益于深度学习方法的应用。 更深的模型——具有更多层和更多可训练参数——通常被SER社区认为是“更好”的。 这引发了一个问题——\emph{更好多少}现代时代的深度神经网络与早期版本相比如何? 除此之外,如何前进的更重要问题依然同样紧迫。 SER远未解决;因此,确定未来研究最显著的途径至关重要。 在本次贡献中,我们尝试量化自2009年INTERSPEECH情感挑战赛这一里程碑引入以来15年研究中的进展。 我们对模型架构进行了大规模调查,涵盖了依赖语音输入的基于音频的模型和仅依赖转录文本的基于文本的模型。 我们的结果表明,在最近引入Transformer架构之后,收益递减并趋于平稳。 此外,我们展示了对进展的感知是如何取决于所比较模型的具体选择的。 我们的发现对SER研究的最新状态和前进路径有重要的影响。
文献和引用工具
与本文相关的代码,数据和媒体
            alphaXiv (什么是 alphaXiv?)
          
        
            CatalyzeX 代码查找器 (什么是 CatalyzeX?)
          
        
            DagsHub (什么是 DagsHub?)
          
        
            Gotit.pub (什么是 GotitPub?)
          
        
            Hugging Face (什么是 Huggingface?)
          
        
            带有代码的论文 (什么是带有代码的论文?)
          
        
            ScienceCast (什么是 ScienceCast?)
          
        演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.
 
  