计算机科学 > 声音
            [提交于 2025年8月28日
            
            
            
            ]
          
          标题: 基于语音的多种临床状况检测的统一多任务学习
标题: Unified Multi-task Learning for Voice-Based Detection of Diverse Clinical Conditions
摘要: 基于语音的健康评估为可扩展的非侵入性疾病筛查提供了前所未有的机会,但现有的方法通常只关注单一疾病,未能利用语音中嵌入的丰富多维信息。 我们提出了MARVEL(用于语音健康分析的多任务声学表示),这是一个注重隐私的多任务学习框架,仅使用派生的声学特征即可同时检测九种不同的神经、呼吸和语音障碍,消除了原始音频传输的需要。 我们的双分支架构采用具有任务特定头部的专业编码器,共享一个共同的声学主干,从而实现跨条件知识的有效迁移。 在大规模Bridge2AI-Voice v2.0数据集上进行评估,MARVEL的整体AUROC达到0.78,在神经疾病方面表现优异(AUROC = 0.89),特别是阿尔茨海默病/轻度认知障碍(AUROC = 0.97)。 我们的框架在单模态基线上始终表现出5-19%的提升,并在9项任务中的7项上超越了最先进的自监督模型,相关性分析表明,学习到的表示与已建立的声学特征具有有意义的相似性,表明模型的内部表示与临床认可的声学模式一致。 通过证明单一统一模型可以有效筛查多种疾病,这项工作为资源有限和偏远医疗环境中的可部署语音诊断奠定了基础。
文献和引用工具
与本文相关的代码,数据和媒体
            alphaXiv (什么是 alphaXiv?)
          
        
            CatalyzeX 代码查找器 (什么是 CatalyzeX?)
          
        
            DagsHub (什么是 DagsHub?)
          
        
            Gotit.pub (什么是 GotitPub?)
          
        
            Hugging Face (什么是 Huggingface?)
          
        
            带有代码的论文 (什么是带有代码的论文?)
          
        
            ScienceCast (什么是 ScienceCast?)
          
        演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.
 
               
  