Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2508.20717

帮助 | 高级搜索

计算机科学 > 声音

arXiv:2508.20717 (cs)
[提交于 2025年8月28日 ]

标题: 基于语音的多种临床状况检测的统一多任务学习

标题: Unified Multi-task Learning for Voice-Based Detection of Diverse Clinical Conditions

Authors:Ran Piao, Yuan Lu, Hareld Kemps, Tong Xia, Aaqib Saeed
摘要: 基于语音的健康评估为可扩展的非侵入性疾病筛查提供了前所未有的机会,但现有的方法通常只关注单一疾病,未能利用语音中嵌入的丰富多维信息。 我们提出了MARVEL(用于语音健康分析的多任务声学表示),这是一个注重隐私的多任务学习框架,仅使用派生的声学特征即可同时检测九种不同的神经、呼吸和语音障碍,消除了原始音频传输的需要。 我们的双分支架构采用具有任务特定头部的专业编码器,共享一个共同的声学主干,从而实现跨条件知识的有效迁移。 在大规模Bridge2AI-Voice v2.0数据集上进行评估,MARVEL的整体AUROC达到0.78,在神经疾病方面表现优异(AUROC = 0.89),特别是阿尔茨海默病/轻度认知障碍(AUROC = 0.97)。 我们的框架在单模态基线上始终表现出5-19%的提升,并在9项任务中的7项上超越了最先进的自监督模型,相关性分析表明,学习到的表示与已建立的声学特征具有有意义的相似性,表明模型的内部表示与临床认可的声学模式一致。 通过证明单一统一模型可以有效筛查多种疾病,这项工作为资源有限和偏远医疗环境中的可部署语音诊断奠定了基础。
摘要: Voice-based health assessment offers unprecedented opportunities for scalable, non-invasive disease screening, yet existing approaches typically focus on single conditions and fail to leverage the rich, multi-faceted information embedded in speech. We present MARVEL (Multi-task Acoustic Representations for Voice-based Health Analysis), a privacy-conscious multitask learning framework that simultaneously detects nine distinct neurological, respiratory, and voice disorders using only derived acoustic features, eliminating the need for raw audio transmission. Our dual-branch architecture employs specialized encoders with task-specific heads sharing a common acoustic backbone, enabling effective cross-condition knowledge transfer. Evaluated on the large-scale Bridge2AI-Voice v2.0 dataset, MARVEL achieves an overall AUROC of 0.78, with exceptional performance on neurological disorders (AUROC = 0.89), particularly for Alzheimer's disease/mild cognitive impairment (AUROC = 0.97). Our framework consistently outperforms single-modal baselines by 5-19% and surpasses state-of-the-art self-supervised models on 7 of 9 tasks, while correlation analysis reveals that the learned representations exhibit meaningful similarities with established acoustic features, indicating that the model's internal representations are consistent with clinically recognized acoustic patterns. By demonstrating that a single unified model can effectively screen for diverse conditions, this work establishes a foundation for deployable voice-based diagnostics in resource-constrained and remote healthcare settings.
主题: 声音 (cs.SD) ; 机器学习 (cs.LG)
引用方式: arXiv:2508.20717 [cs.SD]
  (或者 arXiv:2508.20717v1 [cs.SD] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.20717
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Ran Piao [查看电子邮件]
[v1] 星期四, 2025 年 8 月 28 日 12:37:25 UTC (5,930 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
许可图标 查看许可
当前浏览上下文:
cs.SD
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08
切换浏览方式为:
cs
cs.LG

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号