Unified Multi-task Learning for Voice-Based Detection of Diverse Clinical Conditions

Piao, Ran; Lu, Yuan; Kemps, Hareld; Xia, Tong; Saeed, Aaqib

计算机科学 > 声音

arXiv:2508.20717 (cs)

[提交于 2025年8月28日 ]

标题：基于语音的多种临床状况检测的统一多任务学习

标题： Unified Multi-task Learning for Voice-Based Detection of Diverse Clinical Conditions

Authors:Ran Piao, Yuan Lu, Hareld Kemps, Tong Xia, Aaqib Saeed

摘要：基于语音的健康评估为可扩展的非侵入性疾病筛查提供了前所未有的机会，但现有的方法通常只关注单一疾病，未能利用语音中嵌入的丰富多维信息。我们提出了MARVEL（用于语音健康分析的多任务声学表示），这是一个注重隐私的多任务学习框架，仅使用派生的声学特征即可同时检测九种不同的神经、呼吸和语音障碍，消除了原始音频传输的需要。我们的双分支架构采用具有任务特定头部的专业编码器，共享一个共同的声学主干，从而实现跨条件知识的有效迁移。在大规模Bridge2AI-Voice v2.0数据集上进行评估，MARVEL的整体AUROC达到0.78，在神经疾病方面表现优异（AUROC = 0.89），特别是阿尔茨海默病/轻度认知障碍（AUROC = 0.97）。我们的框架在单模态基线上始终表现出5-19%的提升，并在9项任务中的7项上超越了最先进的自监督模型，相关性分析表明，学习到的表示与已建立的声学特征具有有意义的相似性，表明模型的内部表示与临床认可的声学模式一致。通过证明单一统一模型可以有效筛查多种疾病，这项工作为资源有限和偏远医疗环境中的可部署语音诊断奠定了基础。

摘要： Voice-based health assessment offers unprecedented opportunities for scalable, non-invasive disease screening, yet existing approaches typically focus on single conditions and fail to leverage the rich, multi-faceted information embedded in speech. We present MARVEL (Multi-task Acoustic Representations for Voice-based Health Analysis), a privacy-conscious multitask learning framework that simultaneously detects nine distinct neurological, respiratory, and voice disorders using only derived acoustic features, eliminating the need for raw audio transmission. Our dual-branch architecture employs specialized encoders with task-specific heads sharing a common acoustic backbone, enabling effective cross-condition knowledge transfer. Evaluated on the large-scale Bridge2AI-Voice v2.0 dataset, MARVEL achieves an overall AUROC of 0.78, with exceptional performance on neurological disorders (AUROC = 0.89), particularly for Alzheimer's disease/mild cognitive impairment (AUROC = 0.97). Our framework consistently outperforms single-modal baselines by 5-19% and surpasses state-of-the-art self-supervised models on 7 of 9 tasks, while correlation analysis reveals that the learned representations exhibit meaningful similarities with established acoustic features, indicating that the model's internal representations are consistent with clinically recognized acoustic patterns. By demonstrating that a single unified model can effectively screen for diverse conditions, this work establishes a foundation for deployable voice-based diagnostics in resource-constrained and remote healthcare settings.

主题：	声音 (cs.SD) ; 机器学习 (cs.LG)
引用方式：	arXiv:2508.20717 [cs.SD]
	(或者 arXiv:2508.20717v1 [cs.SD] 对于此版本)
	https://doi.org/10.48550/arXiv.2508.20717

提交历史

来自： Ran Piao [查看电子邮件]
[v1] 星期四， 2025 年 8 月 28 日 12:37:25 UTC (5,930 KB)

计算机科学 > 声音

标题：基于语音的多种临床状况检测的统一多任务学习

标题： Unified Multi-task Learning for Voice-Based Detection of Diverse Clinical Conditions

提交历史

获取论文：

参考文献与引用

收藏

文献和引用工具

与本文相关的代码，数据和媒体

演示

推荐器和搜索工具

arXivLabs：与社区合作伙伴的实验项目

计算机科学 > 声音

标题： 基于语音的多种临床状况检测的统一多任务学习 显示英文标题

标题： Unified Multi-task Learning for Voice-Based Detection of Diverse Clinical Conditions

提交历史

获取论文：

参考文献与引用

BibTeX 格式的引用

收藏

文献和引用工具

与本文相关的代码，数据和媒体

演示

推荐器和搜索工具

arXivLabs：与社区合作伙伴的实验项目

标题：基于语音的多种临床状况检测的统一多任务学习