计算机科学 > 声音
[提交于 2025年8月28日
]
标题: MoTAS:从TTS增强语音中基于Moe的特征选择用于增强的多模态阿尔茨海默病早期筛查
标题: MoTAS: MoE-Guided Feature Selection from TTS-Augmented Speech for Enhanced Multimodal Alzheimer's Early Screening
摘要: 早期通过语音对阿尔茨海默病(AD)进行筛查是一种有前景的非侵入性方法。 然而,数据有限以及缺乏细粒度、自适应的特征选择等挑战常常阻碍性能。 为解决这些问题,我们提出了MoTAS,一个旨在提高AD筛查效率的鲁棒框架。 MoTAS利用文本转语音(TTS)增强来增加数据量,并采用专家混合(MoE)机制来改进多模态特征选择,共同增强模型泛化能力。 该过程首先通过自动语音识别(ASR)获得准确的转录文本。 然后使用TTS合成语音以丰富数据集。 在提取声学和文本嵌入后,MoE机制动态选择最有信息量的特征,优化特征融合以提高分类效果。 在ADReSSo数据集上评估,MoTAS达到了领先的准确率85.71%,优于现有基线方法。 消融研究进一步验证了TTS增强和MoE在提升分类性能中的单独贡献。 这些发现突显了MoTAS在实际AD筛查场景中的实用价值,特别是在数据有限的情况下。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.