Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > eess > arXiv:2508.09182

帮助 | 高级搜索

电气工程与系统科学 > 图像与视频处理

arXiv:2508.09182 (eess)
[提交于 2025年8月7日 ]

标题: MedPatch:基于置信度的多阶段融合用于多模态临床数据

标题: MedPatch: Confidence-Guided Multi-Stage Fusion for Multimodal Clinical Data

Authors:Baraa Al Jorf, Farah Shamout
摘要: 临床决策依赖于跨多种数据模态的信息整合,例如临床时间序列、医学图像和文本报告。 与其他领域相比,现实世界的医疗数据在本质上是异构的,规模有限,并且由于缺少模态而稀疏。 这显著限制了模型在临床预测任务中的性能。 受临床工作流程的启发,我们引入了MedPatch,这是一种多阶段多模态融合架构,通过置信度引导的补丁方法无缝整合多种模态。 MedPatch包含三个主要组件:(i) 一种多阶段融合策略,同时利用联合融合和晚期融合,(ii) 一种缺失感知模块,用于处理具有缺失模态的稀疏样本,(iii) 一种联合融合模块,根据校准的单模态令牌级置信度对潜在令牌补丁进行聚类。 我们使用包含临床时间序列数据、胸部X光图像、放射科报告和出院记录的真实世界数据,在两个基准任务上评估了MedPatch,即住院死亡率预测和临床状况分类,这些数据来自MIMIC-IV、MIMIC-CXR和MIMIC-Notes数据集。 与现有基线相比,MedPatch取得了最先进的性能。 我们的工作突显了置信度引导的多阶段融合在解决多模态数据异构性方面的有效性,并为临床预测任务建立了新的最先进基准结果。
摘要: Clinical decision-making relies on the integration of information across various data modalities, such as clinical time-series, medical images and textual reports. Compared to other domains, real-world medical data is heterogeneous in nature, limited in size, and sparse due to missing modalities. This significantly limits model performance in clinical prediction tasks. Inspired by clinical workflows, we introduce MedPatch, a multi-stage multimodal fusion architecture, which seamlessly integrates multiple modalities via confidence-guided patching. MedPatch comprises three main components: (i) a multi-stage fusion strategy that leverages joint and late fusion simultaneously, (ii) a missingness-aware module that handles sparse samples with missing modalities, (iii) a joint fusion module that clusters latent token patches based on calibrated unimodal token-level confidence. We evaluated MedPatch using real-world data consisting of clinical time-series data, chest X-ray images, radiology reports, and discharge notes extracted from the MIMIC-IV, MIMIC-CXR, and MIMIC-Notes datasets on two benchmark tasks, namely in-hospital mortality prediction and clinical condition classification. Compared to existing baselines, MedPatch achieves state-of-the-art performance. Our work highlights the effectiveness of confidence-guided multi-stage fusion in addressing the heterogeneity of multimodal data, and establishes new state-of-the-art benchmark results for clinical prediction tasks.
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2508.09182 [eess.IV]
  (或者 arXiv:2508.09182v1 [eess.IV] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.09182
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Baraa Al Jorf [查看电子邮件]
[v1] 星期四, 2025 年 8 月 7 日 12:46:26 UTC (2,190 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
许可图标 查看许可
当前浏览上下文:
eess.IV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08
切换浏览方式为:
cs
cs.CV
eess

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号