电气工程与系统科学 > 图像与视频处理
[提交于 2025年8月23日
]
标题: 多模态医学内窥镜图像分析通过渐进式解缠感知对比学习
标题: Multimodal Medical Endoscopic Image Analysis via Progressive Disentangle-aware Contrastive Learning
摘要: 准确分割喉咽部肿瘤对于精确诊断和有效治疗计划至关重要。 然而,传统的单模态成像方法往往难以捕捉这些肿瘤的复杂解剖和病理特征。 在本研究中,我们提出了一种基于“对齐-解耦-融合”机制的创新多模态表示学习框架,该框架无缝整合2D白光成像(WLI)和窄带成像(NBI)图像对,以提高分割性能。 我们方法的核心是多尺度分布对齐,通过在多个Transformer层之间对齐特征来减轻模态差异。 此外,设计了渐进式特征解耦策略,结合初步解耦和解耦感知对比学习,以有效分离模态特有和共享特征,从而实现稳健的多模态对比学习和高效的语义融合。 在多个数据集上的综合实验表明,我们的方法始终优于最先进方法,在多种真实临床场景中实现了更高的准确性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.