电气工程与系统科学 > 图像与视频处理
[提交于 2025年8月26日
]
标题: ModAn-MulSupCon:医学影像的模态和解剖结构感知多标签监督对比预训练
标题: ModAn-MulSupCon: Modality-and Anatomy-Aware Multi-Label Supervised Contrastive Pretraining for Medical Imaging
摘要: 背景和目标:专家标注限制了医学影像中的大规模监督预训练,而普遍存在的元数据(模态、解剖区域)仍未被充分利用。 我们引入了ModAn-MulSupCon,这是一种模态和解剖感知的多标签监督对比预训练方法,利用此类元数据来学习可迁移的表示。 方法:每个图像的模态和解剖区域被编码为一个多热向量。 使用Jaccard加权多标签监督对比损失,在RadImageNet的一个小子集(miniRIN,16,222张图像)上对ResNet-18编码器进行预训练,然后通过微调和线性探测在三个二分类任务上进行评估——ACL撕裂(膝关节MRI)、病灶恶性(乳腺超声)和结节恶性(甲状腺超声)。 结果:经过微调,ModAn-MulSupCon在MRNet-ACL(0.964)和甲状腺(0.763)上达到了最佳AUC,超过了所有基线($p<0.05$),在乳腺(0.926)上排名第二,仅次于SimCLR(0.940;不显著)。 当编码器冻结时,SimCLR/ImageNet表现更优,这表明ModAn-MulSupCon的表示最受益于任务适应,而不是线性可分性。 结论:将易于获得的模态/解剖元数据编码为多标签目标提供了一种实用且可扩展的预训练信号,在微调可行时可以提高下游准确性。 ModAn-MulSupCon是标签稀缺临床环境中的强大初始化方法,而SimCLR/ImageNet在冻结编码器部署中仍更受青睐。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.