计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月28日
]
标题: Dino U-Net:利用基础模型中的高保真密集特征进行医学图像分割
标题: Dino U-Net: Exploiting High-Fidelity Dense Features from Foundation Models for Medical Image Segmentation
摘要: 基于大规模自然图像数据集预训练的基础模型为医学图像分割提供了一个强大的范例。 然而,有效将它们的学习表示用于精确的临床应用仍然是一个挑战。 在本工作中,我们提出了Dino U-Net,一种新的编码器-解码器架构,旨在利用DINOv3视觉基础模型的高保真密集特征。 我们的架构引入了一个基于冻结的DINOv3主干的编码器,该编码器使用专门的适配器将模型的丰富语义特征与低级空间细节融合。 为了在降维过程中保持这些表示的质量,我们设计了一个新的保真度感知投影模块(FAPM),该模块能有效地精炼和投影特征以供解码器使用。 我们在七个不同的公共医学图像分割数据集上进行了广泛的实验。 我们的结果表明,Dino U-Net实现了最先进的性能,在各种成像模态中始终优于之前的方法。 我们的框架证明具有高度可扩展性,随着主干模型规模增加到70亿参数版本,分割准确性持续提高。 研究结果表明,利用通用基础模型的优越密集预训练特征提供了一种高效且参数高效的途径,以提高医学图像分割的准确性。 代码可在https://github.com/yifangao112/DinoUNet获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.