计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月3日
]
标题: 设置枢轴学习:用视觉基础模型重新定义泛化分割
标题: Set Pivot Learning: Redefining Generalized Segmentation with Vision Foundation Models
摘要: 在本文中,我们首次引入了集合枢轴学习的概念,这是一种范式转变,基于视觉基础模型(VFMs)重新定义了领域泛化(DG)。 传统的DG假设在训练期间目标领域是不可访问的,但VFMs的出现,这些模型在大量和多样化数据上进行训练,使这一假设变得模糊且过时。 传统的DG假设在训练期间目标领域是不可访问的,但VFMs的出现,这些模型在大量和多样化数据集上进行训练,使这一假设变得模糊且过时。 为了解决这一挑战,我们提出了集合枢轴学习(SPL),一种基于VFMs的新领域迁移任务定义,这更符合当前的研究和应用需求。 与传统DG方法不同,SPL优先考虑自适应优化而非刚性领域迁移,确保与不断变化的现实条件持续对齐。 具体而言,SPL具有两个关键属性:(i) 动态适应,从静态领域对齐过渡到灵活的任务驱动特征优化,使模型能够随着下游场景演变;(ii) 以VFM为中心的调优,利用预训练知识作为枢轴,磨练任务特定表示的同时保持跨领域鲁棒性。 基于SPL,我们提出了一种动态提示微调方法,结合了一个动态类感知提示器和一个提示引导特征聚焦器,以提升VFMs在目标场景中的性能。 在基准数据集上的大量实验表明了我们方法的有效性,突显了其优于最先进方法的优势,特别是在广义分割方面。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.