Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2508.01582v1

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2508.01582v1 (cs)
[提交于 2025年8月3日 ]

标题: 设置枢轴学习:用视觉基础模型重新定义泛化分割

标题: Set Pivot Learning: Redefining Generalized Segmentation with Vision Foundation Models

Authors:Xinhui Li, Xinyu He, Qiming Hu, Xiaojie Guo
摘要: 在本文中,我们首次引入了集合枢轴学习的概念,这是一种范式转变,基于视觉基础模型(VFMs)重新定义了领域泛化(DG)。 传统的DG假设在训练期间目标领域是不可访问的,但VFMs的出现,这些模型在大量和多样化数据上进行训练,使这一假设变得模糊且过时。 传统的DG假设在训练期间目标领域是不可访问的,但VFMs的出现,这些模型在大量和多样化数据集上进行训练,使这一假设变得模糊且过时。 为了解决这一挑战,我们提出了集合枢轴学习(SPL),一种基于VFMs的新领域迁移任务定义,这更符合当前的研究和应用需求。 与传统DG方法不同,SPL优先考虑自适应优化而非刚性领域迁移,确保与不断变化的现实条件持续对齐。 具体而言,SPL具有两个关键属性:(i) 动态适应,从静态领域对齐过渡到灵活的任务驱动特征优化,使模型能够随着下游场景演变;(ii) 以VFM为中心的调优,利用预训练知识作为枢轴,磨练任务特定表示的同时保持跨领域鲁棒性。 基于SPL,我们提出了一种动态提示微调方法,结合了一个动态类感知提示器和一个提示引导特征聚焦器,以提升VFMs在目标场景中的性能。 在基准数据集上的大量实验表明了我们方法的有效性,突显了其优于最先进方法的优势,特别是在广义分割方面。
摘要: In this paper, we introduce, for the first time, the concept of Set Pivot Learning, a paradigm shift that redefines domain generalization (DG) based on Vision Foundation Models (VFMs). Traditional DG assumes that the target domain is inaccessible during training, but the emergence of VFMs, trained on vast and diverse data, renders this assumption unclear and obsolete. Traditional DG assumes that the target domain is inaccessible during training, but the emergence of VFMs, which are trained on vast and diverse datasets, renders this assumption unclear and obsolete. To address this challenge, we propose Set Pivot Learning (SPL), a new definition of domain migration task based on VFMs, which is more suitable for current research and application requirements. Unlike conventional DG methods, SPL prioritizes adaptive refinement over rigid domain transfer, ensuring continuous alignment with evolving real-world conditions. Specifically, SPL features two key attributes: (i) Dynamic adaptation, transitioning from static domain alignment to flexible, task-driven feature optimization, enabling models to evolve with downstream scenarios; (ii) VFM-centric tuning, leveraging pretrained knowledge as a pivot to hone task-specific representations while preserving cross-domain robustness. Building on SPL, we propose a Dynamic Prompt Fine-Tuning method, which combines a Dynamic Class-aware Prompter with a Prompt-guided Feature Focuser, to elevate VFM performance in targeted scenarios. Extensive experiments on benchmark datasets show the effectiveness of our method, highlighting its superiority over state-of-the-art methods, particularly in generalized segmentation.
主题: 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2508.01582 [cs.CV]
  (或者 arXiv:2508.01582v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.01582
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Xinhui Li [查看电子邮件]
[v1] 星期日, 2025 年 8 月 3 日 04:20:35 UTC (8,169 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
许可图标 查看许可
当前浏览上下文:
cs.CV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号