计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月1日
]
标题: 解耦后再对齐:视觉解缠增强提示调优
标题: Decouple before Align: Visual Disentanglement Enhances Prompt Tuning
摘要: 提示微调(PT),作为一种新兴的资源高效微调范式,已展示了在提高视觉-语言模型任务特定迁移能力方面的显著效果。 本文深入研究了PT中一个之前被忽视的信息不对称问题,其中视觉模态通常比面向对象的文本模态传达更多上下文。 相应地,粗略对齐这两种模态可能导致偏差注意力,使模型仅关注上下文区域。 为了解决这个问题,我们提出了DAPT,一种基于直观的“解耦后再对齐”概念的有效PT框架。 首先,我们提出通过利用粗粒度和细粒度的视觉分割线索,显式地将视觉模态分解为前景和背景表示,然后将这些解耦模式与原始前景文本和手工设计的背景类别对齐,从而对称地增强模态对齐。 为了进一步增强视觉聚焦,我们提出了一种针对前景-背景模式的视觉拉推正则化,引导原始视觉表示朝着对感兴趣区域对象的无偏注意。 我们通过少样本学习、从基础到新颖的泛化以及数据高效学习展示了无架构DAPT的强大性能,所有这些都在主流基准上取得了优越的表现。 我们的代码将在https://github.com/Ferenas/DAPT发布。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.