计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月3日
]
标题: 利用文本语义先验进行CLIP驱动的持续学习中的知识迁移与精炼
标题: Harnessing Textual Semantic Priors for Knowledge Transfer and Refinement in CLIP-Driven Continual Learning
摘要: 持续学习(CL)旨在赋予模型从任务流中学习的能力,同时不会遗忘之前的知识。 随着视觉-语言模型如对比语言-图像预训练(CLIP)的进步,它们在持续学习中的潜力由于其强大的泛化能力而受到越来越多的关注。 然而,CLIP中丰富的文本语义先验在解决稳定性与可塑性矛盾方面的潜力仍未得到充分探索。 在主干训练过程中,大多数方法在不考虑语义相关性的情况下转移过去的知识,导致不相关任务的干扰,破坏了稳定性和可塑性之间的平衡。 此外,尽管基于文本的分类器提供了强大的泛化能力,但由于CLIP中固有的模态差距,它们的可塑性有限。 视觉分类器有助于弥合这一差距,但它们的原型缺乏丰富且精确的语义。 为了解决这些挑战,我们提出了语义增强的持续适应(SECA),这是一个统一的框架,利用文本先验的抗遗忘和结构特性,引导主干中的语义感知知识迁移,并强化视觉分类器的语义结构。 具体而言,提出了一种语义引导的自适应知识迁移(SG-AKT)模块,通过文本线索评估新图像与多样化历史视觉知识的相关性,并以实例自适应的方式聚合相关知识作为蒸馏信号。 此外,引入了一种语义增强的视觉原型优化(SE-VPR)模块,利用类别文本嵌入中捕捉的类间语义关系来优化视觉原型。 在多个基准上的广泛实验验证了我们方法的有效性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.