计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月31日
]
标题: SAM-PTx:基于文本引导的SAM参数高效并行文本适配器微调
标题: SAM-PTx: Text-Guided Fine-Tuning of SAM with Parameter-Efficient, Parallel-Text Adapters
摘要: 段分割任何模型(SAM)在基于提示的分割中展示了令人印象深刻的整体性能。 然而,与传统的空间提示(如点和框)相比,语义文本提示的潜力仍未得到充分探索。 本文介绍了SAM-PTx,这是一种利用冻结的CLIP派生文本嵌入作为类级语义指导的参数高效方法,用于适应SAM。 具体而言,我们提出了一种轻量级适配器设计,称为Parallel-Text,它将文本嵌入注入到SAM的图像编码器中,在保持大部分原始架构冻结的同时,实现语义引导的分割。 我们的适配器仅修改每个变压器块的MLP-parallel分支,保留注意力路径以进行空间推理。 通过在COD10K数据集以及COCO和ADE20K的低数据子集上的监督实验和消融研究,我们证明将固定文本嵌入作为输入可以提高分割性能,优于纯粹的空间提示基线。 据我们所知,这是首次在COD10K数据集上使用文本提示进行分割的工作。 这些结果表明,将语义条件整合到SAM的架构中,为以最小计算复杂度进行高效适应提供了一条实用且可扩展的路径。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.