计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月3日
]
标题: DMTrack:通过双适配器的时空多模态跟踪
标题: DMTrack: Spatio-Temporal Multimodal Tracking via Dual-Adapter
摘要: 在本文中,我们探索了适配器调优并引入了一种新颖的双适配器架构用于时空多模态跟踪,称为DMTrack。 我们的DMTrack的关键在于两个简单而有效的模块,包括一个时空模态适配器(STMA)和一个渐进式模态互补适配器(PMCA)模块。 前者单独应用于每种模态,旨在通过自提示调整从冻结主干中提取的时空特征,这在一定程度上可以弥合不同模态之间的差距,从而实现更好的跨模态融合。 后者旨在通过两个专门设计的像素级浅层和深层适配器逐步促进跨模态提示。 浅层适配器在两种模态之间使用共享参数,旨在弥合两种模态分支之间的信息流,从而为后续的模态融合奠定基础,而深层适配器则通过像素级的模态内注意力调节初步融合的信息流,并通过像素级的模态间注意力进一步生成模态感知提示。 通过这样的设计,DMTrack仅使用\textbf{0.93M}可训练参数即可实现有前途的时空多模态跟踪性能。 在五个基准上的大量实验表明,DMTrack取得了最先进结果。 代码将可用。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.