计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月3日
]
标题: MagicVL-2B:通过课程学习在移动设备上使用轻量级视觉编码器增强视觉语言模型
标题: MagicVL-2B: Empowering Vision-Language Models on Mobile Devices with Lightweight Visual Encoders via Curriculum Learning
摘要: 视觉-语言模型(VLMs)近年来取得了显著的突破,使日常生活中各种各样的应用成为可能。 然而,VLMs巨大的计算和存储需求对其在移动设备上的高效部署构成了重大挑战,而移动设备是当今最普遍和易于访问的计算平台。 在本工作中,我们介绍了MagicVL-2B,这是一种专为旗舰智能手机优化的新颖VLM。 MagicVL-2B采用了一个轻量级的视觉编码器,参数少于100M,并具有一种重新设计的动态分辨率方案,可以自适应地生成图像标记,而无需对图像尺寸进行过度修改。 为了进一步提升这种紧凑编码器在VLMs中的性能,我们提出了一种多模态课程学习策略,在训练过程中逐步增加任务难度和数据信息密度。 这种方法显著提高了模型在各种子任务上的性能。 在标准VLM基准上的广泛评估表明,MagicVL-2B在保持与当前最先进模型相当的准确性的同时,将设备上的功耗降低了41.1%。 这些结果确立了MagicVL-2B作为现实世界移动视觉-语言应用的实用且稳健的解决方案,使先进的多模态智能可以直接在智能手机上运行。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.