计算机科学 > 计算与语言
[提交于 2023年6月5日
(v1)
,最后修订 2023年10月25日 (此版本, v4)]
标题: 视频-LLaMA:用于视频理解的指令调优的视听语言模型
标题: Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding
摘要: 我们提出了Video-LLaMA,这是一个多模态框架,使大型语言模型(LLMs)具备理解视频中视觉和听觉内容的能力。Video-LLaMA从冻结的预训练视觉和音频编码器以及冻结的LLMs中进行跨模态训练。与之前仅补充LLMs来处理视觉或音频信号的工作不同,Video-LLaMA通过解决两个挑战来实现视频理解:(1) 捕捉视觉场景的时间变化,(2) 整合视听信号。为应对第一个挑战,我们提出了一种Video Q-former,将预训练图像编码器整合到我们的视频编码器中,并引入了视频到文本生成任务以学习视频与语言的对应关系。对于第二个挑战,我们利用ImageBind,一个对齐多种模态的通用嵌入模型,作为预训练音频编码器,并在ImageBind之上引入了一个Audio Q-former,以学习合理的听觉查询嵌入用于LLM模块。为了将视觉和音频编码器的输出与LLM的嵌入空间对齐,我们首先在大量视频/图像-标题对上训练Video-LLaMA,然后使用中等数量但质量更高的视觉指令数据集来微调我们的模型。我们发现Video-LLaMA表现出感知和理解视频内容的能力,并能基于视频中呈现的视觉和听觉信息生成有意义的响应。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.