Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2306.02858v4

帮助 | 高级搜索

计算机科学 > 计算与语言

arXiv:2306.02858v4 (cs)
[提交于 2023年6月5日 (v1) ,最后修订 2023年10月25日 (此版本, v4)]

标题: 视频-LLaMA:用于视频理解的指令调优的视听语言模型

标题: Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

Authors:Hang Zhang, Xin Li, Lidong Bing
摘要: 我们提出了Video-LLaMA,这是一个多模态框架,使大型语言模型(LLMs)具备理解视频中视觉和听觉内容的能力。Video-LLaMA从冻结的预训练视觉和音频编码器以及冻结的LLMs中进行跨模态训练。与之前仅补充LLMs来处理视觉或音频信号的工作不同,Video-LLaMA通过解决两个挑战来实现视频理解:(1) 捕捉视觉场景的时间变化,(2) 整合视听信号。为应对第一个挑战,我们提出了一种Video Q-former,将预训练图像编码器整合到我们的视频编码器中,并引入了视频到文本生成任务以学习视频与语言的对应关系。对于第二个挑战,我们利用ImageBind,一个对齐多种模态的通用嵌入模型,作为预训练音频编码器,并在ImageBind之上引入了一个Audio Q-former,以学习合理的听觉查询嵌入用于LLM模块。为了将视觉和音频编码器的输出与LLM的嵌入空间对齐,我们首先在大量视频/图像-标题对上训练Video-LLaMA,然后使用中等数量但质量更高的视觉指令数据集来微调我们的模型。我们发现Video-LLaMA表现出感知和理解视频内容的能力,并能基于视频中呈现的视觉和听觉信息生成有意义的响应。
摘要: We present Video-LLaMA a multi-modal framework that empowers Large Language Models (LLMs) with the capability of understanding both visual and auditory content in the video. Video-LLaMA bootstraps cross-modal training from the frozen pre-trained visual and audio encoders and the frozen LLMs. Unlike previous works that complement LLMs to process the visual or audio signals only, Video-LLaMA enables video comprehension by tackling two challenges: (1) capturing the temporal changes in visual scenes, (2) integrating audio-visual signals. To counter the first challenge, we propose a Video Q-former to assemble a pre-trained image encoder into our video encoder and introduce a video-to-text generation task to learn video-language correspondence. For the second challenge, we leverage ImageBind, a universal embedding model aligning multiple modalities, as the pre-trained audio encoder and introduce an Audio Q-former on top of ImageBind to learn reasonable auditory query embeddings for the LLM module. To align the output of both visual and audio encoders with LLM's embedding space, we first train Video-LLaMA on massive video/image-caption pairs and then tune our model with visual-instruction datasets of moderate amount but higher quality. We found Video-LLaMA shows the ability to perceive and comprehend video content and generate meaningful responses grounded in the visual and auditory information presented in the videos.
评论: 被EMNLP 2023的演示轨道接受;代码、预训练模型和数据集:https://github.com/DAMO-NLP-SG/Video-LLaMA
主题: 计算与语言 (cs.CL) ; 计算机视觉与模式识别 (cs.CV); 声音 (cs.SD); 音频与语音处理 (eess.AS)
引用方式: arXiv:2306.02858 [cs.CL]
  (或者 arXiv:2306.02858v4 [cs.CL] 对于此版本)
  https://doi.org/10.48550/arXiv.2306.02858
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Hang Zhang [查看电子邮件]
[v1] 星期一, 2023 年 6 月 5 日 13:17:27 UTC (2,864 KB)
[v2] 星期二, 2023 年 6 月 6 日 12:28:37 UTC (2,863 KB)
[v3] 星期一, 2023 年 6 月 12 日 02:28:57 UTC (2,864 KB)
[v4] 星期三, 2023 年 10 月 25 日 06:23:31 UTC (2,870 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.CL
< 上一篇   |   下一篇 >
新的 | 最近的 | 2023-06
切换浏览方式为:
cs
cs.CV
cs.SD
eess
eess.AS

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号