Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2306.00301

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2306.00301 (cs)
[提交于 2023年6月1日 (v1) ,最后修订 2023年6月6日 (此版本, v2)]

标题: CapText:基于大型语言模型的图像上下文和描述的标题生成

标题: CapText: Large Language Model-based Caption Generation From Image Context and Description

Authors:Shinjini Ghosh, Sagnik Anupam
摘要: 虽然深度学习模型在图像到文本数据集上已被证明表现良好,但在实际中用于图像描述却很困难。 这是因为传统上,描述通常依赖于上下文,并提供关于图像的补充信息,而模型往往生成描述图像视觉特征的描述。 在图像描述生成的先前研究中,探索了在提供图像及其相应描述或上下文时生成描述的模型的使用。 我们提出并评估了一种新方法,该方法利用现有的大型语言模型仅从文本描述和上下文生成描述,而无需直接处理图像。 我们证明,在微调后,我们的方法在CIDEr指标上优于当前最先进的图像-文本对齐模型如OSCAR-VinVL。
摘要: While deep-learning models have been shown to perform well on image-to-text datasets, it is difficult to use them in practice for captioning images. This is because captions traditionally tend to be context-dependent and offer complementary information about an image, while models tend to produce descriptions that describe the visual features of the image. Prior research in caption generation has explored the use of models that generate captions when provided with the images alongside their respective descriptions or contexts. We propose and evaluate a new approach, which leverages existing large language models to generate captions from textual descriptions and context alone, without ever processing the image directly. We demonstrate that after fine-tuning, our approach outperforms current state-of-the-art image-text alignment models like OSCAR-VinVL on this task on the CIDEr metric.
评论: 2023年6月6日更新:修正了摘要中的排版错误
主题: 机器学习 (cs.LG) ; 计算与语言 (cs.CL)
引用方式: arXiv:2306.00301 [cs.LG]
  (或者 arXiv:2306.00301v2 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2306.00301
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Sagnik Anupam [查看电子邮件]
[v1] 星期四, 2023 年 6 月 1 日 02:40:44 UTC (1,729 KB)
[v2] 星期二, 2023 年 6 月 6 日 03:41:05 UTC (1,729 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2023-06
切换浏览方式为:
cs
cs.CL

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号