计算机科学 > 机器学习
[提交于 2023年6月1日
(v1)
,最后修订 2023年6月6日 (此版本, v2)]
标题: CapText:基于大型语言模型的图像上下文和描述的标题生成
标题: CapText: Large Language Model-based Caption Generation From Image Context and Description
摘要: 虽然深度学习模型在图像到文本数据集上已被证明表现良好,但在实际中用于图像描述却很困难。 这是因为传统上,描述通常依赖于上下文,并提供关于图像的补充信息,而模型往往生成描述图像视觉特征的描述。 在图像描述生成的先前研究中,探索了在提供图像及其相应描述或上下文时生成描述的模型的使用。 我们提出并评估了一种新方法,该方法利用现有的大型语言模型仅从文本描述和上下文生成描述,而无需直接处理图像。 我们证明,在微调后,我们的方法在CIDEr指标上优于当前最先进的图像-文本对齐模型如OSCAR-VinVL。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.