计算机科学 > 机器学习
[提交于 2025年9月17日
]
标题: LLM-I:大语言模型是自然交错的多模态创作者
标题: LLM-I: LLMs are Naturally Interleaved Multimodal Creators
摘要: 我们提出LLM-Interleaved(LLM-I),一个灵活且动态的框架,将交错的图像文本生成重新表述为工具使用问题。 LLM-I旨在克服当前统一模型的“单一工具”瓶颈,这些模型仅限于合成图像,并在需要事实依据或程序精度的任务上表现不佳。 我们的框架使一个中心LLM或MLLM代理能够智能地协调多种专业视觉工具,包括在线图像搜索、基于扩散的生成、代码执行和图像编辑。 该代理通过一种结合基于规则的逻辑与LLM和MLLM评估者的判断的混合奖励系统的强化学习(RL)框架进行训练,以熟练选择和应用这些工具。 在使用四种不同模型主干的新数据集上进行训练,LLM-I表现出最先进的性能,在四个基准测试中大幅优于现有方法。 我们还引入了一种新的测试时缩放策略,进一步提升了性能。 项目页面:https://github.com/ByteDance-BandAI/LLM-I.
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.