计算机科学 > 计算与语言
[提交于 2025年11月4日
]
标题: 通过强化学习控制集中式多智能体LLM系统的性能和预算
标题: Controlling Performance and Budget of a Centralized Multi-agent LLM System with Reinforcement Learning
摘要: 大型语言模型(LLMs)在不同领域表现出互补的优势,并且具有不同的推理成本,这促使设计多智能体LLM系统,其中专门模型可以高效协作。 现有方法主要依赖于去中心化框架,对于每个输入都会调用多个LLM,从而导致显著且不可控的推理成本。 在本工作中,我们引入了一个中心化的多LLM框架,其中控制器LLM以成本高效且可控的方式选择性地协调专家模型的集合。 我们将这种协调问题形式化为具有双重目标的强化学习:最大化任务性能同时最小化总体推理成本。 此外,我们期望多智能体系统在推理过程中能够根据不同的预算条件表现出适应性行为。 为此,我们提出了CoRL,这是一个在可控多预算设置中优化性能与成本权衡的强化学习框架。 在四个多样化的基准测试中进行的实验表明,CoRL使单一系统在高预算设置下超越最佳专家LLM,同时在更经济的低预算模式中保持强大的性能,突显了中心化协调在可扩展和成本高效的多智能体LLM系统中的有效性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.