计算机科学 > 机器学习
[提交于 2025年11月4日
]
标题: 从独奏到交响乐:通过单智能体演示协调多智能体协作
标题: From Solo to Symphony: Orchestrating Multi-Agent Collaboration with Single-Agent Demos
摘要: 从零开始训练多智能体强化学习(MARL)中的智能体团队效率非常低,就像让初学者在没有单独练习的情况下一起演奏交响乐一样。现有的方法,如离线或可迁移的MARL,可以减轻这一负担,但它们仍然依赖于成本高昂的多智能体数据,这往往成为瓶颈。相比之下,在许多重要场景中,如协作编码、家庭合作和搜索与救援,单独的经验更容易获得。为了释放其潜力,我们提出了Solo-to-Collaborative RL(SoCo),一种将单独知识转移到协作学习中的框架。SoCo首先从单独演示中预训练一个共享的单独策略,然后通过一种结合类似MoE的门控选择器和动作编辑器的策略融合机制,在多智能体训练过程中对其进行适应。在多种协作任务上的实验表明,SoCo显著提高了基础算法的训练效率和性能。这些结果表明,单独演示为多智能体数据提供了一种可扩展且有效的补充,使协作学习更加实用和广泛应用。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.