计算机科学 > 计算与语言
[提交于 2025年11月4日
]
标题: MemSearcher:通过端到端强化学习训练大语言模型进行推理、搜索和管理记忆
标题: MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning
摘要: 典型的搜索代理将整个交互历史连接到LLM上下文中,保持信息完整性但产生长而嘈杂的上下文,导致高计算和内存成本。 相反,仅使用当前回合可以避免这种开销,但会丢弃必要的信息。 这种权衡限制了搜索代理的可扩展性。 为了解决这个挑战,我们提出了MemSearcher,一种迭代维护紧凑记忆并将其与当前回合相结合的代理工作流。 在每个回合中,MemSearcher将用户的问题与记忆融合,生成推理轨迹,执行搜索操作,并更新记忆以仅保留解决任务所需的信息。 这种设计在多回合交互中稳定了上下文长度,提高了效率而不牺牲准确性。 为了优化此工作流,我们引入了多上下文GRPO,这是一种端到端的强化学习框架,联合优化MemSearcher代理的推理、搜索策略和记忆管理。 具体来说,多上下文GRPO在不同上下文中采样轨迹组,并在它们内部的所有对话中传播轨迹级优势。 在与Search-R1相同的数据显示训练下,MemSearcher在七个公开基准上显著优于强基线:相对于平均增益,Qwen2.5-3B-Instruct提升11%,Qwen2.5-7B-Instruct提升12%。 值得注意的是,基于3B的MemSearcher甚至超过了基于7B的基线,这表明在信息完整性和效率之间取得平衡可以实现更高的准确性和更低的计算开销。 代码和模型将在https://github.com/icip-cas/MemSearcher公开可用。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.