Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2511.02805

帮助 | 高级搜索

计算机科学 > 计算与语言

arXiv:2511.02805 (cs)
[提交于 2025年11月4日 ]

标题: MemSearcher:通过端到端强化学习训练大语言模型进行推理、搜索和管理记忆

标题: MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning

Authors:Qianhao Yuan, Jie Lou, Zichao Li, Jiawei Chen, Yaojie Lu, Hongyu Lin, Le Sun, Debing Zhang, Xianpei Han
摘要: 典型的搜索代理将整个交互历史连接到LLM上下文中,保持信息完整性但产生长而嘈杂的上下文,导致高计算和内存成本。 相反,仅使用当前回合可以避免这种开销,但会丢弃必要的信息。 这种权衡限制了搜索代理的可扩展性。 为了解决这个挑战,我们提出了MemSearcher,一种迭代维护紧凑记忆并将其与当前回合相结合的代理工作流。 在每个回合中,MemSearcher将用户的问题与记忆融合,生成推理轨迹,执行搜索操作,并更新记忆以仅保留解决任务所需的信息。 这种设计在多回合交互中稳定了上下文长度,提高了效率而不牺牲准确性。 为了优化此工作流,我们引入了多上下文GRPO,这是一种端到端的强化学习框架,联合优化MemSearcher代理的推理、搜索策略和记忆管理。 具体来说,多上下文GRPO在不同上下文中采样轨迹组,并在它们内部的所有对话中传播轨迹级优势。 在与Search-R1相同的数据显示训练下,MemSearcher在七个公开基准上显著优于强基线:相对于平均增益,Qwen2.5-3B-Instruct提升11%,Qwen2.5-7B-Instruct提升12%。 值得注意的是,基于3B的MemSearcher甚至超过了基于7B的基线,这表明在信息完整性和效率之间取得平衡可以实现更高的准确性和更低的计算开销。 代码和模型将在https://github.com/icip-cas/MemSearcher公开可用。
摘要: Typical search agents concatenate the entire interaction history into the LLM context, preserving information integrity but producing long, noisy contexts, resulting in high computation and memory costs. In contrast, using only the current turn avoids this overhead but discards essential information. This trade-off limits the scalability of search agents. To address this challenge, we propose MemSearcher, an agent workflow that iteratively maintains a compact memory and combines the current turn with it. At each turn, MemSearcher fuses the user's question with the memory to generate reasoning traces, perform search actions, and update memory to retain only information essential for solving the task. This design stabilizes context length across multi-turn interactions, improving efficiency without sacrificing accuracy. To optimize this workflow, we introduce multi-context GRPO, an end-to-end RL framework that jointly optimize reasoning, search strategies, and memory management of MemSearcher Agents. Specifically, multi-context GRPO samples groups of trajectories under different contexts and propagates trajectory-level advantages across all conversations within them. Trained on the same dataset as Search-R1, MemSearcher achieves significant improvements over strong baselines on seven public benchmarks: +11% on Qwen2.5-3B-Instruct and +12% on Qwen2.5-7B-Instruct relative average gains. Notably, the 3B-based MemSearcher even outperforms 7B-based baselines, demonstrating that striking a balance between information integrity and efficiency yields both higher accuracy and lower computational overhead. The code and models will be publicly available at https://github.com/icip-cas/MemSearcher
评论: 项目页面:https://github.com/icip-cas/MemSearcher
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI)
引用方式: arXiv:2511.02805 [cs.CL]
  (或者 arXiv:2511.02805v1 [cs.CL] 对于此版本)
  https://doi.org/10.48550/arXiv.2511.02805
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Qianhao Yuan [查看电子邮件]
[v1] 星期二, 2025 年 11 月 4 日 18:27:39 UTC (1,413 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
许可图标 查看许可
当前浏览上下文:
cs.CL
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-11
切换浏览方式为:
cs
cs.AI

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号