Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2510.02263

帮助 | 高级搜索

计算机科学 > 人工智能

arXiv:2510.02263 (cs)
[提交于 2025年10月2日 ]

标题: RLAD:训练大语言模型发现抽象以解决推理问题

标题: RLAD: Training LLMs to Discover Abstractions for Solving Reasoning Problems

Authors:Yuxiao Qu, Anikait Singh, Yoonho Lee, Amrith Setlur, Ruslan Salakhutdinov, Chelsea Finn, Aviral Kumar
摘要: 推理需要超越模式匹配或解决方案的记忆,以识别和实施可以用于推导困难问题答案的“算法过程”。 做到这一点需要认识到最相关的原始概念、中间结果或共享过程,并在此基础上进行构建。 尽管在长期思维链上的强化学习训练最终旨在揭示这种算法行为,但大型模型学到的大多数推理轨迹无法持续捕捉或重用过程,而是漂移到冗长且退化的探索中。 为实现更有效的推理,我们引入了推理抽象:简洁的自然语言描述,用于表示程序性和事实性知识,引导模型学习成功的推理。 我们训练模型在给定一个问题时能够提出多种抽象,随后通过强化学习激励模型在使用这些抽象提供的信息的同时构建解决方案。 这产生了一种双玩家强化学习训练范式,简称为RLAD,它联合训练一个抽象生成器和一个解决方案生成器。 这种设置有效地实现了结构化探索,解耦了抽象提议和解决方案生成的学习信号,并提高了对更难问题的泛化能力。 我们还表明,在测试时分配更多计算资源来生成抽象比在大规模测试预算下生成更多解决方案更有助于性能,这说明了抽象在引导有意义探索中的作用。
摘要: Reasoning requires going beyond pattern matching or memorization of solutions to identify and implement "algorithmic procedures" that can be used to deduce answers to hard problems. Doing so requires realizing the most relevant primitives, intermediate results, or shared procedures, and building upon them. While RL post-training on long chains of thought ultimately aims to uncover this kind of algorithmic behavior, most reasoning traces learned by large models fail to consistently capture or reuse procedures, instead drifting into verbose and degenerate exploration. To address more effective reasoning, we introduce reasoning abstractions: concise natural language descriptions of procedural and factual knowledge that guide the model toward learning successful reasoning. We train models to be capable of proposing multiple abstractions given a problem, followed by RL that incentivizes building a solution while using the information provided by these abstractions. This results in a two-player RL training paradigm, abbreviated as RLAD, that jointly trains an abstraction generator and a solution generator. This setup effectively enables structured exploration, decouples learning signals of abstraction proposal and solution generation, and improves generalization to harder problems. We also show that allocating more test-time compute to generating abstractions is more beneficial for performance than generating more solutions at large test budgets, illustrating the role of abstractions in guiding meaningful exploration.
主题: 人工智能 (cs.AI) ; 计算与语言 (cs.CL); 机器学习 (cs.LG)
引用方式: arXiv:2510.02263 [cs.AI]
  (或者 arXiv:2510.02263v1 [cs.AI] 对于此版本)
  https://doi.org/10.48550/arXiv.2510.02263
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Yuxiao Qu [查看电子邮件]
[v1] 星期四, 2025 年 10 月 2 日 17:44:23 UTC (6,410 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
许可图标 查看许可
当前浏览上下文:
cs.AI
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-10
切换浏览方式为:
cs
cs.CL
cs.LG

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号