计算机科学 > 人工智能
[提交于 2025年10月2日
]
标题: RLAD:训练大语言模型发现抽象以解决推理问题
标题: RLAD: Training LLMs to Discover Abstractions for Solving Reasoning Problems
摘要: 推理需要超越模式匹配或解决方案的记忆,以识别和实施可以用于推导困难问题答案的“算法过程”。 做到这一点需要认识到最相关的原始概念、中间结果或共享过程,并在此基础上进行构建。 尽管在长期思维链上的强化学习训练最终旨在揭示这种算法行为,但大型模型学到的大多数推理轨迹无法持续捕捉或重用过程,而是漂移到冗长且退化的探索中。 为实现更有效的推理,我们引入了推理抽象:简洁的自然语言描述,用于表示程序性和事实性知识,引导模型学习成功的推理。 我们训练模型在给定一个问题时能够提出多种抽象,随后通过强化学习激励模型在使用这些抽象提供的信息的同时构建解决方案。 这产生了一种双玩家强化学习训练范式,简称为RLAD,它联合训练一个抽象生成器和一个解决方案生成器。 这种设置有效地实现了结构化探索,解耦了抽象提议和解决方案生成的学习信号,并提高了对更难问题的泛化能力。 我们还表明,在测试时分配更多计算资源来生成抽象比在大规模测试预算下生成更多解决方案更有助于性能,这说明了抽象在引导有意义探索中的作用。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.