计算机科学 > 机器学习
[提交于 2025年8月11日
(v1)
,最后修订 2025年8月12日 (此版本, v2)]
标题: Klear-Reasoner:通过梯度保留剪切策略优化提升推理能力
标题: Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization
摘要: 我们提出Klear-Reasoner,一种具有长期推理能力的模型,在解决问题时表现出仔细的权衡,实现了在多个基准测试中的卓越性能。 尽管目前社区中已有许多关于推理模型的优秀工作,但由于训练细节披露不全,仍然存在许多难以复现高性能推理模型的问题。 本报告对推理模型进行了深入分析,涵盖了从数据准备、长期思维链监督微调(long CoT SFT)到强化学习(RL)的整个训练后工作流程,并对每个实验组件进行了详细的消融研究。 对于SFT数据,我们的实验表明,少量高质量的数据源比大量多样化的数据源更有效,且困难样本在不进行准确率过滤的情况下也能取得更好的结果。 此外,我们研究了当前剪切机制在RL中的两个关键问题:剪切抑制了关键的探索信号并忽略了次优轨迹。 为了解决这些挑战,我们提出了梯度保留剪切策略优化(GPPO),该方法温和地将梯度从剪切标记反向传播。 GPPO不仅增强了模型的探索能力,还提高了其从负样本中学习的效率。 Klear-Reasoner在数学和编程方面表现出卓越的推理能力,在AIME 2024上得分为90.5%,在AIME 2025上得分为83.2%,在LiveCodeBench V5上得分为66.0%,在LiveCodeBench V6上得分为58.1%。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.