计算机科学 > 人工智能
[提交于 2025年8月11日
]
标题: ThinkTuning:在不进行知识蒸馏的情况下灌输认知反思
标题: ThinkTuning: Instilling Cognitive Reflections without Distillation
摘要: 最近在测试时缩放方面的进展导致了具有自我反思行为和多步骤推理的思维大语言模型的出现。虽然强化学习推动了这种自我改进范式,但最近的一项研究(Gandhi等,2025)表明,仅靠强化学习并不能真正培养这些新的推理能力——它只是揭示了基础模型中已有的行为。这引发了一个问题:我们如何训练那些不表现出这种思维行为的模型,使其首先发展出这种能力?为此,我们提出了ThinkTuning,一种基于GRPO的交互式训练方法,我们在其中通过教师模型的指导来增强学生模型的 rollout。来自课堂实践的一个简单想法启发了我们的方法:教师提出一个问题,让学生尝试回答,然后给予纠正性反馈——足以指出正确的方向,然后展示解决方案。每一条反馈都会重塑学生的思维,引导他们得出正确答案。同样,我们发现,通过同规模教师模型的反馈进行这种隐式监督可以提高学生模型的推理能力。特别是,平均而言,我们的方法在基准测试中比零样本基线提高了3.85%,在MATH-500、AIME和GPQA-Diamond上分别比原始GRPO基线提高了2.08%、2.23%和3.99%。源代码可在https://github.com/3rdAT/ThinkTuning获取。
提交历史
来自: Aswin Ravikumar Rangasamy Veerasamy [查看电子邮件][v1] 星期一, 2025 年 8 月 11 日 04:51:43 UTC (3,061 KB)
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.