计算机科学 > 人工智能
[提交于 2026年1月8日
]
标题: ConMax:用于高效思维链推理的置信度最大化压缩
标题: ConMax: Confidence-Maximizing Compression for Efficient Chain-of-Thought Reasoning
摘要: 大型推理模型(LRMs)的最新突破表明,广泛的思维链(CoT)生成对于实现复杂的认知行为(如自我验证和回溯)以解决复杂任务至关重要。 然而,这种能力常常导致“过度思考”,即模型生成冗余的推理路径,增加了计算成本但并未提高准确性。 虽然在“冷启动”阶段对推理轨迹进行监督微调(SFT)是一种标准范式,但将现有的压缩技术应用于这些轨迹往往会损害逻辑连贯性或产生高昂的采样成本。 在本文中,我们引入了ConMax(置信度最大化压缩),一种新的强化学习框架,旨在自动压缩推理轨迹同时保留关键的推理模式。 ConMax将压缩形式化为一个奖励驱动的优化问题,通过一个冻结的辅助LRM训练策略,通过最大化答案置信度(用于预测保真度)和思考置信度(用于推理有效性)的加权组合来修剪冗余。 在五个推理数据集上的广泛实验表明,ConMax实现了更优的效率-性能权衡。 具体来说,它在仅损失0.7%准确率的情况下,比强基线模型减少了43%的推理长度,证明了其在为LRMs生成高质量、高效训练数据方面的有效性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.