计算机科学 > 机器学习
[提交于 2025年9月18日
(v1)
,最后修订 2025年9月19日 (此版本, v2)]
标题: 注意差距:稳定离策略监督微调的数据重写
标题: Mind the Gap: Data Rewriting for Stable Off-Policy Supervised Fine-Tuning
摘要: 监督微调(SFT)大型语言模型可以被视为一个非策略学习问题,其中专家示范来自一个固定的行动策略,而训练的目标是优化一个目标策略。 重要性采样是校正这种分布不匹配的标准工具,但大的策略差距会导致权重偏斜、方差高和优化不稳定。 现有方法通过KL惩罚或截断来缓解这个问题,这些方法被动地限制更新,而不是主动减少差距。 我们提出了一种简单而有效的数据重写框架,在训练前主动缩小策略差距。 对于每个问题,正确的模型生成的解决方案被保留为策略内数据,而错误的解决方案则通过引导重新求解进行重写,仅在需要时回退到专家示范。 这使训练分布与目标策略对齐,减少方差并提高稳定性。 为了处理重写后的剩余不匹配,我们在训练期间额外应用重要性采样,形成一种两阶段的方法,结合数据级对齐与轻量级优化级修正。 在五个数学推理基准上的实验表明,相对于原始SFT和最先进的动态微调(DFT)方法,取得了持续且显著的提升。 数据和代码将在 https://github.com/NKU-HLT/Off-Policy-SFT 发布。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.