计算机科学 > 机器学习
[提交于 2025年11月4日
]
标题: 在良好的 GRACEs 中:知识蒸馏的有原则的教师选择
标题: In Good GRACEs: Principled Teacher Selection for Knowledge Distillation
摘要: 知识蒸馏是一种高效策略,利用大型“教师”语言模型生成的数据来训练更小但功能强大的“学生”模型,但选择适合特定学生-任务组合的最佳教师需要昂贵的试错过程。 我们提出了一种轻量级评分GRACE,用于量化教师在对学生模型进行微调时的有效性。 GRACE在不访问验证器、教师logits、教师内部结构或测试数据的情况下,测量学生的梯度分布特性。 从信息论的角度来看,GRACE与基于梯度算法的留一稳定性相关,这控制了蒸馏学生的泛化性能。 在GSM8K和MATH数据集上,GRACE与蒸馏后的LLaMA和OLMo学生的性能有很强的相关性(最高达86%的Spearman相关性)。 特别是,使用GRACE选择的教师训练学生,可以在性能上比盲目使用表现最好的教师提高多达7.4%。 此外,GRACE可以为蒸馏中的关键设计选择提供指导,包括(1)生成时应使用的最佳温度,(2)在尺寸限制下应使用的最佳教师,以及(3)在特定模型家族中应使用的最佳教师。 总的来说,我们的研究结果表明,GRACE可以高效且有效地识别出与给定学生高度兼容的教师,并提供如何进行蒸馏的细粒度指导。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.