计算机科学 > 机器学习
[提交于 2025年8月20日
]
标题: 合成自适应引导嵌入(SAGE):一种新型知识蒸馏方法
标题: Synthetic Adaptive Guided Embeddings (SAGE): A Novel Knowledge Distillation Method
摘要: 模型蒸馏使知识从大规模模型转移到紧凑的学生模型成为可能,有助于在资源受限环境中部署。 然而,传统的蒸馏方法常常面临计算开销大和泛化能力有限的问题。 我们提出了一种新颖的自适应蒸馏框架,该框架在学生模型损失较高的区域动态增强训练数据。 使用基于UMAP的降维和最近邻采样,我们的方法识别嵌入空间中表现不佳的区域,并生成有针对性的合成示例以指导学生学习。 为了进一步提高效率,我们引入了一个轻量级的教师-学生接口,绕过教师的输入层,实现在向量化表示上的直接蒸馏。 在标准自然语言处理基准测试中的实验表明,我们的66M参数学生模型始终与现有基线相当或超越,分别在QNLI上达到91.2%,在SST-2上达到92.3%,同时训练的轮次更少。 这些结果突显了基于损失的数据增强和向量化蒸馏在高效且有效的模型压缩方面的潜力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.