计算机科学 > 机器学习
[提交于 2023年9月1日
(v1)
,最后修订 2024年6月1日 (此版本, v3)]
标题: SortedNet:一种可扩展且通用的模块化深度神经网络训练框架
标题: SortedNet: A Scalable and Generalized Framework for Training Modular Deep Neural Networks
摘要: 深度神经网络(DNNs)必须满足具有不同性能需求和预算的各种用户,导致训练、存储和维护大量用户/任务特定模型的昂贵实践。 文献中有一些解决方案用于处理单个动态模型或一个模型应对多种情况,而不是多个独立网络;然而,它们存在性能显著下降、在不同模型架构或不同维度(例如深度、宽度、注意力块)上泛化能力不足、训练期间需要大量的模型搜索以及只能训练有限数量的子模型等问题。 为了解决这些限制,我们提出了SortedNet,这是一种通用且可扩展的训练解决方案,以利用DNN的固有模块化特性。 得益于一种通用的嵌套架构(我们在本文中将其称为\textit{已排序}架构)以及结合随机子模型采样和新的梯度累积机制的新颖更新方案,SortedNet能够在训练主模型的同时同时训练子模型(没有任何显著的额外训练或推理开销),简化动态模型选择,在推理期间实现定制化部署,并显著减少模型存储需求。 通过各种架构和任务(包括LLaMA、BERT、RoBERTa(自然语言处理任务)、ResNet和MobileNet(图像分类))验证了SortedNet的多功能性和可扩展性,证明了其优于现有的动态训练方法。 例如,我们引入了一种基于排序训练的新型自适应推测方法,以加速大型语言模型的解码。 此外,SortedNet能够同时训练160个子模型,达到原始模型至少96%的性能。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.