计算机科学 > 机器学习
[提交于 2023年6月1日
]
标题: 无需训练的神经网络架构搜索用于RNN和Transformer
标题: Training-free Neural Architecture Search for RNNs and Transformers
摘要: 神经架构搜索(NAS)使得新的和有效的神经网络架构的自动创建成为可能,为手动设计复杂架构的繁琐过程提供了一种替代方案。 然而,传统的NAS算法速度慢且需要大量的计算资源。 最近的研究已经探讨了用于图像分类架构的无训练NAS度量,大大加快了搜索算法的速度。 在本文中,我们研究了用于循环神经网络(RNN)和基于BERT的变压器架构的无训练NAS度量,针对语言建模任务。 首先,我们开发了一个新的无训练度量,名为隐藏协方差,它能够预测RNN架构的训练后性能,并显著优于现有的无训练度量。 我们在NAS-Bench-NLP基准上对隐藏协方差度量的有效性进行了实验评估。 其次,我们发现当前的变压器架构搜索空间范式并不适合无训练神经架构搜索。 相反,一个简单的定性分析可以有效地将搜索空间缩小到表现最佳的架构。 这一结论基于我们对现有无训练度量以及从最近的变压器剪枝文献中开发的新度量的调查,并在我们自己的训练过的BERT架构基准上进行了评估。 最终,我们的分析表明,架构搜索空间和无训练度量必须共同开发,才能实现有效结果。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.