计算机科学 > 机器学习
[提交于 2025年10月2日
]
标题: Drop-Muon:更新更少,收敛更快
标题: Drop-Muon: Update Less, Converge Faster
摘要: 深度学习优化的传统观念规定在每一步更新所有层——这一原则被所有最近的最先进的优化器如Muon所遵循。 在本工作中,我们挑战这一假设,表明在理论和实践中,全网络更新根本上是次优的。 我们引入了一种非欧几里得随机渐进训练方法——Drop-Muon——一个简单而强大的框架,根据随机计划每一步只更新一部分层,结合了渐进训练的效率与特定层的非欧几里得更新,以实现顶级性能。 我们在逐层平滑和逐层$(L^0, L^1)$-平滑条件下提供了严格的收敛保证,涵盖了确定性和随机梯度设置,标志着在随机和非平滑情况下渐进训练的首次此类结果。 我们的成本分析进一步表明,只有当层平滑常数之间存在非常特定的关系时,全网络更新才是最优的。 通过受控的CNN实验,我们实证证明Drop-Muon始终优于全网络Muon,在墙钟时间内达到相同精度的速度快至$1.4\times$。 综上所述,我们的结果表明了大规模模型可以高效训练方式的转变,挑战了现状,并为全网络更新提供了一个高效且理论基础牢固的替代方案。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.