Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2410.04887

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2410.04887 (cs)
[提交于 2024年10月7日 ]

标题: 宽神经网络使用权重衰减训练确实表现出神经崩溃

标题: Wide Neural Networks Trained with Weight Decay Provably Exhibit Neural Collapse

Authors:Arthur Jacot, Peter Súkeník, Zihan Wang, Marco Mondelli
摘要: 深度神经网络(DNNs)在收敛时通过一种称为神经坍缩的高度对称几何结构,一致地在最后一层表示训练数据。 这一实证证据推动了一系列理论研究,旨在证明神经坍缩的出现,主要集中在无约束特征模型上。 在此模型中,倒数第二层的特征是自由变量,这使得模型与数据无关,从而质疑了其捕捉DNN训练的能力。 我们的工作解决了这一问题,摆脱了无约束特征,研究以至少两个线性层结尾的DNN。 我们首先证明了神经坍缩的通用保证,假设(i)低训练误差和线性层的平衡性(用于类内可变性坍缩),以及(ii)线性部分之前的特征的有界条件(用于类均值的正交性,以及它们与权重矩阵的对齐)。 然后我们表明,这些假设适用于带有权重衰减的梯度下降训练:(i)对于具有宽第一层的网络,我们证明了低训练误差和平衡性,(ii)对于几乎最优或在大学习率下稳定的解,我们进一步证明了有界条件。 综合来看,我们的结果是首次在DNN端到端训练中展示了神经坍缩。
摘要: Deep neural networks (DNNs) at convergence consistently represent the training data in the last layer via a highly symmetric geometric structure referred to as neural collapse. This empirical evidence has spurred a line of theoretical research aimed at proving the emergence of neural collapse, mostly focusing on the unconstrained features model. Here, the features of the penultimate layer are free variables, which makes the model data-agnostic and, hence, puts into question its ability to capture DNN training. Our work addresses the issue, moving away from unconstrained features and studying DNNs that end with at least two linear layers. We first prove generic guarantees on neural collapse that assume (i) low training error and balancedness of the linear layers (for within-class variability collapse), and (ii) bounded conditioning of the features before the linear part (for orthogonality of class-means, as well as their alignment with weight matrices). We then show that such assumptions hold for gradient descent training with weight decay: (i) for networks with a wide first layer, we prove low training error and balancedness, and (ii) for solutions that are either nearly optimal or stable under large learning rates, we additionally prove the bounded conditioning. Taken together, our results are the first to show neural collapse in the end-to-end training of DNNs.
评论: 29页,5图
主题: 机器学习 (cs.LG) ; 优化与控制 (math.OC); 机器学习 (stat.ML)
引用方式: arXiv:2410.04887 [cs.LG]
  (或者 arXiv:2410.04887v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2410.04887
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Marco Mondelli [查看电子邮件]
[v1] 星期一, 2024 年 10 月 7 日 10:16:40 UTC (1,522 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2024-10
切换浏览方式为:
cs
math
math.OC
stat
stat.ML

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号