可证明的深度神经坍缩与$L^2$正则化非线性网络的低秩偏置涌现 (Provable Emergence of Deep Neural Collapse and Low-Rank Bias in $L^2$-Regularized Nonlinear Networks) - 专知论文

会员服务 ·

0

低秩 · 偏置 · 权重衰减 · 衰减 · 正则化 ·

Provable Emergence of Deep Neural Collapse and Low-Rank Bias in $L^2$-Regularized Nonlinear Networks

翻译：可证明的深度神经坍缩与$L^2$正则化非线性网络的低秩偏置涌现

Emanuele Zangrando,Piero Deidda,Simone Brugiapaglia,Nicola Guglielmi,Francesco Tudisco

We present a unified theoretical framework connecting the first property of Deep Neural Collapse (DNC1) to the emergence of implicit low-rank bias in nonlinear networks trained with $L^2$ weight decay regularization. Our main contributions are threefold. First, we derive a quantitative relation between the Total Cluster Variation (TCV) of intermediate embeddings and the numerical rank of stationary weight matrices. In particular, we establish that, at any critical point, the distance from a weight matrix to the set of rank-$K$ matrices is bounded by a constant times the TCV of earlier-layer features, scaled inversely with the weight-decay parameter. Second, we prove global optimality of DNC1 in a constrained representation-cost setting for both feedforward and residual architectures, showing that zero TCV across intermediate layers minimizes the representation cost under natural architectural constraints. Third, we establish a benign landscape property: for almost every interpolating initialization there exists a continuous, loss-decreasing path from the initialization to a globally optimal, DNC1-satisfying configuration. Our theoretical claims are validated empirically; numerical experiments confirm the predicted relations among TCV, singular-value structure, and weight decay. These results indicate that neural collapse and low-rank bias are intimately linked phenomena arising from the optimization geometry induced by weight decay.

翻译：我们提出了一个统一的理论框架，将深度神经坍缩（DNC1）的第一特性与采用$L^2$权重衰减正则化训练的非线性网络中隐式低秩偏置的涌现联系起来。我们的主要贡献有三方面。首先，我们推导了中间嵌入的总聚类变差（TCV）与平稳权重矩阵数值秩之间的定量关系。具体而言，我们证明在任意临界点处，权重矩阵到秩-$K$矩阵集合的距离受一个常数乘以前层特征TCV的界所限制，该常数与权重衰减参数成反比。其次，我们在约束表示成本设置下，针对前馈和残差架构证明了DNC1的全局最优性，表明中间层零TCV在自然架构约束下最小化了表示成本。第三，我们建立了一个良性景观特性：对于几乎每一个插值初始化，都存在一条从该初始化到满足DNC1的全局最优配置的连续且损失递减的路径。我们的理论主张得到了实证验证；数值实验证实了TCV、奇异值结构与权重衰减之间的预测关系。这些结果表明，神经坍缩与低秩偏置是由权重衰减诱导的优化几何所产生的紧密关联现象。

0

相关内容

【ETH博士论文】维数灾难与神经网络的基于梯度训练：缩小理论与应用之间的鸿沟，123页pdf

【ETH博士论文】维数灾难与神经网络的基于梯度训练：缩小理论与应用之间的鸿沟，123页pdf

专知会员服务

35+阅读 · 2023年5月31日

DNN中的凸优化如何理解？斯坦福博士论文《神经网络凸优化》，265页pdf全面阐述

DNN中的凸优化如何理解？斯坦福博士论文《神经网络凸优化》，265页pdf全面阐述

专知会员服务

66+阅读 · 2023年5月29日

Nature. Mach. Intell. |基于梯度的学习通过平衡压缩和扩展来驱动循环神经网络中的鲁棒表示

Nature. Mach. Intell. |基于梯度的学习通过平衡压缩和扩展来驱动循环神经网络中的鲁棒表示

专知会员服务

10+阅读 · 2022年6月23日

借助几何先验知识促进深度神经网络：综述 | Boosting Deep Neural Networks with Geometrical Prior Knowledge: A Survey

借助几何先验知识促进深度神经网络：综述 | Boosting Deep Neural Networks with Geometrical Prior Knowledge: A Survey

专知会员服务

29+阅读 · 2020年7月10日

【剑桥大学博士论文】深层神经网络结构的复兴，147页pdf，The resurgence of structure in deep neural networks

【剑桥大学博士论文】深层神经网络结构的复兴，147页pdf，The resurgence of structure in deep neural networks

专知会员服务

20+阅读 · 2020年5月14日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【论文推荐】二值神经网络综述，Binary Neural Networks: A Survey

【论文推荐】二值神经网络综述，Binary Neural Networks: A Survey

专知会员服务

53+阅读 · 2020年4月8日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【机器学习论文推荐】EfficientNet:卷积神经网络的再思考模型缩放（EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks）

【机器学习论文推荐】EfficientNet:卷积神经网络的再思考模型缩放（EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks）

专知会员服务

17+阅读 · 2019年12月24日

【论文推荐】可解释神经网络，Towards Explainable Deep Neural Networks (xDNN)

【论文推荐】可解释神经网络，Towards Explainable Deep Neural Networks (xDNN)

专知会员服务

40+阅读 · 2019年12月5日

【2022新书】深度学习归一化技术，117页pdf

【2022新书】深度学习归一化技术，117页pdf

专知

29+阅读 · 2022年11月25日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知

37+阅读 · 2020年5月2日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

【南洋理工大学】图神经网络，Graph Neural Networks，附121页ppt

【南洋理工大学】图神经网络，Graph Neural Networks，附121页ppt

专知

134+阅读 · 2019年10月28日

当深度强化学习遇见图神经网络

当深度强化学习遇见图神经网络

专知

227+阅读 · 2019年10月21日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

图卷积神经网络的变种与挑战【附PPT与视频资料】

图卷积神经网络的变种与挑战【附PPT与视频资料】

人工智能前沿讲习班

28+阅读 · 2018年12月28日

清华大学孙茂松课题组:《图神经网络: 方法与应用》综述论文，20页pdf

清华大学孙茂松课题组:《图神经网络: 方法与应用》综述论文，20页pdf

专知

49+阅读 · 2018年12月23日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

忆阻递归神经网络的多重稳定性理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度卷积神经网络的多源遥感图像时空融合方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

广义低秩矩阵重构算法及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

稀疏表达下社会化正则方法与低秩分解推荐模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

非凸稀疏正则化模型与算法的研究

国家自然科学基金

3+阅读 · 2015年12月31日

自组织递归二型小波模糊神经网络的研究及在微型飞行器姿态控制中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

高阶张量的低秩恢复问题研究

国家自然科学基金

2+阅读 · 2014年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

Inference for Deep Neural Network Estimators in Generalized Nonparametric Models

Arxiv

0+阅读 · 3月17日

Beyond Accuracy: Reliability and Uncertainty Estimation in Convolutional Neural Networks

Arxiv

0+阅读 · 3月11日

Training Deep Normalization-Free Spiking Neural Networks with Lateral Inhibition

Arxiv

0+阅读 · 2月25日

Convergence of gradient descent for deep neural networks

Arxiv

0+阅读 · 2月20日

Conjugate Learning Theory: Uncovering the Mechanisms of Trainability and Generalization in Deep Neural Networks

Arxiv

0+阅读 · 2月19日

Conjugate Learning Theory: Uncovering the Mechanisms of Trainability and Generalization in Deep Neural Networks

Arxiv

0+阅读 · 2月18日

Uncertainty-Aware Neural Multivariate Geostatistics

Arxiv

0+阅读 · 2月18日

Explainability-Inspired Layer-Wise Pruning of Deep Neural Networks for Efficient Object Detection

Arxiv

0+阅读 · 2月15日

Directional Convergence, Benign Overfitting of Gradient Descent in leaky ReLU two-layer Neural Networks

Arxiv

0+阅读 · 2月10日

Diffeomorphism-Equivariant Neural Networks

Arxiv

0+阅读 · 2月6日

VIP会员

文章信息

相关主题

最新内容

《反小型无人机系统的雷达高度估计相干干扰研究》60页

《反小型无人机系统的雷达高度估计相干干扰研究》60页

专知会员服务

0+阅读 · 今天9:52

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

专知会员服务

3+阅读 · 今天9:28

（中文）以机器速度作战：来自Maven特遣队主任的见解

（中文）以机器速度作战：来自Maven特遣队主任的见解

专知会员服务

7+阅读 · 今天3:42

（中文）AUKUS第二支柱中的人工智能与自主性方案

（中文）AUKUS第二支柱中的人工智能与自主性方案

专知会员服务

3+阅读 · 今天3:24

（译文）认知战：以士兵为目标，塑造战略

（译文）认知战：以士兵为目标，塑造战略

专知会员服务

2+阅读 · 今天3:12

（中文）认知战的本体论基础（2026报告）

（中文）认知战的本体论基础（2026报告）

专知会员服务

17+阅读 · 今天1:45

美空军条令（2026）：外国对内防御

美空军条令（2026）：外国对内防御

专知会员服务

3+阅读 · 今天1:32

美国与以色列如何在攻击伊朗中使用人工智能

美国与以色列如何在攻击伊朗中使用人工智能

专知会员服务

7+阅读 · 4月16日

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

专知会员服务

7+阅读 · 4月16日

《自动化战略情报管控》

《自动化战略情报管控》

专知会员服务

3+阅读 · 4月16日

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

专知会员服务

13+阅读 · 4月16日

得失评估：审视对伊朗战争的轨迹（简报）

得失评估：审视对伊朗战争的轨迹（简报）

专知会员服务

3+阅读 · 4月16日

【CMU博士论文】迈向可解释机器学习的理论基础

【CMU博士论文】迈向可解释机器学习的理论基础

专知会员服务

5+阅读 · 4月16日

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

专知会员服务

4+阅读 · 4月16日

无人机视觉语言导航：研究进展、挑战与技术路线图

无人机视觉语言导航：研究进展、挑战与技术路线图

专知会员服务

6+阅读 · 4月16日

相关VIP内容

【ETH博士论文】维数灾难与神经网络的基于梯度训练：缩小理论与应用之间的鸿沟，123页pdf

【ETH博士论文】维数灾难与神经网络的基于梯度训练：缩小理论与应用之间的鸿沟，123页pdf

专知会员服务

35+阅读 · 2023年5月31日

DNN中的凸优化如何理解？斯坦福博士论文《神经网络凸优化》，265页pdf全面阐述

DNN中的凸优化如何理解？斯坦福博士论文《神经网络凸优化》，265页pdf全面阐述

专知会员服务

66+阅读 · 2023年5月29日

Nature. Mach. Intell. |基于梯度的学习通过平衡压缩和扩展来驱动循环神经网络中的鲁棒表示

Nature. Mach. Intell. |基于梯度的学习通过平衡压缩和扩展来驱动循环神经网络中的鲁棒表示

专知会员服务

10+阅读 · 2022年6月23日

借助几何先验知识促进深度神经网络：综述 | Boosting Deep Neural Networks with Geometrical Prior Knowledge: A Survey

借助几何先验知识促进深度神经网络：综述 | Boosting Deep Neural Networks with Geometrical Prior Knowledge: A Survey

专知会员服务

29+阅读 · 2020年7月10日

【剑桥大学博士论文】深层神经网络结构的复兴，147页pdf，The resurgence of structure in deep neural networks

【剑桥大学博士论文】深层神经网络结构的复兴，147页pdf，The resurgence of structure in deep neural networks

专知会员服务

20+阅读 · 2020年5月14日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【论文推荐】二值神经网络综述，Binary Neural Networks: A Survey

【论文推荐】二值神经网络综述，Binary Neural Networks: A Survey

专知会员服务

53+阅读 · 2020年4月8日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【机器学习论文推荐】EfficientNet:卷积神经网络的再思考模型缩放（EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks）

【机器学习论文推荐】EfficientNet:卷积神经网络的再思考模型缩放（EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks）

专知会员服务

17+阅读 · 2019年12月24日

【论文推荐】可解释神经网络，Towards Explainable Deep Neural Networks (xDNN)

【论文推荐】可解释神经网络，Towards Explainable Deep Neural Networks (xDNN)

专知会员服务

40+阅读 · 2019年12月5日

热门VIP内容

开通专知VIP会员享更多权益服务

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

（中文）AUKUS第二支柱中的人工智能与自主性方案

《反小型无人机系统的雷达高度估计相干干扰研究》60页

（中文）以机器速度作战：来自Maven特遣队主任的见解

相关资讯

【2022新书】深度学习归一化技术，117页pdf

【2022新书】深度学习归一化技术，117页pdf

专知

29+阅读 · 2022年11月25日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知

37+阅读 · 2020年5月2日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

【南洋理工大学】图神经网络，Graph Neural Networks，附121页ppt

【南洋理工大学】图神经网络，Graph Neural Networks，附121页ppt

专知

134+阅读 · 2019年10月28日

当深度强化学习遇见图神经网络

当深度强化学习遇见图神经网络

专知

227+阅读 · 2019年10月21日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

图卷积神经网络的变种与挑战【附PPT与视频资料】

图卷积神经网络的变种与挑战【附PPT与视频资料】

人工智能前沿讲习班

28+阅读 · 2018年12月28日

清华大学孙茂松课题组:《图神经网络: 方法与应用》综述论文，20页pdf

清华大学孙茂松课题组:《图神经网络: 方法与应用》综述论文，20页pdf

专知

49+阅读 · 2018年12月23日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

相关论文

Inference for Deep Neural Network Estimators in Generalized Nonparametric Models

Arxiv

0+阅读 · 3月17日

Beyond Accuracy: Reliability and Uncertainty Estimation in Convolutional Neural Networks

Arxiv

0+阅读 · 3月11日

Training Deep Normalization-Free Spiking Neural Networks with Lateral Inhibition

Arxiv

0+阅读 · 2月25日

Convergence of gradient descent for deep neural networks

Arxiv

0+阅读 · 2月20日

Conjugate Learning Theory: Uncovering the Mechanisms of Trainability and Generalization in Deep Neural Networks

Arxiv

0+阅读 · 2月19日

Conjugate Learning Theory: Uncovering the Mechanisms of Trainability and Generalization in Deep Neural Networks

Arxiv

0+阅读 · 2月18日

Uncertainty-Aware Neural Multivariate Geostatistics

Arxiv

0+阅读 · 2月18日

Explainability-Inspired Layer-Wise Pruning of Deep Neural Networks for Efficient Object Detection

Arxiv

0+阅读 · 2月15日

Directional Convergence, Benign Overfitting of Gradient Descent in leaky ReLU two-layer Neural Networks

Arxiv

0+阅读 · 2月10日

Diffeomorphism-Equivariant Neural Networks

Arxiv

0+阅读 · 2月6日

相关基金

忆阻递归神经网络的多重稳定性理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度卷积神经网络的多源遥感图像时空融合方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

广义低秩矩阵重构算法及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

稀疏表达下社会化正则方法与低秩分解推荐模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

非凸稀疏正则化模型与算法的研究

国家自然科学基金

3+阅读 · 2015年12月31日

自组织递归二型小波模糊神经网络的研究及在微型飞行器姿态控制中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

高阶张量的低秩恢复问题研究

国家自然科学基金

2+阅读 · 2014年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员