The Role of Symmetry in Optimizing Overparameterized Networks - 专知论文

会员服务 ·

0

参数化 · 分析 · 极小值 · 宽度 · 权值 ·

The Role of Symmetry in Optimizing Overparameterized Networks

翻译：对称性在优化过参数化网络中的作用

Kusha Sareen,Mohammad Pedramfar,Sékou-Oumar Kaba,Mehran Shakerinava,Siamak Ravanbakhsh

Overparameterization is central to the success of deep learning, yet the mechanisms by which it improves optimization remain incompletely understood. We analyze weight-space symmetries in neural networks and show that overparameterization introduces additional symmetries that benefit optimization in two distinct ways. First, we prove that these symmetries act as a form of diagonal preconditioning on the Hessian, enabling the existence of better-conditioned minima within each equivalence class of functionally identical solutions. Second, we show that overparameterization increases the probability mass of global minima near typical initializations, making these favorable solutions more reachable. Teacher-student network experiments validate our theoretical predictions: as width increases, the Hessian trace decreases, condition numbers improve, and convergence accelerates. Our analysis provides a unified framework for understanding overparameterization and width growth as a geometric transformation of the loss landscape.

翻译：过参数化是深度学习成功的关键，但其改善优化的机制尚未完全阐明。本文分析了神经网络中的权值空间对称性，并证明过参数化引入了额外的对称性，这些对称性通过两种不同方式有利于优化。首先，我们证明这些对称性在Hessian矩阵上起到对角预条件的作用，使得在功能相同的解构成的每个等价类内，存在条件数更优的极小值。其次，我们证明过参数化增加了典型初始化附近全局极小值的概率质量，使这些有利解更易达。师生网络实验验证了我们的理论预测：随着网络宽度增加，Hessian迹减小，条件数改善，收敛速度加快。我们的分析为理解过参数化和宽度增长作为损失景观的几何变换提供了统一框架。

0

相关内容

参数化

【阿姆斯特丹博士论文】具有广义对称性的机器学习

【阿姆斯特丹博士论文】具有广义对称性的机器学习

专知会员服务

13+阅读 · 2025年6月6日

【牛津大学博士论文】机器学习中的对称性与泛化

【牛津大学博士论文】机器学习中的对称性与泛化

专知会员服务

22+阅读 · 2025年1月8日

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

专知会员服务

29+阅读 · 2024年10月4日

【牛津大学博士论文】超参数化神经网络的泛化与表达性，221页pdf

【牛津大学博士论文】超参数化神经网络的泛化与表达性，221页pdf

专知会员服务

32+阅读 · 2024年4月19日

【纽约大学博士论文】对称神经网络理论，148页pdf

【纽约大学博士论文】对称神经网络理论，148页pdf

专知会员服务

41+阅读 · 2024年4月4日

【牛津大学博士论文】机器学习中的对称性与泛化，158页pdf

【牛津大学博士论文】机器学习中的对称性与泛化，158页pdf

专知会员服务

41+阅读 · 2023年11月27日

【阿姆斯特丹博士论文】深度强化学习中的对称性和结构,149页pdf

【阿姆斯特丹博士论文】深度强化学习中的对称性和结构,149页pdf

专知会员服务

24+阅读 · 2023年8月31日

Google 发布82页《深度学习泛化性揭秘》综述论文，On the Generalization Mystery in Deep Learning

Google 发布82页《深度学习泛化性揭秘》综述论文，On the Generalization Mystery in Deep Learning

专知会员服务

61+阅读 · 2022年3月22日

如何增强卷积网络泛化性？看T.S. Cohen博士论文《等变卷积网络》，245页pdf

如何增强卷积网络泛化性？看T.S. Cohen博士论文《等变卷积网络》，245页pdf

专知会员服务

38+阅读 · 2021年5月29日

【伯克利】神经网络中的对称性与同变性，附视频与114页ppt

【伯克利】神经网络中的对称性与同变性，附视频与114页ppt

专知会员服务

25+阅读 · 2020年10月2日

深度学习网络调参技巧

深度学习网络调参技巧

AINLP

15+阅读 · 2019年11月15日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

神经网络中的权重初始化一览：从基础到Kaiming

神经网络中的权重初始化一览：从基础到Kaiming

大数据文摘

12+阅读 · 2019年4月18日

这有一份花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

这有一份花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

专知

42+阅读 · 2019年1月7日

清华大学孙茂松课题组:《图神经网络: 方法与应用》综述论文，20页pdf

清华大学孙茂松课题组:《图神经网络: 方法与应用》综述论文，20页pdf

专知

49+阅读 · 2018年12月23日

博客 | 机器学习中的数学基础（凸优化）

博客 | 机器学习中的数学基础（凸优化）

AI研习社

14+阅读 · 2018年12月16日

SFFAI报告 | 常建龙：深度卷积网络中的卷积算子研究进展

SFFAI报告 | 常建龙：深度卷积网络中的卷积算子研究进展

人工智能前沿讲习班

11+阅读 · 2018年10月22日

从LeNet到SENet——卷积神经网络回顾

从LeNet到SENet——卷积神经网络回顾

AI科技评论

13+阅读 · 2018年2月15日

什么是学习率，以及它是如何影响深度学习的

什么是学习率，以及它是如何影响深度学习的

论智

85+阅读 · 2018年2月3日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

大规模参数估计的约束无导数优化信赖域方法

国家自然科学基金

1+阅读 · 2015年12月31日

复杂网络上数据传输博弈的合作性优化与控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

一对多联想记忆中的细胞神经网络建模及参数获取方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

对称分类、整体群表示和不变参数化格式研究

国家自然科学基金

0+阅读 · 2015年12月31日

演化优化的自适应约束处理机理及在生化过程中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

对称锥互补问题的算法研究及其在压缩感知中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

多项式优化的最优性条件与最优化算法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

非线性对称锥规划的内点算法及在最优控制中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

Multiple Additive Neural Networks for Structured and Unstructured Data

Arxiv

0+阅读 · 4月29日

Geometric Layer-wise Approximation Rates for Deep Networks

Arxiv

0+阅读 · 4月22日

Heterogeneous Connectivity in Sparse Networks: Fan-in Profiles, Gradient Hierarchy, and Topological Equilibria

Arxiv

0+阅读 · 4月12日

Spike-based alignment learning solves the weight transport problem

Arxiv

0+阅读 · 4月8日

Distribution-dependent Generalization Bounds for Tuning Linear Regression Across Tasks

Arxiv

0+阅读 · 4月7日

The Riemannian Geometry Associated to Gradient Flows of Linear Convolutional Networks

Arxiv

0+阅读 · 4月5日

Semiparametric analysis for paired comparisons with covariates

Arxiv

0+阅读 · 3月31日

On the Interplay of Priors and Overparametrization in Bayesian Neural Network Posteriors

Arxiv

0+阅读 · 3月23日

Closed-form $\ell_r$ norm scaling with data for overparameterized linear regression and diagonal linear networks under $\ell_p$ bias

Arxiv

0+阅读 · 3月19日

Diagonal Linear Networks and the Lasso Regularization Path

Arxiv

0+阅读 · 3月18日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

2+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

4+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

3+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

【阿姆斯特丹博士论文】具有广义对称性的机器学习

【阿姆斯特丹博士论文】具有广义对称性的机器学习

专知会员服务

13+阅读 · 2025年6月6日

【牛津大学博士论文】机器学习中的对称性与泛化

【牛津大学博士论文】机器学习中的对称性与泛化

专知会员服务

22+阅读 · 2025年1月8日

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

专知会员服务

29+阅读 · 2024年10月4日

【牛津大学博士论文】超参数化神经网络的泛化与表达性，221页pdf

【牛津大学博士论文】超参数化神经网络的泛化与表达性，221页pdf

专知会员服务

32+阅读 · 2024年4月19日

【纽约大学博士论文】对称神经网络理论，148页pdf

【纽约大学博士论文】对称神经网络理论，148页pdf

专知会员服务

41+阅读 · 2024年4月4日

【牛津大学博士论文】机器学习中的对称性与泛化，158页pdf

【牛津大学博士论文】机器学习中的对称性与泛化，158页pdf

专知会员服务

41+阅读 · 2023年11月27日

【阿姆斯特丹博士论文】深度强化学习中的对称性和结构,149页pdf

【阿姆斯特丹博士论文】深度强化学习中的对称性和结构,149页pdf

专知会员服务

24+阅读 · 2023年8月31日

Google 发布82页《深度学习泛化性揭秘》综述论文，On the Generalization Mystery in Deep Learning

Google 发布82页《深度学习泛化性揭秘》综述论文，On the Generalization Mystery in Deep Learning

专知会员服务

61+阅读 · 2022年3月22日

如何增强卷积网络泛化性？看T.S. Cohen博士论文《等变卷积网络》，245页pdf

如何增强卷积网络泛化性？看T.S. Cohen博士论文《等变卷积网络》，245页pdf

专知会员服务

38+阅读 · 2021年5月29日

【伯克利】神经网络中的对称性与同变性，附视频与114页ppt

【伯克利】神经网络中的对称性与同变性，附视频与114页ppt

专知会员服务

25+阅读 · 2020年10月2日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

深度学习网络调参技巧

深度学习网络调参技巧

AINLP

15+阅读 · 2019年11月15日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

神经网络中的权重初始化一览：从基础到Kaiming

神经网络中的权重初始化一览：从基础到Kaiming

大数据文摘

12+阅读 · 2019年4月18日

这有一份花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

这有一份花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

专知

42+阅读 · 2019年1月7日

清华大学孙茂松课题组:《图神经网络: 方法与应用》综述论文，20页pdf

清华大学孙茂松课题组:《图神经网络: 方法与应用》综述论文，20页pdf

专知

49+阅读 · 2018年12月23日

博客 | 机器学习中的数学基础（凸优化）

博客 | 机器学习中的数学基础（凸优化）

AI研习社

14+阅读 · 2018年12月16日

SFFAI报告 | 常建龙：深度卷积网络中的卷积算子研究进展

SFFAI报告 | 常建龙：深度卷积网络中的卷积算子研究进展

人工智能前沿讲习班

11+阅读 · 2018年10月22日

从LeNet到SENet——卷积神经网络回顾

从LeNet到SENet——卷积神经网络回顾

AI科技评论

13+阅读 · 2018年2月15日

什么是学习率，以及它是如何影响深度学习的

什么是学习率，以及它是如何影响深度学习的

论智

85+阅读 · 2018年2月3日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

相关论文

Multiple Additive Neural Networks for Structured and Unstructured Data

Arxiv

0+阅读 · 4月29日

Geometric Layer-wise Approximation Rates for Deep Networks

Arxiv

0+阅读 · 4月22日

Heterogeneous Connectivity in Sparse Networks: Fan-in Profiles, Gradient Hierarchy, and Topological Equilibria

Arxiv

0+阅读 · 4月12日

Spike-based alignment learning solves the weight transport problem

Arxiv

0+阅读 · 4月8日

Distribution-dependent Generalization Bounds for Tuning Linear Regression Across Tasks

Arxiv

0+阅读 · 4月7日

The Riemannian Geometry Associated to Gradient Flows of Linear Convolutional Networks

Arxiv

0+阅读 · 4月5日

Semiparametric analysis for paired comparisons with covariates

Arxiv

0+阅读 · 3月31日

On the Interplay of Priors and Overparametrization in Bayesian Neural Network Posteriors

Arxiv

0+阅读 · 3月23日

Closed-form $\ell_r$ norm scaling with data for overparameterized linear regression and diagonal linear networks under $\ell_p$ bias

Arxiv

0+阅读 · 3月19日

Diagonal Linear Networks and the Lasso Regularization Path

Arxiv

0+阅读 · 3月18日

相关基金

大规模参数估计的约束无导数优化信赖域方法

国家自然科学基金

1+阅读 · 2015年12月31日

复杂网络上数据传输博弈的合作性优化与控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

一对多联想记忆中的细胞神经网络建模及参数获取方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

对称分类、整体群表示和不变参数化格式研究

国家自然科学基金

0+阅读 · 2015年12月31日

演化优化的自适应约束处理机理及在生化过程中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

对称锥互补问题的算法研究及其在压缩感知中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

多项式优化的最优性条件与最优化算法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

非线性对称锥规划的内点算法及在最优控制中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员