Conservation Laws for Modern Neural Architectures - 专知论文

会员服务 ·

0

梯度 · 神经网络架构 · 神经网络 · 参数化 · 参数化模型 ·

Conservation Laws for Modern Neural Architectures

翻译：现代神经网络架构的守恒定律

Viet-Hoang Tran,Vinh Khanh Bui,Tan Lai Ngoc,Nam Nguyen,Tuan Dam,Tan M. Nguyen

from arxiv, Published at the International Conference on Machine Learning (ICML 2026)

Understanding gradient descent dynamics is key to explaining the success of over-parameterized models, where implicit bias manifests through conservation laws in gradient flow. While such laws are well understood for linear and ReLU networks, they remain largely unexplored for modern architectures. This work develops a unified framework to characterize conservation laws for contemporary models, including feedforward networks with GELU, SiLU, and SwiGLU activations, multihead attention with sinusoidal and rotary positional encodings, and Mixture-of-Experts architectures under diverse gating designs. Our theoretical findings are supported by experiments that validate the predicted invariants.

翻译：理解梯度下降动力学是解释过参数化模型成功的关键，其中隐式偏差通过梯度流中的守恒定律得以体现。尽管此类定律在线性网络和ReLU网络中已被充分理解，但在现代架构中仍基本未被探索。本研究发展了一个统一框架，用于刻画当代模型的守恒定律，包括采用GELU、SiLU和SwiGLU激活函数的前馈网络，应用正弦和旋转位置编码的多头注意力机制，以及多种门控设计下的混合专家架构。我们的理论发现得到了实验验证，实验结果证实了所预测的不变量。

0

相关内容

梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。

深度线性神经网络的梯度流方程：一项基于网络视角的综述

深度线性神经网络的梯度流方程：一项基于网络视角的综述

专知会员服务

8+阅读 · 2025年11月14日

【斯坦福博士论文】神经网络中的特征学习及其他随机探索，238页pdf

【斯坦福博士论文】神经网络中的特征学习及其他随机探索，238页pdf

专知会员服务

38+阅读 · 2024年7月12日

【香港中文大学&华为等】双曲图神经网络:方法与应用综述，Hyperbolic Graph Neural Networks: A Review of Methods and Applications

【香港中文大学&华为等】双曲图神经网络:方法与应用综述，Hyperbolic Graph Neural Networks: A Review of Methods and Applications

专知会员服务

21+阅读 · 2022年3月2日

清华大学等首篇「动态神经网络」最新综述论文，20页pdf236篇文献

清华大学等首篇「动态神经网络」最新综述论文，20页pdf236篇文献

专知会员服务

80+阅读 · 2021年2月21日

【NeurIPS 2020】学习神经网络中的不变性

专知会员服务

29+阅读 · 2020年10月24日

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

专知会员服务

17+阅读 · 2020年6月22日

【论文推荐】Stochastic Graph Neural Networks，随机图神经网络

【论文推荐】Stochastic Graph Neural Networks，随机图神经网络

专知会员服务

69+阅读 · 2020年6月6日

【清华大学】图随机神经网络，Graph Random Neural Networks

【清华大学】图随机神经网络，Graph Random Neural Networks

专知会员服务

156+阅读 · 2020年5月26日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【ICML2020】持续图神经网络，Continuous Graph Neural Networks

【ICML2020】持续图神经网络，Continuous Graph Neural Networks

专知

75+阅读 · 2020年6月29日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

深度神经网络可解释性方法汇总，附Tensorflow代码实现

深度神经网络可解释性方法汇总，附Tensorflow代码实现

新智元

34+阅读 · 2019年11月7日

【南洋理工大学】图神经网络，Graph Neural Networks，附121页ppt

【南洋理工大学】图神经网络，Graph Neural Networks，附121页ppt

专知

134+阅读 · 2019年10月28日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

神经网络图的简介（基本概念，DeepWalk以及GraphSage算法）

神经网络图的简介（基本概念，DeepWalk以及GraphSage算法）

AI研习社

12+阅读 · 2019年3月5日

2018年深度学习优化算法最新综述

2018年深度学习优化算法最新综述

计算机视觉战队

10+阅读 · 2018年12月11日

图神经网络最近这么火，不妨看看我们精选的这七篇

图神经网络最近这么火，不妨看看我们精选的这七篇

人工智能前沿讲习班

37+阅读 · 2018年12月10日

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

产业智能官

13+阅读 · 2018年8月18日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

树状网络上一维非线性双曲守恒律系统的能控性

国家自然科学基金

0+阅读 · 2015年12月31日

复杂波网络的控制设计与镇定

国家自然科学基金

0+阅读 · 2015年12月31日

考虑材料分布不确定性的结构拓扑优化问题数学建模与求解方法

国家自然科学基金

0+阅读 · 2015年12月31日

相互依存网络上耦合动力学研究

国家自然科学基金

0+阅读 · 2015年12月31日

社交网络形成与演化规律的定量分析模型及其应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

A Conservation Law for Equilibrium Propagation and Coupled Learning

Arxiv

0+阅读 · 6月13日

Conservation Laws from Data Symmetry in Neural Networks

Arxiv

0+阅读 · 6月9日

Backward Coherence and Hidden-State Stability in Recurrent Neural Networks: A Quasi-Reverse-Martingale Theory

Arxiv

0+阅读 · 6月8日

Scaling Laws and Spectra of Shallow Neural Networks in the Feature Learning Regime

Arxiv

0+阅读 · 6月4日

When Both Layers Learn: Training Dynamics of Representing Linear Models via ReLU Networks

Arxiv

0+阅读 · 6月3日

Scaling Laws for Neural-Network Quantum States

Arxiv

0+阅读 · 6月1日

Unified Neural Scaling Laws

Arxiv

0+阅读 · 5月25日

Neural equilibria for long-term prediction of nonlinear conservation laws

Arxiv

0+阅读 · 5月17日

On the Architectural Complexity of Neural Networks

Arxiv

0+阅读 · 5月5日

Physics-Modeled Neural Networks

Arxiv

0+阅读 · 5月5日

VIP会员

文章信息

相关主题

神经网络架构

参数化模型

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

5+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

4+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

4+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

5+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

深度线性神经网络的梯度流方程：一项基于网络视角的综述

深度线性神经网络的梯度流方程：一项基于网络视角的综述

专知会员服务

8+阅读 · 2025年11月14日

【斯坦福博士论文】神经网络中的特征学习及其他随机探索，238页pdf

【斯坦福博士论文】神经网络中的特征学习及其他随机探索，238页pdf

专知会员服务

38+阅读 · 2024年7月12日

【香港中文大学&华为等】双曲图神经网络:方法与应用综述，Hyperbolic Graph Neural Networks: A Review of Methods and Applications

【香港中文大学&华为等】双曲图神经网络:方法与应用综述，Hyperbolic Graph Neural Networks: A Review of Methods and Applications

专知会员服务

21+阅读 · 2022年3月2日

清华大学等首篇「动态神经网络」最新综述论文，20页pdf236篇文献

清华大学等首篇「动态神经网络」最新综述论文，20页pdf236篇文献

专知会员服务

80+阅读 · 2021年2月21日

【NeurIPS 2020】学习神经网络中的不变性

专知会员服务

29+阅读 · 2020年10月24日

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

专知会员服务

17+阅读 · 2020年6月22日

【论文推荐】Stochastic Graph Neural Networks，随机图神经网络

【论文推荐】Stochastic Graph Neural Networks，随机图神经网络

专知会员服务

69+阅读 · 2020年6月6日

【清华大学】图随机神经网络，Graph Random Neural Networks

【清华大学】图随机神经网络，Graph Random Neural Networks

专知会员服务

156+阅读 · 2020年5月26日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

【ICML2020】持续图神经网络，Continuous Graph Neural Networks

【ICML2020】持续图神经网络，Continuous Graph Neural Networks

专知

75+阅读 · 2020年6月29日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

深度神经网络可解释性方法汇总，附Tensorflow代码实现

深度神经网络可解释性方法汇总，附Tensorflow代码实现

新智元

34+阅读 · 2019年11月7日

【南洋理工大学】图神经网络，Graph Neural Networks，附121页ppt

【南洋理工大学】图神经网络，Graph Neural Networks，附121页ppt

专知

134+阅读 · 2019年10月28日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

神经网络图的简介（基本概念，DeepWalk以及GraphSage算法）

神经网络图的简介（基本概念，DeepWalk以及GraphSage算法）

AI研习社

12+阅读 · 2019年3月5日

2018年深度学习优化算法最新综述

2018年深度学习优化算法最新综述

计算机视觉战队

10+阅读 · 2018年12月11日

图神经网络最近这么火，不妨看看我们精选的这七篇

图神经网络最近这么火，不妨看看我们精选的这七篇

人工智能前沿讲习班

37+阅读 · 2018年12月10日

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

产业智能官

13+阅读 · 2018年8月18日

相关论文

A Conservation Law for Equilibrium Propagation and Coupled Learning

Arxiv

0+阅读 · 6月13日

Conservation Laws from Data Symmetry in Neural Networks

Arxiv

0+阅读 · 6月9日

Backward Coherence and Hidden-State Stability in Recurrent Neural Networks: A Quasi-Reverse-Martingale Theory

Arxiv

0+阅读 · 6月8日

Scaling Laws and Spectra of Shallow Neural Networks in the Feature Learning Regime

Arxiv

0+阅读 · 6月4日

When Both Layers Learn: Training Dynamics of Representing Linear Models via ReLU Networks

Arxiv

0+阅读 · 6月3日

Scaling Laws for Neural-Network Quantum States

Arxiv

0+阅读 · 6月1日

Unified Neural Scaling Laws

Arxiv

0+阅读 · 5月25日

Neural equilibria for long-term prediction of nonlinear conservation laws

Arxiv

0+阅读 · 5月17日

On the Architectural Complexity of Neural Networks

Arxiv

0+阅读 · 5月5日

Physics-Modeled Neural Networks

Arxiv

0+阅读 · 5月5日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

树状网络上一维非线性双曲守恒律系统的能控性

国家自然科学基金

0+阅读 · 2015年12月31日

复杂波网络的控制设计与镇定

国家自然科学基金

0+阅读 · 2015年12月31日

考虑材料分布不确定性的结构拓扑优化问题数学建模与求解方法

国家自然科学基金

0+阅读 · 2015年12月31日

相互依存网络上耦合动力学研究

国家自然科学基金

0+阅读 · 2015年12月31日

社交网络形成与演化规律的定量分析模型及其应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员