深度平衡单指标模型的梯度下降法 (Gradient descent for deep equilibrium single-index models) - 专知论文

会员服务 ·

0

梯度 · 指标模型 · 梯度下降法 · 无限 · 新型 ·

Gradient descent for deep equilibrium single-index models

翻译：深度平衡单指标模型的梯度下降法

Sanjit Dandapanthula,Aaditya Ramdas

Deep equilibrium models (DEQs) have recently emerged as a powerful paradigm for training infinitely deep weight-tied neural networks that achieve state of the art performance across many modern machine learning tasks. Despite their practical success, theoretically understanding the gradient descent dynamics for training DEQs remains an area of active research. In this work, we rigorously study the gradient descent dynamics for DEQs in the simple setting of linear models and single-index models, filling several gaps in the literature. We prove a conservation law for linear DEQs which implies that the parameters remain trapped on spheres during training and use this property to show that gradient flow remains well-conditioned for all time. We then prove linear convergence of gradient descent to a global minimizer for linear DEQs and deep equilibrium single-index models under appropriate initialization and with a sufficiently small step size. Finally, we validate our theoretical findings through experiments.

翻译：深度平衡模型（DEQs）作为一种训练无限深度权重共享神经网络的新型范式，近年来在众多现代机器学习任务中实现了最先进的性能。尽管其在实际应用中取得了成功，但从理论上理解训练DEQs的梯度下降动力学仍是一个活跃的研究领域。本文在线性模型和单指标模型的简化设定下，对DEQs的梯度下降动力学进行了严格研究，填补了文献中的若干空白。我们证明了线性DEQs存在守恒律，该性质意味着参数在训练过程中始终保持在球面上，并利用此特性证明了梯度流在所有时间条件下均保持良态。随后，我们证明了在适当的初始化和足够小的步长条件下，梯度下降法能够线性收敛到线性DEQs和深度平衡单指标模型的全局极小值点。最后，我们通过实验验证了理论结果。

0

相关内容

梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。

【CMU博士论文】深度平衡模型与扩散模型的实践应用：提升效率的方法

【CMU博士论文】深度平衡模型与扩散模型的实践应用：提升效率的方法

专知会员服务

11+阅读 · 2025年5月24日

【CMU博士论文】现代深度学习的均衡(Equilibrium)方法，155页pdf

【CMU博士论文】现代深度学习的均衡(Equilibrium)方法，155页pdf

专知会员服务

37+阅读 · 2022年6月16日

深度学习中的单阶段小目标检测方法综述

深度学习中的单阶段小目标检测方法综述

专知会员服务

47+阅读 · 2021年11月23日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

「深度学习:一种统计视角」，伯克利&斯坦福89页pdf综述论文

专知会员服务

73+阅读 · 2021年3月20日

【干货】最新《深度学习优化导论:基于梯度的优化》，252页ppt

【干货】最新《深度学习优化导论:基于梯度的优化》，252页ppt

专知会员服务

63+阅读 · 2020年11月29日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【Google-普林斯顿】从学习速率中解开自适应梯度法，Disentangling Adaptive Gradient

专知会员服务

19+阅读 · 2020年3月5日

【模型泛化教程】标签平滑与Keras, TensorFlow，和深度学习

【模型泛化教程】标签平滑与Keras, TensorFlow，和深度学习

专知会员服务

21+阅读 · 2019年12月31日

【论文推荐】深度学习中贝叶斯不确定性简单基线（A simple baseline for bayesian uncertainty in deep learning）

【论文推荐】深度学习中贝叶斯不确定性简单基线（A simple baseline for bayesian uncertainty in deep learning）

专知会员服务

46+阅读 · 2019年12月25日

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

专知

14+阅读 · 2019年11月25日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

从泰勒展开来看梯度下降算法

从泰勒展开来看梯度下降算法

深度学习每日摘要

13+阅读 · 2019年4月9日

2018年深度学习优化算法最新综述

2018年深度学习优化算法最新综述

计算机视觉战队

10+阅读 · 2018年12月11日

简述多种降维算法

简述多种降维算法

算法与数学之美

11+阅读 · 2018年9月23日

入门 | 深度学习模型的简单优化技巧

入门 | 深度学习模型的简单优化技巧

机器之心

10+阅读 · 2018年6月10日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

绝对干货 | 随机梯度下降算法综述

绝对干货 | 随机梯度下降算法综述

菜鸟的机器学习

15+阅读 · 2017年10月30日

精品公开课 | 随机梯度下降算法综述

精品公开课 | 随机梯度下降算法综述

七月在线实验室

13+阅读 · 2017年7月11日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

广义混杂系统的降阶分析与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

16+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

重力/重力梯度补偿水下惯性导航系统理论和算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

Lipschitz Multiscale Deep Equilibrium Models: A Theoretically Guaranteed and Accelerated Approach

Arxiv

0+阅读 · 2月3日

Full-Batch Gradient Descent Outperforms One-Pass SGD: Sample Complexity Separation in Single-Index Learning

Arxiv

0+阅读 · 2月2日

Spectral Gradient Descent Mitigates Anisotropy-Driven Misalignment: A Case Study in Phase Retrieval

Arxiv

0+阅读 · 1月30日

High-dimensional learning dynamics of multi-pass Stochastic Gradient Descent in multi-index models

Arxiv

0+阅读 · 1月28日

Unifying Low Dimensional Observations in Deep Learning Through the Deep Linear Unconstrained Feature Model

Arxiv

0+阅读 · 1月26日

Gradient Regularized Natural Gradients

Arxiv

0+阅读 · 1月26日

Finite-Time Analysis of Gradient Descent for Shallow Transformers

Arxiv

0+阅读 · 1月23日

SPGD: Steepest Perturbed Gradient Descent Optimization

Arxiv

0+阅读 · 1月14日

Deep Exploration of Epoch-wise Double Descent in Noisy Data: Signal Separation, Large Activation, and Benign Overfitting

Arxiv

0+阅读 · 1月13日

Why Does Stochastic Gradient Descent Slow Down in Low-Precision Training?

Arxiv

0+阅读 · 1月8日

VIP会员

文章信息

相关主题

梯度下降法

最新内容

《为码头高价值舰艇提供反无人机系统防御方案研究》80页

《为码头高价值舰艇提供反无人机系统防御方案研究》80页

专知会员服务

1+阅读 · 今天14:59

《认知战作为一个战略域：媒体生态系统、社交网络与社会韧性的侵蚀》

《认知战作为一个战略域：媒体生态系统、社交网络与社会韧性的侵蚀》

专知会员服务

2+阅读 · 今天14:21

美陆军设想无人系统司令部

美陆军设想无人系统司令部

专知会员服务

0+阅读 · 今天13:45

【博士论文】已对齐人工智能系统的持久脆弱性

【博士论文】已对齐人工智能系统的持久脆弱性

专知会员服务

0+阅读 · 今天13:52

人工智能对指挥控制的加速及其对陆军的影响（中文报告）

人工智能对指挥控制的加速及其对陆军的影响（中文报告）

专知会员服务

2+阅读 · 今天13:39

扭曲还是编造？视频大语言模型幻觉研究综述

扭曲还是编造？视频大语言模型幻觉研究综述

专知会员服务

0+阅读 · 今天13:41

美欧最新（2026）反无人机系统选项、技术与获取一览

美欧最新（2026）反无人机系统选项、技术与获取一览

专知会员服务

2+阅读 · 今天13:13

《大语言模型作为战术规划支持工具——来自两项应用研究的结论》2026最新100页报告

《大语言模型作为战术规划支持工具——来自两项应用研究的结论》2026最新100页报告

专知会员服务

2+阅读 · 今天13:11

《采用系统思维应对混合战争》125页

《采用系统思维应对混合战争》125页

专知会员服务

2+阅读 · 今天12:47

战争机器学习：数据生态系统构建（155页）

战争机器学习：数据生态系统构建（155页）

专知会员服务

6+阅读 · 今天8:10

乌克兰军事人工智能助手：NeoLens军事装备人工智能辅助维护平台

乌克兰军事人工智能助手：NeoLens军事装备人工智能辅助维护平台

专知会员服务

2+阅读 · 今天7:40

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

专知会员服务

13+阅读 · 4月14日

内省扩散语言模型

内省扩散语言模型

专知会员服务

5+阅读 · 4月14日

美伊停火协议：评估、各方反应及美国会面临的问题

美伊停火协议：评估、各方反应及美国会面临的问题

专知会员服务

4+阅读 · 4月14日

国外反无人机系统与技术动态

国外反无人机系统与技术动态

专知会员服务

4+阅读 · 4月14日

相关VIP内容

【CMU博士论文】深度平衡模型与扩散模型的实践应用：提升效率的方法

【CMU博士论文】深度平衡模型与扩散模型的实践应用：提升效率的方法

专知会员服务

11+阅读 · 2025年5月24日

【CMU博士论文】现代深度学习的均衡(Equilibrium)方法，155页pdf

【CMU博士论文】现代深度学习的均衡(Equilibrium)方法，155页pdf

专知会员服务

37+阅读 · 2022年6月16日

深度学习中的单阶段小目标检测方法综述

深度学习中的单阶段小目标检测方法综述

专知会员服务

47+阅读 · 2021年11月23日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

「深度学习:一种统计视角」，伯克利&斯坦福89页pdf综述论文

专知会员服务

73+阅读 · 2021年3月20日

【干货】最新《深度学习优化导论:基于梯度的优化》，252页ppt

【干货】最新《深度学习优化导论:基于梯度的优化》，252页ppt

专知会员服务

63+阅读 · 2020年11月29日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【Google-普林斯顿】从学习速率中解开自适应梯度法，Disentangling Adaptive Gradient

专知会员服务

19+阅读 · 2020年3月5日

【模型泛化教程】标签平滑与Keras, TensorFlow，和深度学习

【模型泛化教程】标签平滑与Keras, TensorFlow，和深度学习

专知会员服务

21+阅读 · 2019年12月31日

【论文推荐】深度学习中贝叶斯不确定性简单基线（A simple baseline for bayesian uncertainty in deep learning）

【论文推荐】深度学习中贝叶斯不确定性简单基线（A simple baseline for bayesian uncertainty in deep learning）

专知会员服务

46+阅读 · 2019年12月25日

热门VIP内容

开通专知VIP会员享更多权益服务

《认知战作为一个战略域：媒体生态系统、社交网络与社会韧性的侵蚀》

【博士论文】已对齐人工智能系统的持久脆弱性

《为码头高价值舰艇提供反无人机系统防御方案研究》80页

美陆军设想无人系统司令部

相关资讯

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

专知

14+阅读 · 2019年11月25日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

从泰勒展开来看梯度下降算法

从泰勒展开来看梯度下降算法

深度学习每日摘要

13+阅读 · 2019年4月9日

2018年深度学习优化算法最新综述

2018年深度学习优化算法最新综述

计算机视觉战队

10+阅读 · 2018年12月11日

简述多种降维算法

简述多种降维算法

算法与数学之美

11+阅读 · 2018年9月23日

入门 | 深度学习模型的简单优化技巧

入门 | 深度学习模型的简单优化技巧

机器之心

10+阅读 · 2018年6月10日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

绝对干货 | 随机梯度下降算法综述

绝对干货 | 随机梯度下降算法综述

菜鸟的机器学习

15+阅读 · 2017年10月30日

精品公开课 | 随机梯度下降算法综述

精品公开课 | 随机梯度下降算法综述

七月在线实验室

13+阅读 · 2017年7月11日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

相关论文

Lipschitz Multiscale Deep Equilibrium Models: A Theoretically Guaranteed and Accelerated Approach

Arxiv

0+阅读 · 2月3日

Full-Batch Gradient Descent Outperforms One-Pass SGD: Sample Complexity Separation in Single-Index Learning

Arxiv

0+阅读 · 2月2日

Spectral Gradient Descent Mitigates Anisotropy-Driven Misalignment: A Case Study in Phase Retrieval

Arxiv

0+阅读 · 1月30日

High-dimensional learning dynamics of multi-pass Stochastic Gradient Descent in multi-index models

Arxiv

0+阅读 · 1月28日

Unifying Low Dimensional Observations in Deep Learning Through the Deep Linear Unconstrained Feature Model

Arxiv

0+阅读 · 1月26日

Gradient Regularized Natural Gradients

Arxiv

0+阅读 · 1月26日

Finite-Time Analysis of Gradient Descent for Shallow Transformers

Arxiv

0+阅读 · 1月23日

SPGD: Steepest Perturbed Gradient Descent Optimization

Arxiv

0+阅读 · 1月14日

Deep Exploration of Epoch-wise Double Descent in Noisy Data: Signal Separation, Large Activation, and Benign Overfitting

Arxiv

0+阅读 · 1月13日

Why Does Stochastic Gradient Descent Slow Down in Low-Precision Training?

Arxiv

0+阅读 · 1月8日

相关基金

广义混杂系统的降阶分析与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

16+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

重力/重力梯度补偿水下惯性导航系统理论和算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员