Generalization at the Edge of Stability - 专知论文

会员服务 ·

0

Generalization at the Edge of Stability

翻译：边缘稳定性下的泛化

Mario Tuci,Caner Korkmaz,Umut Şimşekli,Tolga Birdal

from arxiv, Project page: https://circle-group.github.io/research/GATES

Training modern neural networks often relies on large learning rates, operating at the edge of stability, where the optimization dynamics exhibit oscillatory and chaotic behavior. Empirically, this regime often yields improved generalization performance, yet the underlying mechanism remains poorly understood. In this work, we represent stochastic optimizers as random dynamical systems, which often converge to a fractal attractor set (rather than a point) with a smaller intrinsic dimension. Building on this connection and inspired by Lyapunov dimension theory, we introduce a novel notion of dimension, coined the `sharpness dimension', and prove a generalization bound based on this dimension. Our results show that generalization in the chaotic regime depends on the complete Hessian spectrum and the structure of its partial determinants, highlighting a complexity that cannot be captured by the trace or spectral norm considered in prior work. Experiments across various MLPs and transformers validate our theory while also providing new insights into the recently observed phenomenon of grokking.

翻译：训练现代神经网络常依赖大学习率，使其运行在边缘稳定性状态，此时优化动力学呈现振荡与混沌行为。实证表明，该状态通常能提升泛化性能，但其底层机制仍未得到充分理解。本文中，我们将随机优化器建模为随机动力系统，该系统常收敛至一个具有更低内在维度的分形吸引子集合（而非单一不动点）。基于这一关联并受Lyapunov维度理论启发，我们提出了一种名为“锐度维度”的新维度概念，并证明了基于该维度的泛化界。我们的结果表明，混沌状态下的泛化依赖于完整的Hessian谱及其部分行列式结构，这突显出先前研究中所考虑的迹或谱范数无法捕捉的复杂性。在多种MLP与Transformer上的实验验证了我们的理论，同时为近期观测到的“顿悟”现象提供了新洞见。

0

相关内容

【CMU博士论文】深度学习中泛化的量化、理解与改进

【CMU博士论文】深度学习中泛化的量化、理解与改进

专知会员服务

21+阅读 · 2025年10月11日

深度学习中泛化的量化、理解与改进

深度学习中泛化的量化、理解与改进

专知会员服务

17+阅读 · 2025年9月13日

【阿姆斯特丹博士论文】在测试时学习泛化

【阿姆斯特丹博士论文】在测试时学习泛化

专知会员服务

13+阅读 · 2025年7月16日

【博士论文】信息论视角下的泛化理论方法，274页pdf

【博士论文】信息论视角下的泛化理论方法，274页pdf

专知会员服务

51+阅读 · 2024年4月28日

【DTU博士论文】结构化表示学习的泛化

【DTU博士论文】结构化表示学习的泛化

专知会员服务

53+阅读 · 2023年4月27日

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

专知会员服务

64+阅读 · 2022年3月23日

Google 发布82页《深度学习泛化性揭秘》综述论文，On the Generalization Mystery in Deep Learning

Google 发布82页《深度学习泛化性揭秘》综述论文，On the Generalization Mystery in Deep Learning

专知会员服务

61+阅读 · 2022年3月22日

分布外泛化(Out-Of-Distribution Generalization) 综述论文，22页pdf240篇文献

专知会员服务

64+阅读 · 2021年9月2日

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

专知会员服务

19+阅读 · 2020年6月29日

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

专知会员服务

13+阅读 · 2019年12月9日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【纽约大学】贝叶斯深度学习和泛化性的概率观点，附27页PPT下载

【纽约大学】贝叶斯深度学习和泛化性的概率观点，附27页PPT下载

专知

27+阅读 · 2020年2月25日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

初学者系列：Attentional Factorization Machines（AFM）详解

初学者系列：Attentional Factorization Machines（AFM）详解

专知

82+阅读 · 2019年9月16日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

概率论之概念解析：边缘化（Marginalisation）

概率论之概念解析：边缘化（Marginalisation）

专知

14+阅读 · 2018年1月31日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

计及多重-复合不确定性的电力系统稳定约束优化调度研究

国家自然科学基金

1+阅读 · 2016年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

分数阶随机共振行为机制及其自适应控制与强色噪声背景中的微弱信号检测

国家自然科学基金

0+阅读 · 2015年12月31日

广义混杂系统的降阶分析与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于广义输出调节的非线性多个体系统的协调控制与优化

国家自然科学基金

1+阅读 · 2015年12月31日

拓广下三角结构切换随机非线性系统的控制设计

国家自然科学基金

0+阅读 · 2015年12月31日

近临界随机环境中随机游动的若干极限性质

国家自然科学基金

0+阅读 · 2015年12月31日

滑模控制方法处理带有干扰的一维具有范德波尔型边界条件的波动方程的稳定性

国家自然科学基金

0+阅读 · 2015年12月31日

无穷维随机微分系统的适定性与渐近动力学研究

国家自然科学基金

0+阅读 · 2014年12月31日

泛在计算环境中社会化驱动的情境感知个性化信息服务研究

国家自然科学基金

2+阅读 · 2014年12月31日

Towards Initialization-dependent and Non-vacuous Generalization Bounds for Overparameterized Shallow Neural Networks

Arxiv

0+阅读 · 4月22日

The Origin of Edge of Stability

Arxiv

0+阅读 · 4月22日

Separating Geometry from Probability in the Analysis of Generalization

Arxiv

0+阅读 · 4月21日

Stability and Generalization in Looped Transformers

Arxiv

0+阅读 · 4月16日

Zeroth-Order Optimization at the Edge of Stability

Arxiv

0+阅读 · 4月16日

Momentum Further Constrains Sharpness at the Edge of Stochastic Stability

Arxiv

0+阅读 · 4月15日

A PAC-Bayesian approach to generalization for quantum models

Arxiv

0+阅读 · 3月24日

Improving Generalization on Cybersecurity Tasks with Multi-Modal Contrastive Learning

Arxiv

0+阅读 · 3月20日

Upper Generalization Bounds for Neural Oscillators

Arxiv

0+阅读 · 3月10日

Noise-Aware Generalization: Robustness to In-Domain Noise and Out-of-Domain Generalization

Arxiv

0+阅读 · 2月22日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

6+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

2+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

4+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

19+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

13+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

10+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

24+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

12+阅读 · 6月17日

相关VIP内容

【CMU博士论文】深度学习中泛化的量化、理解与改进

【CMU博士论文】深度学习中泛化的量化、理解与改进

专知会员服务

21+阅读 · 2025年10月11日

深度学习中泛化的量化、理解与改进

深度学习中泛化的量化、理解与改进

专知会员服务

17+阅读 · 2025年9月13日

【阿姆斯特丹博士论文】在测试时学习泛化

【阿姆斯特丹博士论文】在测试时学习泛化

专知会员服务

13+阅读 · 2025年7月16日

【博士论文】信息论视角下的泛化理论方法，274页pdf

【博士论文】信息论视角下的泛化理论方法，274页pdf

专知会员服务

51+阅读 · 2024年4月28日

【DTU博士论文】结构化表示学习的泛化

【DTU博士论文】结构化表示学习的泛化

专知会员服务

53+阅读 · 2023年4月27日

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

专知会员服务

64+阅读 · 2022年3月23日

Google 发布82页《深度学习泛化性揭秘》综述论文，On the Generalization Mystery in Deep Learning

Google 发布82页《深度学习泛化性揭秘》综述论文，On the Generalization Mystery in Deep Learning

专知会员服务

61+阅读 · 2022年3月22日

分布外泛化(Out-Of-Distribution Generalization) 综述论文，22页pdf240篇文献

专知会员服务

64+阅读 · 2021年9月2日

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

专知会员服务

19+阅读 · 2020年6月29日

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

专知会员服务

13+阅读 · 2019年12月9日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【纽约大学】贝叶斯深度学习和泛化性的概率观点，附27页PPT下载

【纽约大学】贝叶斯深度学习和泛化性的概率观点，附27页PPT下载

专知

27+阅读 · 2020年2月25日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

初学者系列：Attentional Factorization Machines（AFM）详解

初学者系列：Attentional Factorization Machines（AFM）详解

专知

82+阅读 · 2019年9月16日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

概率论之概念解析：边缘化（Marginalisation）

概率论之概念解析：边缘化（Marginalisation）

专知

14+阅读 · 2018年1月31日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

相关论文

Towards Initialization-dependent and Non-vacuous Generalization Bounds for Overparameterized Shallow Neural Networks

Arxiv

0+阅读 · 4月22日

The Origin of Edge of Stability

Arxiv

0+阅读 · 4月22日

Separating Geometry from Probability in the Analysis of Generalization

Arxiv

0+阅读 · 4月21日

Stability and Generalization in Looped Transformers

Arxiv

0+阅读 · 4月16日

Zeroth-Order Optimization at the Edge of Stability

Arxiv

0+阅读 · 4月16日

Momentum Further Constrains Sharpness at the Edge of Stochastic Stability

Arxiv

0+阅读 · 4月15日

A PAC-Bayesian approach to generalization for quantum models

Arxiv

0+阅读 · 3月24日

Improving Generalization on Cybersecurity Tasks with Multi-Modal Contrastive Learning

Arxiv

0+阅读 · 3月20日

Upper Generalization Bounds for Neural Oscillators

Arxiv

0+阅读 · 3月10日

Noise-Aware Generalization: Robustness to In-Domain Noise and Out-of-Domain Generalization

Arxiv

0+阅读 · 2月22日

相关基金

计及多重-复合不确定性的电力系统稳定约束优化调度研究

国家自然科学基金

1+阅读 · 2016年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

分数阶随机共振行为机制及其自适应控制与强色噪声背景中的微弱信号检测

国家自然科学基金

0+阅读 · 2015年12月31日

广义混杂系统的降阶分析与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于广义输出调节的非线性多个体系统的协调控制与优化

国家自然科学基金

1+阅读 · 2015年12月31日

拓广下三角结构切换随机非线性系统的控制设计

国家自然科学基金

0+阅读 · 2015年12月31日

近临界随机环境中随机游动的若干极限性质

国家自然科学基金

0+阅读 · 2015年12月31日

滑模控制方法处理带有干扰的一维具有范德波尔型边界条件的波动方程的稳定性

国家自然科学基金

0+阅读 · 2015年12月31日

无穷维随机微分系统的适定性与渐近动力学研究

国家自然科学基金

0+阅读 · 2014年12月31日

泛在计算环境中社会化驱动的情境感知个性化信息服务研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员