Does SGD Seek Flatness or Sharpness? An Exactly Solvable Model - 专知论文

会员服务 ·

0

SGD · 噪声 · 实证研究 · 损失 · 关联 ·

Does SGD Seek Flatness or Sharpness? An Exactly Solvable Model

翻译：SGD寻求平坦性还是尖锐性？一个精确可解模型

Yizhou Xu,Pierfrancesco Beneventano,Isaac Chuang,Liu Ziyin

A large body of theory and empirical work hypothesizes a connection between the flatness of a neural network's loss landscape during training and its performance. However, there have been conceptually opposite pieces of evidence regarding when SGD prefers flatter or sharper solutions during training. In this work, we partially but causally clarify the flatness-seeking behavior of SGD by identifying and exactly solving an analytically solvable model that exhibits both flattening and sharpening behavior during training. In this model, the SGD training has no \textit{a priori} preference for flatness, but only a preference for minimal gradient fluctuations. This leads to the insight that, at least within this model, it is data distribution that uniquely determines the sharpness at convergence, and that a flat minimum is preferred if and only if the noise in the labels is isotropic across all output dimensions. When the noise in the labels is anisotropic, the model instead prefers sharpness and can converge to an arbitrarily sharp solution, depending on the imbalance in the noise in the labels spectrum. We reproduce this key insight in controlled settings with different model architectures such as MLP, RNN, and transformers.

翻译：大量理论和实证研究假设神经网络训练过程中损失景观的平坦度与其性能之间存在关联。然而，关于SGD在训练过程中何时偏好平坦解或尖锐解，存在概念上相互矛盾的证据。在本工作中，我们通过识别并精确求解一个在训练过程中同时表现出平坦化和尖锐化行为的解析可解模型，部分但因果性地澄清了SGD的平坦性寻求行为。在该模型中，SGD训练对平坦性没有先验偏好，仅对最小化梯度波动具有偏好。这引出了一个关键见解：至少在该模型内，数据分布唯一地决定了收敛时的尖锐度，且平坦最小值仅在所有输出维度上标签噪声各向同性的情况下被偏好。当标签噪声各向异性时，模型反而偏好尖锐性，并可能收敛到任意尖锐的解，具体取决于标签噪声谱的不平衡程度。我们在受控环境中使用不同模型架构（如MLP、RNN和Transformer）复现了这一关键见解。

0

相关内容

SGD

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

专知会员服务

14+阅读 · 2月14日

DNN中的凸优化如何理解？斯坦福博士论文《神经网络凸优化》，265页pdf全面阐述

DNN中的凸优化如何理解？斯坦福博士论文《神经网络凸优化》，265页pdf全面阐述

专知会员服务

66+阅读 · 2023年5月29日

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

专知会员服务

46+阅读 · 2023年2月28日

GNN如何可解释？悉尼科大最新《可解释图神经网络研究》综述，全面阐述可解释GNN的方法与评价指标

GNN如何可解释？悉尼科大最新《可解释图神经网络研究》综述，全面阐述可解释GNN的方法与评价指标

专知会员服务

112+阅读 · 2022年7月28日

MIT最新论文《对可解释特征的需求：动机和分类》：在机器学习模型的组成元素中建立可解释性

MIT最新论文《对可解释特征的需求：动机和分类》：在机器学习模型的组成元素中建立可解释性

专知会员服务

25+阅读 · 2022年6月30日

【ICLR 2022 paper解读】将公平性注入机器学习模型，降低模型偏差，即使用于训练模型的数据集是不平衡的

【ICLR 2022 paper解读】将公平性注入机器学习模型，降低模型偏差，即使用于训练模型的数据集是不平衡的

专知会员服务

33+阅读 · 2022年3月10日

KDD'2021 | 如何评估GNN的解释性模型？

专知会员服务

33+阅读 · 2021年10月4日

【斯坦福】探究预训练语言模型中的可迁移性，Investigating Transferability in PLM

【斯坦福】探究预训练语言模型中的可迁移性，Investigating Transferability in PLM

专知会员服务

20+阅读 · 2020年5月3日

【模型泛化教程】标签平滑与Keras, TensorFlow，和深度学习

【模型泛化教程】标签平滑与Keras, TensorFlow，和深度学习

专知会员服务

21+阅读 · 2019年12月31日

【ECML-PKDD 2019】突破可解释性障碍——解释深度图卷积模型的一种方法（Breaking the interpretability barrier - a methodfor interpreting deep graph convolutional models）

【ECML-PKDD 2019】突破可解释性障碍——解释深度图卷积模型的一种方法（Breaking the interpretability barrier - a methodfor interpreting deep graph convolutional models）

专知会员服务

19+阅读 · 2019年12月1日

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

55+阅读 · 2023年4月13日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

您可以相信模型的不确定性吗？

您可以相信模型的不确定性吗？

TensorFlow

14+阅读 · 2020年1月31日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

神经网络可解释性最新进展

神经网络可解释性最新进展

专知

18+阅读 · 2018年3月10日

【学界】从可视化到新模型：纵览深度学习的视觉可解释性

【学界】从可视化到新模型：纵览深度学习的视觉可解释性

GAN生成式对抗网络

10+阅读 · 2018年3月4日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

机器学习模型的“可解释性”到底有多重要？

机器学习模型的“可解释性”到底有多重要？

中国科学院自动化研究所

20+阅读 · 2018年3月1日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

关于随机MAX SAT和(2+p)-SAT模型可满足阈值的研究

国家自然科学基金

0+阅读 · 2015年12月31日

平面多项式向量场的中心问题与可积性

国家自然科学基金

1+阅读 · 2015年12月31日

考虑材料分布不确定性的结构拓扑优化问题数学建模与求解方法

国家自然科学基金

0+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

平面上几类椭圆型方程解的集中现象

国家自然科学基金

0+阅读 · 2015年12月31日

大尺度变形的三维几何模型的对应关系和分割问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

An accurate flatness measure to estimate the generalization performance of CNN models

Arxiv

0+阅读 · 3月9日

Loss Barcode: A Topological Measure of Escapability in Loss Landscapes

Arxiv

0+阅读 · 3月3日

Enhancing the Interpretability of SHAP Values Using Large Language Models

Arxiv

0+阅读 · 3月3日

A simple connection from loss flatness to compressed neural representations

Arxiv

0+阅读 · 2月22日

Interpretability-by-Design with Accurate Locally Additive Models and Conditional Feature Effects

Arxiv

0+阅读 · 2月18日

Flatter Tokens are More Valuable for Speculative Draft Model Training

Arxiv

0+阅读 · 2月18日

Flatness is Necessary, Neural Collapse is Not: Rethinking Generalization via Grokking

Arxiv

0+阅读 · 2月4日

Act or Clarify? Modeling Sensitivity to Uncertainty and Cost in Communication

Arxiv

0+阅读 · 2月4日

Sharpness of Minima in Deep Matrix Factorization

Arxiv

0+阅读 · 2月4日

Flatness-Aware Stochastic Gradient Langevin Dynamics

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

1+阅读 · 4月23日

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

1+阅读 · 4月23日

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

4+阅读 · 4月23日

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

6+阅读 · 4月23日

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

3+阅读 · 4月23日

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 4月23日

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 4月23日

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 4月23日

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 4月23日

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

8+阅读 · 4月23日

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 4月23日

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 4月23日

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 4月23日

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

18+阅读 · 4月22日

相关VIP内容

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

专知会员服务

14+阅读 · 2月14日

DNN中的凸优化如何理解？斯坦福博士论文《神经网络凸优化》，265页pdf全面阐述

DNN中的凸优化如何理解？斯坦福博士论文《神经网络凸优化》，265页pdf全面阐述

专知会员服务

66+阅读 · 2023年5月29日

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

专知会员服务

46+阅读 · 2023年2月28日

GNN如何可解释？悉尼科大最新《可解释图神经网络研究》综述，全面阐述可解释GNN的方法与评价指标

GNN如何可解释？悉尼科大最新《可解释图神经网络研究》综述，全面阐述可解释GNN的方法与评价指标

专知会员服务

112+阅读 · 2022年7月28日

MIT最新论文《对可解释特征的需求：动机和分类》：在机器学习模型的组成元素中建立可解释性

MIT最新论文《对可解释特征的需求：动机和分类》：在机器学习模型的组成元素中建立可解释性

专知会员服务

25+阅读 · 2022年6月30日

【ICLR 2022 paper解读】将公平性注入机器学习模型，降低模型偏差，即使用于训练模型的数据集是不平衡的

【ICLR 2022 paper解读】将公平性注入机器学习模型，降低模型偏差，即使用于训练模型的数据集是不平衡的

专知会员服务

33+阅读 · 2022年3月10日

KDD'2021 | 如何评估GNN的解释性模型？

专知会员服务

33+阅读 · 2021年10月4日

【斯坦福】探究预训练语言模型中的可迁移性，Investigating Transferability in PLM

【斯坦福】探究预训练语言模型中的可迁移性，Investigating Transferability in PLM

专知会员服务

20+阅读 · 2020年5月3日

【模型泛化教程】标签平滑与Keras, TensorFlow，和深度学习

【模型泛化教程】标签平滑与Keras, TensorFlow，和深度学习

专知会员服务

21+阅读 · 2019年12月31日

【ECML-PKDD 2019】突破可解释性障碍——解释深度图卷积模型的一种方法（Breaking the interpretability barrier - a methodfor interpreting deep graph convolutional models）

【ECML-PKDD 2019】突破可解释性障碍——解释深度图卷积模型的一种方法（Breaking the interpretability barrier - a methodfor interpreting deep graph convolutional models）

专知会员服务

19+阅读 · 2019年12月1日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

55+阅读 · 2023年4月13日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

您可以相信模型的不确定性吗？

您可以相信模型的不确定性吗？

TensorFlow

14+阅读 · 2020年1月31日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

神经网络可解释性最新进展

神经网络可解释性最新进展

专知

18+阅读 · 2018年3月10日

【学界】从可视化到新模型：纵览深度学习的视觉可解释性

【学界】从可视化到新模型：纵览深度学习的视觉可解释性

GAN生成式对抗网络

10+阅读 · 2018年3月4日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

机器学习模型的“可解释性”到底有多重要？

机器学习模型的“可解释性”到底有多重要？

中国科学院自动化研究所

20+阅读 · 2018年3月1日

相关论文

An accurate flatness measure to estimate the generalization performance of CNN models

Arxiv

0+阅读 · 3月9日

Loss Barcode: A Topological Measure of Escapability in Loss Landscapes

Arxiv

0+阅读 · 3月3日

Enhancing the Interpretability of SHAP Values Using Large Language Models

Arxiv

0+阅读 · 3月3日

A simple connection from loss flatness to compressed neural representations

Arxiv

0+阅读 · 2月22日

Interpretability-by-Design with Accurate Locally Additive Models and Conditional Feature Effects

Arxiv

0+阅读 · 2月18日

Flatter Tokens are More Valuable for Speculative Draft Model Training

Arxiv

0+阅读 · 2月18日

Flatness is Necessary, Neural Collapse is Not: Rethinking Generalization via Grokking

Arxiv

0+阅读 · 2月4日

Act or Clarify? Modeling Sensitivity to Uncertainty and Cost in Communication

Arxiv

0+阅读 · 2月4日

Sharpness of Minima in Deep Matrix Factorization

Arxiv

0+阅读 · 2月4日

Flatness-Aware Stochastic Gradient Langevin Dynamics

Arxiv

0+阅读 · 2月2日

相关基金

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

关于随机MAX SAT和(2+p)-SAT模型可满足阈值的研究

国家自然科学基金

0+阅读 · 2015年12月31日

平面多项式向量场的中心问题与可积性

国家自然科学基金

1+阅读 · 2015年12月31日

考虑材料分布不确定性的结构拓扑优化问题数学建模与求解方法

国家自然科学基金

0+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

平面上几类椭圆型方程解的集中现象

国家自然科学基金

0+阅读 · 2015年12月31日

大尺度变形的三维几何模型的对应关系和分割问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员