Sharpness-Aware Minimization (SAM) is widely used to seek flatter minima -- often linked to better generalization. In its standard implementation, SAM updates the current iterate using the loss gradient evaluated at a point perturbed by distance $ρ$ along the normalized gradient direction. We show that, for some choices of $ρ$, SAM can stall at points where this shifted (perturbed-point) gradient vanishes despite a nonzero original gradient, and therefore, they are not stationary points of the original loss. We call these points hallucinated minimizers, prove their existence under simple nonconvex landscape conditions (e.g., the presence of a local minimizer and a local maximizer), and establish sufficient conditions for local convergence of the SAM iterates to them. We corroborate this failure mode in neural network training and observe that it aligns with SAM's performance degradation often seen at large $ρ$. Finally, as a practical safeguard, we find that a short initial SGD warm-start before enabling SAM mitigates this failure mode and reduces sensitivity to the choice of $ρ$.


翻译:锐度感知最小化(SAM)被广泛用于寻找更平坦的极小值点——这通常与更好的泛化性能相关联。在其标准实现中,SAM通过沿归一化梯度方向移动距离$ρ$的扰动点处评估的损失梯度来更新当前迭代点。我们发现,对于某些$ρ$的选择,SAM可能会停滞在扰动点梯度为零但原始梯度非零的点上,因此这些点并非原始损失的驻点。我们将这些点称为幻觉极小值点,在简单的非凸优化景观条件下(例如存在局部极小值点和局部极大值点)证明了它们的存在性,并建立了SAM迭代局部收敛到这些点的充分条件。我们在神经网络训练中验证了这种失效模式,并观察到它与SAM在大$ρ$值时常见的性能下降现象相符。最后,作为一种实用的防护措施,我们发现启用SAM前进行短暂的初始SGD预热可以有效缓解这种失效模式,并降低对$ρ$值选择的敏感性。

0
下载
关闭预览

相关内容

稀疏点云感知的表示学习
专知会员服务
7+阅读 · 2月9日
【NeurIPS 2025】视觉指令瓶颈微调
专知会员服务
6+阅读 · 2025年10月5日
【AAAI2023】对抗性权重扰动提高图神经网络的泛化能力
专知会员服务
19+阅读 · 2022年12月12日
【ICML2022】Sharp-MAML:锐度感知的模型无关元学习
专知会员服务
17+阅读 · 2022年6月10日
专知会员服务
16+阅读 · 2021年5月21日
专知会员服务
44+阅读 · 2020年9月25日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
从泰勒展开来看梯度下降算法
深度学习每日摘要
13+阅读 · 2019年4月9日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
【团队新作】连续情感识别,精准捕捉你的小情绪!
中国科学院自动化研究所
16+阅读 · 2018年4月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月16日
VIP会员
相关VIP内容
稀疏点云感知的表示学习
专知会员服务
7+阅读 · 2月9日
【NeurIPS 2025】视觉指令瓶颈微调
专知会员服务
6+阅读 · 2025年10月5日
【AAAI2023】对抗性权重扰动提高图神经网络的泛化能力
专知会员服务
19+阅读 · 2022年12月12日
【ICML2022】Sharp-MAML:锐度感知的模型无关元学习
专知会员服务
17+阅读 · 2022年6月10日
专知会员服务
16+阅读 · 2021年5月21日
专知会员服务
44+阅读 · 2020年9月25日
相关资讯
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
从泰勒展开来看梯度下降算法
深度学习每日摘要
13+阅读 · 2019年4月9日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
【团队新作】连续情感识别,精准捕捉你的小情绪!
中国科学院自动化研究所
16+阅读 · 2018年4月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员