Sharpness-Aware Minimization Can Hallucinate Minimizers - 专知论文

会员服务 ·

0

极小值 · 梯度 · 扰动 · 损失 · 失效 ·

Sharpness-Aware Minimization Can Hallucinate Minimizers

翻译：锐度感知最小化可能产生幻觉极小值点

Chanwoong Park,Uijeong Jang,Ernest K. Ryu,Insoon Yang

Sharpness-Aware Minimization (SAM) is widely used to seek flatter minima -- often linked to better generalization. In its standard implementation, SAM updates the current iterate using the loss gradient evaluated at a point perturbed by distance $ρ$ along the normalized gradient direction. We show that, for some choices of $ρ$, SAM can stall at points where this shifted (perturbed-point) gradient vanishes despite a nonzero original gradient, and therefore, they are not stationary points of the original loss. We call these points hallucinated minimizers, prove their existence under simple nonconvex landscape conditions (e.g., the presence of a local minimizer and a local maximizer), and establish sufficient conditions for local convergence of the SAM iterates to them. We corroborate this failure mode in neural network training and observe that it aligns with SAM's performance degradation often seen at large $ρ$. Finally, as a practical safeguard, we find that a short initial SGD warm-start before enabling SAM mitigates this failure mode and reduces sensitivity to the choice of $ρ$.

翻译：锐度感知最小化（SAM）被广泛用于寻找更平坦的极小值点——这通常与更好的泛化性能相关联。在其标准实现中，SAM通过沿归一化梯度方向移动距离$ρ$的扰动点处评估的损失梯度来更新当前迭代点。我们发现，对于某些$ρ$的选择，SAM可能会停滞在扰动点梯度为零但原始梯度非零的点上，因此这些点并非原始损失的驻点。我们将这些点称为幻觉极小值点，在简单的非凸优化景观条件下（例如存在局部极小值点和局部极大值点）证明了它们的存在性，并建立了SAM迭代局部收敛到这些点的充分条件。我们在神经网络训练中验证了这种失效模式，并观察到它与SAM在大$ρ$值时常见的性能下降现象相符。最后，作为一种实用的防护措施，我们发现启用SAM前进行短暂的初始SGD预热可以有效缓解这种失效模式，并降低对$ρ$值选择的敏感性。

0

相关内容

极小值

稀疏点云感知的表示学习

稀疏点云感知的表示学习

专知会员服务

9+阅读 · 2月9日

【NeurIPS2025】语义提示扩散变换器的像素级精确深度估计

【NeurIPS2025】语义提示扩散变换器的像素级精确深度估计

专知会员服务

8+阅读 · 2025年10月9日

【NeurIPS 2025】视觉指令瓶颈微调

【NeurIPS 2025】视觉指令瓶颈微调

专知会员服务

6+阅读 · 2025年10月5日

【CVPR2025】通过高效提示与偏好优化增强SAM，实现半监督医学图像分割

【CVPR2025】通过高效提示与偏好优化增强SAM，实现半监督医学图像分割

专知会员服务

11+阅读 · 2025年3月8日

【ICLR2025】SAMREFINER：驯化“Segment Anything Model”进行通用掩码优化

【ICLR2025】SAMREFINER：驯化“Segment Anything Model”进行通用掩码优化

专知会员服务

12+阅读 · 2025年2月11日

【NeurIPS2023】对齐提示:测试时提示与分布对齐以实现零样本泛化

【NeurIPS2023】对齐提示:测试时提示与分布对齐以实现零样本泛化

专知会员服务

24+阅读 · 2023年11月3日

【AAAI2023】对抗性权重扰动提高图神经网络的泛化能力

【AAAI2023】对抗性权重扰动提高图神经网络的泛化能力

专知会员服务

19+阅读 · 2022年12月12日

【ICML2022】Sharp-MAML:锐度感知的模型无关元学习

【ICML2022】Sharp-MAML:锐度感知的模型无关元学习

专知会员服务

17+阅读 · 2022年6月10日

【ICML2021】异质风险最小化，Heterogeneous Risk Minimization

专知会员服务

16+阅读 · 2021年5月21日

【MIT】约束最小-最大优化的复杂性，84页pdf

专知会员服务

44+阅读 · 2020年9月25日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

从泰勒展开来看梯度下降算法

从泰勒展开来看梯度下降算法

深度学习每日摘要

13+阅读 · 2019年4月9日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

异常检测的阈值，你怎么选？给你整理好了...

异常检测的阈值，你怎么选？给你整理好了...

机器学习算法与Python学习

10+阅读 · 2018年9月19日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

【团队新作】连续情感识别，精准捕捉你的小情绪！

【团队新作】连续情感识别，精准捕捉你的小情绪！

中国科学院自动化研究所

16+阅读 · 2018年4月17日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

鲁棒性压缩感知重构技术及其在智能视频监控中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

结构化压缩感知及其在盲信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的信号重建快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

面向可穿戴设备的压缩感知关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

敏化的高阈值体系下亚衍射极限纳米光刻极限尺度研究

国家自然科学基金

0+阅读 · 2015年12月31日

非线性压缩感知问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

约束最小生成树及其在容迟容断网络中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

磁性随机存储器中调控磁化反转势垒降低临界电流密度研究

国家自然科学基金

0+阅读 · 2014年12月31日

ZO-SAM: Zero-Order Sharpness-Aware Minimization for Efficient Sparse Training

Arxiv

0+阅读 · 3月13日

DD-CAM: Minimal Sufficient Explanations for Vision Models Using Delta Debugging

Arxiv

0+阅读 · 2月22日

The Minimax Lower Bound of Kernel Stein Discrepancy Estimation

Arxiv

0+阅读 · 2月20日

Escaping Local Minima Provably in Non-convex Matrix Sensing: A Deterministic Framework via Simulated Lifting

Arxiv

0+阅读 · 2月11日

Rethinking Graph Generalization through the Lens of Sharpness-Aware Minimization

Arxiv

0+阅读 · 2月9日

LookSharp: Attention Entropy Minimization for Test-Time Adaptation

Arxiv

0+阅读 · 2月7日

Unveiling m-Sharpness Through the Structure of Stochastic Gradient Noise

Arxiv

0+阅读 · 2月5日

Exact Multiple Change-Point Detection Via Smallest Valid Partitioning

Arxiv

0+阅读 · 2月4日

Sharpness of Minima in Deep Matrix Factorization

Arxiv

0+阅读 · 2月4日

Flatness-Aware Stochastic Gradient Langevin Dynamics

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

2+阅读 · 今天12:11

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

2+阅读 · 今天12:10

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

4+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

5+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

14+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

8+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

8+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

9+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

12+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

7+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

6+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

8+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

7+阅读 · 5月29日

相关VIP内容

稀疏点云感知的表示学习

稀疏点云感知的表示学习

专知会员服务

9+阅读 · 2月9日

【NeurIPS2025】语义提示扩散变换器的像素级精确深度估计

【NeurIPS2025】语义提示扩散变换器的像素级精确深度估计

专知会员服务

8+阅读 · 2025年10月9日

【NeurIPS 2025】视觉指令瓶颈微调

【NeurIPS 2025】视觉指令瓶颈微调

专知会员服务

6+阅读 · 2025年10月5日

【CVPR2025】通过高效提示与偏好优化增强SAM，实现半监督医学图像分割

【CVPR2025】通过高效提示与偏好优化增强SAM，实现半监督医学图像分割

专知会员服务

11+阅读 · 2025年3月8日

【ICLR2025】SAMREFINER：驯化“Segment Anything Model”进行通用掩码优化

【ICLR2025】SAMREFINER：驯化“Segment Anything Model”进行通用掩码优化

专知会员服务

12+阅读 · 2025年2月11日

【NeurIPS2023】对齐提示:测试时提示与分布对齐以实现零样本泛化

【NeurIPS2023】对齐提示:测试时提示与分布对齐以实现零样本泛化

专知会员服务

24+阅读 · 2023年11月3日

【AAAI2023】对抗性权重扰动提高图神经网络的泛化能力

【AAAI2023】对抗性权重扰动提高图神经网络的泛化能力

专知会员服务

19+阅读 · 2022年12月12日

【ICML2022】Sharp-MAML:锐度感知的模型无关元学习

【ICML2022】Sharp-MAML:锐度感知的模型无关元学习

专知会员服务

17+阅读 · 2022年6月10日

【ICML2021】异质风险最小化，Heterogeneous Risk Minimization

专知会员服务

16+阅读 · 2021年5月21日

【MIT】约束最小-最大优化的复杂性，84页pdf

专知会员服务

44+阅读 · 2020年9月25日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 推理时控制：可信大语言模型的运行时治理全景

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

BES：让语言模型通过双向进化搜索自我改进

相关资讯

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

从泰勒展开来看梯度下降算法

从泰勒展开来看梯度下降算法

深度学习每日摘要

13+阅读 · 2019年4月9日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

异常检测的阈值，你怎么选？给你整理好了...

异常检测的阈值，你怎么选？给你整理好了...

机器学习算法与Python学习

10+阅读 · 2018年9月19日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

【团队新作】连续情感识别，精准捕捉你的小情绪！

【团队新作】连续情感识别，精准捕捉你的小情绪！

中国科学院自动化研究所

16+阅读 · 2018年4月17日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

相关论文

ZO-SAM: Zero-Order Sharpness-Aware Minimization for Efficient Sparse Training

Arxiv

0+阅读 · 3月13日

DD-CAM: Minimal Sufficient Explanations for Vision Models Using Delta Debugging

Arxiv

0+阅读 · 2月22日

The Minimax Lower Bound of Kernel Stein Discrepancy Estimation

Arxiv

0+阅读 · 2月20日

Escaping Local Minima Provably in Non-convex Matrix Sensing: A Deterministic Framework via Simulated Lifting

Arxiv

0+阅读 · 2月11日

Rethinking Graph Generalization through the Lens of Sharpness-Aware Minimization

Arxiv

0+阅读 · 2月9日

LookSharp: Attention Entropy Minimization for Test-Time Adaptation

Arxiv

0+阅读 · 2月7日

Unveiling m-Sharpness Through the Structure of Stochastic Gradient Noise

Arxiv

0+阅读 · 2月5日

Exact Multiple Change-Point Detection Via Smallest Valid Partitioning

Arxiv

0+阅读 · 2月4日

Sharpness of Minima in Deep Matrix Factorization

Arxiv

0+阅读 · 2月4日

Flatness-Aware Stochastic Gradient Langevin Dynamics

Arxiv

0+阅读 · 2月2日

相关基金

鲁棒性压缩感知重构技术及其在智能视频监控中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

结构化压缩感知及其在盲信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的信号重建快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

面向可穿戴设备的压缩感知关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

敏化的高阈值体系下亚衍射极限纳米光刻极限尺度研究

国家自然科学基金

0+阅读 · 2015年12月31日

非线性压缩感知问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

约束最小生成树及其在容迟容断网络中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

磁性随机存储器中调控磁化反转势垒降低临界电流密度研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员