This paper focuses on stochastic methods for solving smooth non-convex strongly-concave min-max problems, which have received increasing attention due to their potential applications in deep learning (e.g., deep AUC maximization, distributionally robust optimization). However, most of the existing algorithms are slow in practice, and their analysis revolves around the convergence to a nearly stationary point.We consider leveraging the Polyak-Lojasiewicz (PL) condition to design faster stochastic algorithms with stronger convergence guarantee. Although PL condition has been utilized for designing many stochastic minimization algorithms, their applications for non-convex min-max optimization remain rare. In this paper, we propose and analyze a generic framework of proximal stage-based method with many well-known stochastic updates embeddable. Fast convergence is established in terms of both the primal objective gap and the duality gap. Compared with existing studies, (i) our analysis is based on a novel Lyapunov function consisting of the primal objective gap and the duality gap of a regularized function, and (ii) the results are more comprehensive with improved rates that have better dependence on the condition number under different assumptions. We also conduct deep and non-deep learning experiments to verify the effectiveness of our methods.


翻译:本文聚焦于求解光滑非凸强凹极小极大问题的随机方法,这类问题因在深度学习(如深度AUC最大化、分布鲁棒优化)中的潜在应用而日益受到关注。然而,现有大多数算法在实践中收敛缓慢,其分析主要围绕近似稳定点的收敛性。我们考虑利用Polyak-Lojasiewicz(PL)条件设计具有更强收敛保证的快速随机算法。尽管PL条件已广泛应用于多种随机最小化算法设计,但其在非凸极小极大优化中的应用仍较为少见。本文提出并分析了一个基于近端分阶段的通用框架,支持嵌入多种经典随机更新方法。我们从原始目标间隙和对偶间隙两个角度建立了快速收敛性。与现有研究相比,(i)我们的分析基于一个新颖的李雅普诺夫函数,该函数由正则化函数的原始目标间隙和对偶间隙构成;(ii)结果更全面,在不同假设条件下具有更优的收敛速率,且对条件数的依赖性得到改善。我们还通过深度与非深度学习实验验证了所提方法的有效性。

1
下载
关闭预览

相关内容

专知会员服务
12+阅读 · 2021年7月27日
专知会员服务
30+阅读 · 2021年5月21日
【NeurIPS2020-北大】非凸优化裁剪算法的改进分析
专知会员服务
29+阅读 · 2020年10月11日
非凸优化与统计学,89页ppt,普林斯顿Yuxin Chen博士
专知会员服务
104+阅读 · 2020年6月28日
神经网络的损失函数为什么是非凸的?
极市平台
12+阅读 · 2019年9月26日
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
互信息论文笔记
CreateAMind
23+阅读 · 2018年8月23日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年6月2日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
2+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
3+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
3+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
专知会员服务
12+阅读 · 2021年7月27日
专知会员服务
30+阅读 · 2021年5月21日
【NeurIPS2020-北大】非凸优化裁剪算法的改进分析
专知会员服务
29+阅读 · 2020年10月11日
非凸优化与统计学,89页ppt,普林斯顿Yuxin Chen博士
专知会员服务
104+阅读 · 2020年6月28日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员