Wasserstein distributionally robust optimization (\textsf{WDRO}) is a popular model to enhance the robustness of machine learning with ambiguous data. However, the complexity of \textsf{WDRO} can be prohibitive in practice since solving its ``minimax'' formulation requires a great amount of computation. Recently, several fast \textsf{WDRO} training algorithms for some specific machine learning tasks (e.g., logistic regression) have been developed. However, the research on designing efficient algorithms for general large-scale \textsf{WDRO}s is still quite limited, to the best of our knowledge. \textit{Coreset} is an important tool for compressing large dataset, and thus it has been widely applied to reduce the computational complexities for many optimization problems. In this paper, we introduce a unified framework to construct the $\epsilon$-coreset for the general \textsf{WDRO} problems. Though it is challenging to obtain a conventional coreset for \textsf{WDRO} due to the uncertainty issue of ambiguous data, we show that we can compute a ``dual coreset'' by using the strong duality property of \textsf{WDRO}. Also, the error introduced by the dual coreset can be theoretically guaranteed for the original \textsf{WDRO} objective. To construct the dual coreset, we propose a novel grid sampling approach that is particularly suitable for the dual formulation of \textsf{WDRO}. Finally, we implement our coreset approach and illustrate its effectiveness for several \textsf{WDRO} problems in the experiments.


翻译:Wasserstein分布鲁棒优化(\textsf{WDRO})是一种流行的模型,用于增强机器学习在处理模糊数据时的鲁棒性。然而,在实际应用中,\textsf{WDRO}的复杂性可能令人望而却步,因为求解其“极小化-极大化”公式需要大量计算。近年来,针对某些特定机器学习任务(例如逻辑回归)开发了几种快速的\textsf{WDRO}训练算法。但据我们所知,关于设计通用大规模\textsf{WDRO}高效算法的研究仍然相当有限。核心集(Coreset)是压缩大数据集的重要工具,因此已被广泛应用于降低许多优化问题的计算复杂度。在本文中,我们引入了一个统一框架,用于构建通用\textsf{WDRO}问题的$\epsilon$-核心集。尽管由于模糊数据的不确定性问题,获得\textsf{WDRO}的传统核心集颇具挑战性,但我们表明,可以利用\textsf{WDRO}的强对偶性来计算“对偶核心集”。此外,对偶核心集引入的误差可以在理论上保证相对于原始\textsf{WDRO}目标函数的有效性。为了构建对偶核心集,我们提出了一种新颖的网格采样方法,该方法特别适用于\textsf{WDRO}的对偶公式。最后,我们实现了核心集方法,并通过多个\textsf{WDRO}问题的实验展示了其有效性。

0
下载
关闭预览

相关内容

干货书!基于单调算子的大规模凸优化,348页pdf
专知会员服务
50+阅读 · 2022年7月24日
专知会员服务
144+阅读 · 2021年3月17日
再谈人脸识别损失函数综述
人工智能前沿讲习班
14+阅读 · 2019年5月7日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
【泡泡一分钟】RoomNet:端到端房屋布局估计
泡泡机器人SLAM
18+阅读 · 2018年12月4日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
14+阅读 · 2022年5月6日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
干货书!基于单调算子的大规模凸优化,348页pdf
专知会员服务
50+阅读 · 2022年7月24日
专知会员服务
144+阅读 · 2021年3月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员