K-means clustering is a workhorse of unsupervised learning, but it is notoriously brittle to outliers, distribution shifts, and limited sample sizes. Viewing k-means as Lloyd--Max quantization of the empirical distribution, we develop a distributionally robust variant that protects against such pathologies. We posit that the unknown population distribution lies within a Wasserstein-2 ball around the empirical distribution. In this setting, one seeks cluster centers that minimize the worst-case expected squared distance over this ambiguity set, leading to a minimax formulation. A tractable dual yields a soft-clustering scheme that replaces hard assignments with smoothly weighted ones. We propose an efficient block coordinate descent algorithm with provable monotonic decrease and local linear convergence. Experiments on standard benchmarks and large-scale synthetic data demonstrate substantial gains in outlier detection and robustness to noise.


翻译:K-means聚类是无监督学习中的核心方法,但众所周知其对异常值、分布偏移和有限样本量较为脆弱。通过将K-means视为对经验分布的Lloyd-Max量化,我们开发了一种分布鲁棒变体以抵御此类病理现象。我们假设未知总体分布位于经验分布周围的Wasserstein-2球内。在此设定下,我们寻求最小化该模糊集上最坏情况期望平方距离的聚类中心,由此得出极小化极大公式。一个可处理的对偶问题产生了软聚类方案,将硬分配替换为平滑加权分配。我们提出了一种高效的块坐标下降算法,具有可证明的单调递减性和局部线性收敛性。标准基准测试和大规模合成数据上的实验表明,该方法在异常值检测和噪声鲁棒性方面取得了显著提升。

0
下载
关闭预览

相关内容

可解释聚类综述
专知会员服务
38+阅读 · 2024年9月8日
【NeurIPS2023】从视觉-语言基础模型中提取分布外鲁棒性
专知会员服务
21+阅读 · 2023年11月4日
专知会员服务
26+阅读 · 2021年4月13日
专知会员服务
144+阅读 · 2021年3月17日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
【NeurIPS 2020】大规模分布式鲁棒优化方法
专知会员服务
26+阅读 · 2020年10月13日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
【ICML2020】图神经网络谱聚类
专知
10+阅读 · 2020年7月7日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
27+阅读 · 2018年12月13日
手把手教你用Keras进行多标签分类(附代码)
数据派THU
11+阅读 · 2018年7月17日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
基于Keras进行迁移学习
论智
12+阅读 · 2018年5月6日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月1日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
可解释聚类综述
专知会员服务
38+阅读 · 2024年9月8日
【NeurIPS2023】从视觉-语言基础模型中提取分布外鲁棒性
专知会员服务
21+阅读 · 2023年11月4日
专知会员服务
26+阅读 · 2021年4月13日
专知会员服务
144+阅读 · 2021年3月17日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
【NeurIPS 2020】大规模分布式鲁棒优化方法
专知会员服务
26+阅读 · 2020年10月13日
相关资讯
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
【ICML2020】图神经网络谱聚类
专知
10+阅读 · 2020年7月7日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
27+阅读 · 2018年12月13日
手把手教你用Keras进行多标签分类(附代码)
数据派THU
11+阅读 · 2018年7月17日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
基于Keras进行迁移学习
论智
12+阅读 · 2018年5月6日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员