Popular centroid-based clustering methods are typically optimized for global objectives, and may fail to adequately represent large groups of datapoints. Thus, one needs proportionality notions suited for metric settings. Ideally, such notions should admit polynomial-time algorithms for (a) finding proportional outcomes, and (b) checking if a given outcome is proportional; the latter enables evaluation of traditional algorithms without proportionality guarantees (e.g., $k$-means). A promising approach imports proportionality notions from multiwinner voting with approval ballots. In particular, mPJR, the metric version of the well-known Proportional Justified Representation (PJR) axiom, satisfies (a), but whether it satisfies (b) was open. In this work, we study the computational complexity of auditing proportional representation in clustering. In the approval setting, PJR is coNP-complete to verify; however, it admits a strengthening PJR+, which satisfies (a) and (b). We show these results translate to the metric setting: mPJR is coNP-complete to verify, we define mPJR+, a metric analog of PJR+, and argue mPJR+ satisfies (a) and (b). However, auditing mPJR+ relies on repeated submodular minimization, rendering it impractical at scale, and a natural combinatorial approach is infeasible. As a partial remedy, we propose an mPJR+ verification algorithm exponential in $k$ but quasilinear in the number of datapoints. Motivated by these hardness results, we introduce DC-mPJR+: a proportionality concept offering representation guarantees to a restricted set of coalitions around unselected centers, admitting an $O(mn \log n + mnk)$ verification algorithm. DC-mPJR+ outcomes can be computed efficiently, and any $γ$-DC-mPJR+ solution satisfies $(γ+ 2)$-mPJR+.


翻译:流行的基于质心的聚类方法通常针对全局目标进行优化,可能无法充分代表大数据点群。因此,需要适用于度量设置的数比例概念。理想情况下,这些概念应支持多项式时间算法,用于(a)寻找比例结果,以及(b)检查给定结果是否成比例;后者能够评估传统无比例保证的算法(例如$k$-均值)。一种有前景的方法从使用赞成票的多赢家投票中引入比例概念。具体而言,mPJR(著名比例正当代表(PJR)公理的度量版本)满足(a),但能否满足(b)尚未明确。本文研究聚类中比例代表审计的计算复杂性。在赞成票设置下,验证PJR是coNP完全的;然而,其强化版本PJR+同时满足(a)和(b)。我们证明这些结果可迁移至度量设置:验证mPJR是coNP完全的;定义mPJR+(PJR+的度量类比),并论证mPJR+满足(a)和(b)。但审计mPJR+依赖于重复的子模最小化,使其在大规模下不实用,且自然的组合方法不可行。作为部分补救,我们提出一种mPJR+验证算法,时间复杂度在$k$上指数级,但在数据点数上近似线性。受这些困难结果启发,我们引入DC-mPJR+:一种比例概念,为未选中质心周围的有限联盟集提供代表保障,并支持$O(mn \log n + mnk)$的验证算法。DC-mPJR+结果可高效计算,且任意$γ$-DC-mPJR+解满足$(γ+ 2)$-mPJR+。

0
下载
关闭预览

相关内容

可解释聚类综述
专知会员服务
38+阅读 · 2024年9月8日
【CIKM2023教程】深度聚类算法的应用,94页ppt
专知会员服务
53+阅读 · 2023年11月8日
NeurIPS 2021 Spotlight | 针对有缺失坐标的聚类问题的核心集
专知会员服务
16+阅读 · 2021年11月27日
专知会员服务
15+阅读 · 2021年7月4日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
七月在线实验室
11+阅读 · 2018年7月18日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Arxiv
0+阅读 · 5月29日
Arxiv
0+阅读 · 5月13日
Arxiv
0+阅读 · 5月12日
Arxiv
0+阅读 · 5月11日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
可解释聚类综述
专知会员服务
38+阅读 · 2024年9月8日
【CIKM2023教程】深度聚类算法的应用,94页ppt
专知会员服务
53+阅读 · 2023年11月8日
NeurIPS 2021 Spotlight | 针对有缺失坐标的聚类问题的核心集
专知会员服务
16+阅读 · 2021年11月27日
专知会员服务
15+阅读 · 2021年7月4日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员