Popular centroid-based clustering methods are typically optimized for global objectives and may fail to adequately represent large groups of datapoints. To address this concern, recent work puts forward clustering analogs of social choice proportionality concepts, such as Proportionally Representative Fairness (also known as mPJR). For proportionality guarantees to be useful in practice, they must be (a) achievable and (b) efficiently auditable, so that one can check whether standard approaches, such as $k$-means, which are not guaranteed to provide proportional representation in general, nevertheless output proportional solutions on specific inputs. In this work, we study the computational complexity of verifying proportional representation in clustering. We first show that verifying mPJR is coNP-hard. Inspired by PJR+ -- a strengthening of PJR that is polynomial-time verifiable in the committee voting setting -- we introduce mPJR+ as its metric analog. However, verifying mPJR+ relies on repeated submodular minimization, rendering it impractical at scale. Hence, we introduce Default Coalitions mPJR+ (DC-mPJR+): a new proportionality concept that offers representation guarantees to a restricted set of coalitions around unselected centers, and as a result, admits an $O(mn \log n + mnk)$ verification algorithm. DC-mPJR+ is satisfied by SEAR and remains a meaningful proxy for global fairness: any solution satisfying $γ$-DC-mPJR+ also satisfies $(γ+ 2)$-mPJR+. Together, our results identify a practical and theoretically grounded path for auditing proportional representation in clustering.


翻译:流行的基于质心的聚类方法通常针对全局目标进行优化,可能无法充分代表大型数据点群。为解决这一问题,近期研究提出了社会选择比例性概念的聚类类似物,例如比例代表性公平性(也称为 mPJR)。为使比例性保障在实践中有用,它们必须(a)可实现且(b)可高效审计,以便能够检查标准方法(如 $k$-means,通常无法保证提供比例代表性)是否在特定输入上输出比例性解。本文研究了聚类中比例代表性验证的计算复杂性。我们首先证明验证 mPJR 是 coNP-难的。受 PJR+(一种在委员会投票设置中可多项式时间验证的 PJR 强化形式)启发,我们引入 mPJR+ 作为其度量类比。然而,验证 mPJR+ 依赖于重复的子模最小化,使其在大规模场景下不实用。因此,我们提出默认联盟 mPJR+(DC-mPJR+):一种新的比例性概念,为未选中心附近的受限联盟集提供代表性保障,并由此得到一个 $O(mn \log n + mnk)$ 的验证算法。DC-mPJR+ 可由 SEAR 满足,且仍是全局公平性的有意义代理:任何满足 $γ$-DC-mPJR+ 的解也满足 $(γ+ 2)$-mPJR+。综上,我们的结果识别出一条实用且有理论基础的路径,用于审计聚类中的比例代表性。

0
下载
关闭预览

相关内容

可解释聚类综述
专知会员服务
38+阅读 · 2024年9月8日
NeurIPS 2021 Spotlight | 针对有缺失坐标的聚类问题的核心集
专知会员服务
16+阅读 · 2021年11月27日
专知会员服务
15+阅读 · 2021年7月4日
专知会员服务
30+阅读 · 2021年2月17日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月29日
Arxiv
0+阅读 · 5月26日
Arxiv
0+阅读 · 5月13日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
相关资讯
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员