Fair clustering aims to divide data into distinct clusters while preventing sensitive attributes (\textit{e.g.}, gender, race, RNA sequencing technique) from dominating the clustering. Although a number of works have been conducted and achieved huge success recently, most of them are heuristical, and there lacks a unified theory for algorithm design. In this work, we fill this blank by developing a mutual information theory for deep fair clustering and accordingly designing a novel algorithm, dubbed FCMI. In brief, through maximizing and minimizing mutual information, FCMI is designed to achieve four characteristics highly expected by deep fair clustering, \textit{i.e.}, compact, balanced, and fair clusters, as well as informative features. Besides the contributions to theory and algorithm, another contribution of this work is proposing a novel fair clustering metric built upon information theory as well. Unlike existing evaluation metrics, our metric measures the clustering quality and fairness as a whole instead of separate manner. To verify the effectiveness of the proposed FCMI, we conduct experiments on six benchmarks including a single-cell RNA-seq atlas compared with 11 state-of-the-art methods in terms of five metrics. The code could be accessed from \url{ https://pengxi.me}.


翻译:公平聚类旨在将数据划分为不同的簇,同时防止敏感属性(如性别、种族、RNA测序技术)主导聚类过程。尽管近年来已有大量研究并取得了显著成功,但大多数方法仍基于启发式策略,且缺乏统一的算法设计理论。在本工作中,我们通过发展深度公平聚类的互信息理论,并据此设计了一种名为FCMI的新颖算法,填补了这一空白。简言之,FCMI通过最大化与最小化互信息,实现了深度公平聚类高度期望的四个特性,即紧凑性、平衡性、公平性簇以及信息丰富的特征。除了在理论与算法上的贡献外,本工作的另一贡献是基于信息论提出了一种新颖的公平聚类度量。与现有评估度量不同,我们的度量将聚类质量与公平性作为一个整体而非分离的方式进行衡量。为验证所提FCMI的有效性,我们在六个基准数据集(包括一个单细胞RNA-seq图谱)上进行了实验,并与11种最先进方法在五项指标上进行了比较。代码可从\url{https://pengxi.me}获取。

0
下载
关闭预览

相关内容

互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性.
【NAACL2022】自然语言处理的对比数据与学习
专知会员服务
46+阅读 · 2022年7月10日
南大《优化方法 (Optimization Methods》课程,推荐!
专知会员服务
80+阅读 · 2022年4月3日
【WSDM2022】基于约束聚类学习离散表示的高效密集检索
专知会员服务
27+阅读 · 2021年11月16日
WSDM2022推荐算法部分论文整理(附直播课程)
机器学习与推荐算法
0+阅读 · 2022年7月21日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年6月2日
Arxiv
13+阅读 · 2021年10月22日
Arxiv
31+阅读 · 2020年9月21日
VIP会员
最新内容
综述 | OPSD:大语言模型的在线策略自蒸馏
专知会员服务
3+阅读 · 6月1日
帕兰蒂尔Maven:军事人工智能的新纪元
专知会员服务
7+阅读 · 6月1日
超越网格:作战环境对炮兵的影响
专知会员服务
3+阅读 · 5月31日
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
6+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
7+阅读 · 5月30日
相关VIP内容
【NAACL2022】自然语言处理的对比数据与学习
专知会员服务
46+阅读 · 2022年7月10日
南大《优化方法 (Optimization Methods》课程,推荐!
专知会员服务
80+阅读 · 2022年4月3日
【WSDM2022】基于约束聚类学习离散表示的高效密集检索
专知会员服务
27+阅读 · 2021年11月16日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员