Federated Clustering (FC) is an emerging and promising solution in exploring data distribution patterns from distributed and privacy-protected data in an unsupervised manner. Existing FC methods implicitly rely on the assumption that clients are with a known number of uniformly sized clusters. However, the true number of clusters is typically unknown, and cluster sizes are naturally imbalanced in real scenarios. Furthermore, the privacy-preserving transmission constraints in federated learning inevitably reduce usable information, making the development of robust and accurate FC extremely challenging. Accordingly, we propose a novel FC framework named Fed-$k^*$-HC, which can automatically determine an optimal number of clusters $k^*$ based on the data distribution explored through hierarchical clustering. To obtain the global data distribution for $k^*$ determination, we let each client generate micro-subclusters. Their prototypes are then uploaded to the server for hierarchical merging. The density-based merging design allows exploring clusters of varying sizes and shapes, and the progressive merging process can self-terminate according to the neighboring relationships among the prototypes to determine $k^*$. Extensive experiments on diverse datasets demonstrate the FC capability of the proposed Fed-$k^*$-HC in accurately exploring a proper number of clusters.


翻译:联邦聚类是一种新兴且有前景的解决方案,旨在以无监督方式探索分布式且受隐私保护的数据分布模式。现有联邦聚类方法隐含地依赖于一个假设,即客户端具有已知数量且大小均匀的簇。然而,在实际场景中,真实的簇数量通常是未知的,且簇大小天然不平衡。此外,联邦学习中保护隐私的传输约束不可避免地减少了可用信息,使得开发鲁棒且准确的联邦聚类极具挑战性。为此,我们提出了一种名为 Fed-$k^*$-HC 的新型联邦聚类框架,该框架能够基于通过层次聚类探索的数据分布自动确定最优簇数量 $k^*$。为获得用于确定 $k^*$ 的全局数据分布,我们让每个客户端生成微子簇,并将其原型上传至服务器进行层次合并。基于密度的合并设计允许探索不同大小和形状的簇,且渐进式合并过程可根据原型间的邻近关系自行终止,从而确定 $k^*$。在多样化数据集上的大量实验证明了所提出的 Fed-$k^*$-HC 在准确探索适当簇数量方面的联邦聚类能力。

0
下载
关闭预览

相关内容

层次聚类(Hierarchical Clustering)是聚类算法的一种,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。
移动边缘网络中联邦学习效率优化综述
专知会员服务
50+阅读 · 2022年7月9日
专知会员服务
27+阅读 · 2021年2月2日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
【资源】联邦学习相关文献资源大列表
专知
10+阅读 · 2020年2月25日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Arxiv
0+阅读 · 3月14日
Arxiv
0+阅读 · 2月25日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员