When multiple datasets describe complementary information about the same set of entities, for example, brain scans of an individual over time, global trade network across years, or user information across social media platforms, integrating these snapshots allows us to see a more holistic picture. A common way of identifying structure in data is through clustering, but while clustering may be applied to each dataset separately, we learn more in the multi-view setting by identifying joint clusters. We consider a clustering problem where each view conflates some of these joint clusters, only revealing partial information, and seek to recover the true joint cluster structure. We introduce this multi-view clustering model and a method for recovering it: the transposed Khatri-RAo Framework for joinT cluster recoverY (KRAFTY). The model is flexible and can accommodate a variety of data-generating processes, including latent positions in random dot product graphs and Gaussian mixtures. A key advantage of KRAFTY is that it represents joint clusters in a space with sufficient dimension so that each joint cluster occupies an orthogonal subspace in the transposed Khatri-Rao matrix, which results in a sharp drop in the scree plot at the true number of joint clusters, enabling easy model selection. Our simulations show that when the number of joint clusters exceeds the sum of the numbers of clusters in each individual view, our method outperforms existing methods in both joint clustering accuracy and estimation of the number of joint clusters.


翻译:当多个数据集描述同一组实体的互补信息时(例如个体随时间推移的脑部扫描、跨年份的全球贸易网络或跨社交媒体平台的用户信息),整合这些数据快照使我们能够获得更全面的图景。识别数据结构的一种常见方法是通过聚类,但尽管可以对每个数据集分别进行聚类,在多视图设置中,我们通过识别联合聚类能够获得更多信息。我们考虑一个聚类问题,其中每个视图混淆了部分联合聚类,仅揭示部分信息,我们的目标是恢复真实的联合聚类结构。我们引入了这一多视图聚类模型及其恢复方法:用于联合聚类恢复的转置Khatri-Rao框架(KRAFTY)。该模型具有灵活性,能够适应多种数据生成过程,包括随机点积图中的潜在位置和高斯混合模型。KRAFTY的一个关键优势在于,它在足够维度的空间中表示联合聚类,使得每个联合聚类在转置Khatri-Rao矩阵中占据正交子空间,这导致碎石图在真实联合聚类数量处出现急剧下降,从而便于模型选择。我们的模拟结果表明,当联合聚类数量超过每个单独视图中聚类数量之和时,我们的方法在联合聚类准确性和联合聚类数量估计方面均优于现有方法。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年8月27日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
VIP会员
相关VIP内容
专知会员服务
50+阅读 · 2020年8月27日
相关资讯
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员