The Bayesian approach to clustering is often appreciated for its ability to provide uncertainty in the partition structure. However, summarizing the posterior distribution over the clustering structure can be challenging, due the discrete, unordered nature and massive dimension of the space. While recent advancements provide a single clustering estimate to represent the posterior, this ignores uncertainty and may even be unrepresentative in instances where the posterior is multimodal. To enhance our understanding of uncertainty, we propose a WASserstein Approximation for Bayesian clusterIng (WASABI), which summarizes the posterior samples with not one, but multiple clustering estimates, each corresponding to a different part of the partition space that receives substantial posterior mass. Specifically, we find such clustering estimates by approximating the posterior distribution in a Wasserstein distance sense, equipped with a suitable metric on the partition space. An interesting byproduct is that a locally optimal solution can be found using a k-medoids-like algorithm on the partition space to divide the posterior samples into groups, each represented by one of the clustering estimates. Using synthetic and real datasets, we show that WASABI helps to improve the understanding of uncertainty, particularly when clusters are not well separated or when the employed model is misspecified.


翻译:贝叶斯聚类方法常因其能够提供划分结构的不确定性而受到重视。然而,由于聚类空间具有离散、无序且维度巨大的特性,对聚类结构的后验分布进行总结颇具挑战。尽管近期进展提供了单一聚类估计来代表后验分布,但这忽略了不确定性,甚至在后验分布呈多模态的情况下可能缺乏代表性。为深化对不确定性的理解,我们提出了一种用于贝叶斯聚类的Wasserstein近似方法(WASABI),该方法并非使用单一聚类估计,而是使用多个聚类估计来总结后验样本,每个估计对应于划分空间中具有显著后验质量的不同区域。具体而言,我们通过在划分空间上配备合适的度量,以Wasserstein距离意义近似后验分布来寻找此类聚类估计。一个有趣的副产品是,可以在划分空间上使用类似k-medoids的算法将后验样本划分为若干组,每组由一个聚类估计代表,从而找到局部最优解。通过使用合成数据集和真实数据集,我们证明WASABI有助于提升对不确定性的理解,尤其在簇分离不佳或所采用模型存在误设的情况下。

0
下载
关闭预览

相关内容

【干货书】概率风险分析与贝叶斯决策理论,123页pdf
专知会员服务
56+阅读 · 2023年7月17日
【干货书】贝叶斯统计分析方法,697页pdf
专知会员服务
124+阅读 · 2021年12月18日
【Nature】贝叶斯统计与建模综述,26页pdf
专知会员服务
77+阅读 · 2021年1月21日
【干货书】贝叶斯推断随机过程,449页pdf
专知会员服务
155+阅读 · 2020年8月27日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
【干货书】贝叶斯推断随机过程,449页pdf
专知
30+阅读 · 2020年8月27日
面试题:简单说说贝叶斯定理
七月在线实验室
12+阅读 · 2019年6月12日
一文读懂机器学习中的贝叶斯统计学
数据分析
26+阅读 · 2019年5月8日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
一文读懂贝叶斯分类算法(附学习资源)
大数据文摘
12+阅读 · 2017年12月14日
国家自然科学基金
16+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2月18日
Arxiv
0+阅读 · 2月18日
Arxiv
0+阅读 · 2月3日
VIP会员
相关资讯
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
【干货书】贝叶斯推断随机过程,449页pdf
专知
30+阅读 · 2020年8月27日
面试题:简单说说贝叶斯定理
七月在线实验室
12+阅读 · 2019年6月12日
一文读懂机器学习中的贝叶斯统计学
数据分析
26+阅读 · 2019年5月8日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
一文读懂贝叶斯分类算法(附学习资源)
大数据文摘
12+阅读 · 2017年12月14日
相关基金
国家自然科学基金
16+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员