The Bayesian approach to clustering is often appreciated for its ability to provide uncertainty in the partition structure. However, summarizing the posterior distribution over the clustering structure can be challenging, due the discrete, unordered nature and massive dimension of the space. While recent advancements provide a single clustering estimate to represent the posterior, this ignores uncertainty and may even be unrepresentative in instances where the posterior is multimodal. To enhance our understanding of uncertainty, we propose a WASserstein Approximation for Bayesian clusterIng (WASABI), which summarizes the posterior samples with not one, but multiple clustering estimates, each corresponding to a different part of the partition space that receives substantial posterior mass. Specifically, we find such clustering estimates by approximating the posterior distribution in a Wasserstein distance sense, equipped with a suitable metric on the partition space. An interesting byproduct is that a locally optimal solution can be found using a k-medoids-like algorithm on the partition space to divide the posterior samples into groups, each represented by one of the clustering estimates. Using synthetic and real datasets, we show that WASABI helps to improve the understanding of uncertainty, particularly when clusters are not well separated or when the employed model is misspecified.


翻译:贝叶斯聚类方法常因其能够提供划分结构的不确定性而受到重视。然而,由于聚类空间具有离散、无序且维度巨大的特性,对聚类结构的后验分布进行总结颇具挑战。尽管近期进展提供了单一聚类估计来代表后验分布,但这忽略了不确定性,甚至在后验分布呈多模态的情况下可能缺乏代表性。为深化对不确定性的理解,我们提出了一种用于贝叶斯聚类的Wasserstein近似方法(WASABI),该方法并非使用单一聚类估计,而是使用多个聚类估计来总结后验样本,每个估计对应于划分空间中具有显著后验质量的不同区域。具体而言,我们通过在划分空间上配备合适的度量,以Wasserstein距离意义近似后验分布来寻找此类聚类估计。一个有趣的副产品是,可以在划分空间上使用类似k-medoids的算法将后验样本划分为若干组,每组由一个聚类估计代表,从而找到局部最优解。通过使用合成数据集和真实数据集,我们证明WASABI有助于提升对不确定性的理解,尤其在簇分离不佳或所采用模型存在误设的情况下。

0
下载
关闭预览

相关内容

【干货书】概率风险分析与贝叶斯决策理论,123页pdf
专知会员服务
56+阅读 · 2023年7月17日
【干货书】贝叶斯统计分析方法,697页pdf
专知会员服务
126+阅读 · 2021年12月18日
【Nature】贝叶斯统计与建模综述,26页pdf
专知会员服务
77+阅读 · 2021年1月21日
【干货书】贝叶斯推断随机过程,449页pdf
专知会员服务
156+阅读 · 2020年8月27日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
【干货书】贝叶斯推断随机过程,449页pdf
专知
31+阅读 · 2020年8月27日
面试题:简单说说贝叶斯定理
七月在线实验室
12+阅读 · 2019年6月12日
一文读懂机器学习中的贝叶斯统计学
数据分析
26+阅读 · 2019年5月8日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
一文读懂贝叶斯分类算法(附学习资源)
大数据文摘
12+阅读 · 2017年12月14日
国家自然科学基金
16+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2月18日
Arxiv
0+阅读 · 2月18日
Arxiv
0+阅读 · 2月3日
VIP会员
最新内容
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
4+阅读 · 今天6:56
国外海军作战管理系统与作战训练系统
专知会员服务
2+阅读 · 今天4:16
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
9+阅读 · 今天3:36
《压缩式分布式交互仿真标准》120页
专知会员服务
4+阅读 · 今天3:21
《电子战数据交换模型研究报告》
专知会员服务
6+阅读 · 今天3:13
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
6+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
专知会员服务
10+阅读 · 4月22日
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
8+阅读 · 4月22日
电子战革命:塑造战场的十年突破(2015–2025)
相关资讯
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
【干货书】贝叶斯推断随机过程,449页pdf
专知
31+阅读 · 2020年8月27日
面试题:简单说说贝叶斯定理
七月在线实验室
12+阅读 · 2019年6月12日
一文读懂机器学习中的贝叶斯统计学
数据分析
26+阅读 · 2019年5月8日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
一文读懂贝叶斯分类算法(附学习资源)
大数据文摘
12+阅读 · 2017年12月14日
相关基金
国家自然科学基金
16+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员