We review recently proposed Bayesian approaches for clustering high-dimensional data. After identifying the main limitations of available approaches, we introduce an alternative framework based on vertical consensus inference (VCI) to mitigate the curse of dimensionality in high-dimensional Bayesian clustering. VCI builds on the idea of consensus Monte Carlo by dividing the data into multiple shards (smaller subsets of variables), performing posterior inference on each shard, and then combining the shard-level posteriors to obtain a consensus posterior. The key distinction is that VCI splits the data vertically, producing vertical shards that retain the same number of observations but have lower dimensionality. We use an entropic regularized Wasserstein barycenter to define a consensus posterior. The shard-specific barycenter weights are constructed to favor shards that provide meaningful partitions, distinct from a trivial single cluster or all singleton clusters, favoring balanced cluster sizes and precise shard-specific posterior random partitions. We show that VCI can be interpreted as a variational approximation to the posterior under a hierarchical model with a generalized Bayes prior. For relatively low-dimensional problems, experiments suggest that VCI closely approximates inference based on clustering the entire multivariate data. For high-dimensional data and in the presence of many noninformative dimensions, VCI introduces a new framework for model-based and principled inference on random partitions. Although our focus here is on random partitions, VCI can be applied to any dimension-independent parameters and serves as a bridge to emerging areas in statistics such as consensus Monte Carlo, optimal transport, variational inference, and generalized Bayes.


翻译:我们回顾了近期提出的用于高维数据聚类的贝叶斯方法。在识别现有方法的主要限制后,我们引入了一种基于垂直共识推断(VCI)的替代框架,以缓解高维贝叶斯聚类中的维数灾难。VCI 基于共识蒙特卡洛的思想,将数据划分为多个分片(变量的较小子集),对每个分片进行后验推断,然后结合分片级后验获得共识后验。关键区别在于,VCI 垂直分割数据,生成垂直分片,这些分片保留相同观测数量但维度更低。我们使用熵正则化的Wasserstein重心来定义共识后验。分片特定的重心权重被构建为倾向于那些提供有意义分割(不同于单一块或全单个点的平凡分割)的分片,并偏好平衡的簇大小和精确的分片特定后验随机分割。我们证明,VCI 可被解释为在具有广义贝叶斯先验的分层模型下对后验的变分逼近。对于相对低维的问题,实验表明,VCI 接近基于整体多元数据聚类的推断。对于高维数据以及存在许多非信息维度的情况下,VCI 引入了用于随机分割的基于模型和原则性推断的新框架。尽管本文重点在于随机分割,但 VCI 可应用于任何与维度无关的参数,并作为连接统计新兴领域(如共识蒙特卡洛、最优传输、变分推断和广义贝叶斯)的桥梁。

0
下载
关闭预览

相关内容

【牛津博士论文】无限维空间中的广义变分推断
专知会员服务
20+阅读 · 2025年8月11日
【干货书】贝叶斯推断随机过程,449页pdf
专知会员服务
156+阅读 · 2020年8月27日
【干货书】贝叶斯推断随机过程,449页pdf
专知
31+阅读 · 2020年8月27日
简述多种降维算法
算法与数学之美
11+阅读 · 2018年9月23日
概率论之概念解析:边缘化(Marginalisation)
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月4日
Arxiv
0+阅读 · 5月13日
VIP会员
最新内容
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 42分钟前
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员