We introduce a novel framework for uncertainty quantification in clustering that combines martingale posterior distributions with density-based clustering. Unlike classical model-based approaches, which define clusters at the latent level of a mixture model, we treat clusters as explicit functionals of the data-generating density, without assuming any specific parametric form. To characterize density uncertainty, we obtain martingale posterior samples via a predictive resampling scheme driven by model score evaluations. This allows us to leverage state-of-the-art differentiable density estimators, such as normalizing flows, making density resampling efficient in large-scale settings and fully parallelizable on modern GPU hardware. Martingale posterior samples of the clustering structure are then obtained by applying density-based clustering to the density draws, enabling principled inference on any clustering-related quantity. Casting the inference target as a density functional further enables a rigorous theoretical analysis of the procedure's convergence properties. We apply our methodology to image and single-cell RNA sequencing data, demonstrating the computational efficiency afforded by its GPU compatibility as well as its ability to recover meaningful clustering structures, with associated uncertainty, across diverse domains.


翻译:我们提出了一种新颖的聚类不确定性量化框架,该框架将鞅后验分布与基于密度的聚类相结合。与经典模型方法(即在混合模型的潜变量层面定义簇)不同,我们将簇视为数据生成密度的显式泛函,且不假设任何特定的参数形式。为了表征密度不确定性,我们通过基于模型分数评估的预测重采样方案获取鞅后验样本。这使我们能够利用最先进的可微密度估计器(如归一化流),从而在大规模场景下实现高效的密度重采样,并在现代GPU硬件上完全并行化。随后,通过将基于密度的聚类应用于密度采样结果,可获得聚类结构的鞅后验样本,从而实现对任意聚类相关量的原理性推断。将推断目标视为密度泛函,还可对方法的收敛性质进行严格的理论分析。我们将该方法应用于图像和单细胞RNA测序数据,展示了其GPU兼容性带来的计算效率,以及在不同领域中恢复具有不确定性的有意义聚类结构的能力。

0
下载
关闭预览

相关内容

可解释聚类综述
专知会员服务
38+阅读 · 2024年9月8日
【ETHZ博士论文】分布不确定性下的决策,234页pdf
专知会员服务
49+阅读 · 2024年4月5日
【博士论文】生成模型中的可控性与不确定性,214页pdf
专知会员服务
47+阅读 · 2024年3月14日
【AAAI2023】基于Dirichlet元模型的事后不确定性学习
专知会员服务
16+阅读 · 2022年12月16日
专知会员服务
15+阅读 · 2021年7月4日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月14日
VIP会员
相关主题
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员