Hierarchical Clustering With Confidence - 专知论文

会员服务 ·

0

层次聚类 · 置信度 · 分析 · 扰动 · 结构 ·

Hierarchical Clustering With Confidence

翻译：层次聚类置信度分析

Di Wu,Jacob Bien,Snigdha Panigrahi

from arxiv, 57 Pages, 11 Figures, 2 Algorithms

Agglomerative hierarchical clustering is one of the most widely used approaches for exploring how observations in a dataset relate to each other. However, its greedy nature makes it highly sensitive to small perturbations in the data, often producing different clustering results and making it difficult to separate genuine structure from spurious patterns. In this paper, we show how randomizing hierarchical clustering can be useful not just for measuring stability but also for designing valid hypothesis testing procedures based on the clustering results. We propose a simple randomization scheme together with a method for constructing a valid p-value at each node of the hierarchical clustering dendrogram that quantifies evidence against performing the greedy merge. Our test controls the Type I error rate, works with any hierarchical linkage without case-specific derivations, and simulations show it is substantially more powerful than existing selective inference approaches. To demonstrate the practical utility of our p-values, we develop an adaptive $α$-spending procedure that estimates the number of clusters, with a probabilistic guarantee on overestimation. Experiments on simulated and real data show that this estimate yields powerful clustering and can be used, for example, to assess clustering stability across multiple runs of the randomized algorithm.

翻译：凝聚层次聚类是探索数据集中观测点之间关系最广泛使用的方法之一。然而，其贪婪特性使其对数据的微小扰动高度敏感，常产生不同的聚类结果，难以区分真实结构与虚假模式。本文证明随机化层次聚类不仅可用于衡量稳定性，还能基于聚类结果设计有效的假设检验程序。我们提出一种简单的随机化方案，配合在层次聚类树状图每个节点构建有效p值的方法，该p值量化了反对执行贪婪合并的证据。我们的检验控制了第一类错误率，适用于任何层次连接方式而无需特定情况推导，模拟显示其检验效能显著优于现有选择性推断方法。为展示p值的实际效用，我们开发了一种自适应α消耗程序来估计聚类数量，并提供了高估概率保证。在模拟和真实数据上的实验表明，该估计方法能产生强效的聚类结果，例如可用于评估随机化算法多次运行中的聚类稳定性。

0

相关内容

层次聚类

层次聚类(Hierarchical Clustering)是聚类算法的一种，通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中，不同类别的原始数据点是树的最低层，树的顶层是一个聚类的根节点。

可解释聚类综述

可解释聚类综述

专知会员服务

38+阅读 · 2024年9月8日

【CIKM2023教程】深度聚类算法的应用，94页ppt

【CIKM2023教程】深度聚类算法的应用，94页ppt

专知会员服务

53+阅读 · 2023年11月8日

【爱丁堡大学博士论文】图聚类结构的学习，164页pdf

【爱丁堡大学博士论文】图聚类结构的学习，164页pdf

专知会员服务

21+阅读 · 2023年1月5日

图上聚类怎么做？国防科大等最新《深度图聚类》综述，13页pdf阐述深度图聚类分类、挑战与应用综述

图上聚类怎么做？国防科大等最新《深度图聚类》综述，13页pdf阐述深度图聚类分类、挑战与应用综述

专知会员服务

43+阅读 · 2022年11月25日

电子科大最新《深度聚类》全面综述，20页pdf涵盖260篇文献全面阐述深度聚类方法

电子科大最新《深度聚类》全面综述，20页pdf涵盖260篇文献全面阐述深度聚类方法

专知会员服务

109+阅读 · 2022年10月16日

浙江大学等最新《深度聚类》综述，，35页pdf涵盖246篇文献概述深度聚类体系挑战与未来方向

浙江大学等最新《深度聚类》综述，，35页pdf涵盖246篇文献概述深度聚类体系挑战与未来方向

专知会员服务

132+阅读 · 2022年6月20日

美国空军技术学院博士论文《用于气象聚类和预测的深度学习》

美国空军技术学院博士论文《用于气象聚类和预测的深度学习》

专知会员服务

54+阅读 · 2022年4月17日

【KDD2021】可扩展凝聚层次聚类

专知会员服务

15+阅读 · 2021年7月4日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知会员服务

78+阅读 · 2021年1月30日

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

专知会员服务

42+阅读 · 2019年11月21日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

【Python实战】无监督学习—聚类、层次聚类、t-SNE，DBSCAN

【Python实战】无监督学习—聚类、层次聚类、t-SNE，DBSCAN

专知

13+阅读 · 2018年6月18日

干货：基于用户画像的聚类分析

干货：基于用户画像的聚类分析

数据分析

22+阅读 · 2018年5月17日

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

专知

14+阅读 · 2018年2月18日

机器学习之确定最佳聚类数目的10种方法

机器学习之确定最佳聚类数目的10种方法

炼数成金订阅号

13+阅读 · 2017年10月12日

基于量子随机行走智能处理的理论和方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于聚合的社会化短文本信息处理与细粒度倾向性分析

国家自然科学基金

0+阅读 · 2015年12月31日

井震联合数据驱动下，多智能技术融合的煤层气储层参数预测与评价

国家自然科学基金

2+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

基于聚类分析的高性能包分类技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

时间序列数据挖掘中的聚类模型与算法研究

国家自然科学基金

14+阅读 · 2008年12月31日

On the Optimality of Hierarchical Secure Aggregation with Arbitrary Heterogeneous Data Assignment

Arxiv

0+阅读 · 4月14日

Weight-Informed Self-Explaining Clustering for Mixed-Type Tabular Data

Arxiv

0+阅读 · 4月7日

A Pragmatic Method for Comparing Clusterings with Overlaps and Outliers

Arxiv

0+阅读 · 3月20日

Explainable cluster analysis: a bagging approach

Arxiv

0+阅读 · 3月20日

Inference in Regression Discontinuity Designs with Clustered Data

Arxiv

0+阅读 · 3月19日

Federated Hierarchical Clustering with Automatic Selection of Optimal Cluster Numbers

Arxiv

0+阅读 · 3月13日

Improving clustering quality evaluation in noisy Gaussian mixtures

Arxiv

0+阅读 · 3月10日

Scalable Uncertainty Quantification for Black-Box Density-Based Clustering

Arxiv

0+阅读 · 3月3日

Assigning Confidence: K-partition Ensembles

Arxiv

0+阅读 · 2月20日

Incomplete Multi-view Clustering via Hierarchical Semantic Alignment and Cooperative Completion

Arxiv

0+阅读 · 2月20日

VIP会员

文章信息

相关主题

最新内容

“史诗怒火”行动中的无人机与反无人机作战

“史诗怒火”行动中的无人机与反无人机作战

专知会员服务

2+阅读 · 今天15:41

《北约城市作战高级训练技术（UCATT）实况模拟标准2》176页报告

《北约城市作战高级训练技术（UCATT）实况模拟标准2》176页报告

专知会员服务

2+阅读 · 今天15:38

[ICML26] 破局长视频理解！快手推出统一框架实现视频定位与深度理解，多项基准测试性能全面提升

[ICML26] 破局长视频理解！快手推出统一框架实现视频定位与深度理解，多项基准测试性能全面提升

专知会员服务

4+阅读 · 5月24日

Claw AI Lab：从自动写论文到交互式AI研究实验室

Claw AI Lab：从自动写论文到交互式AI研究实验室

专知会员服务

5+阅读 · 5月24日

美军“沙赫德-136”自杀式无人机仿制型号将获得集群能力

美军“沙赫德-136”自杀式无人机仿制型号将获得集群能力

专知会员服务

10+阅读 · 5月24日

【ICML 2026】MotiMotion：用视觉推理增强运动可控视频生成

【ICML 2026】MotiMotion：用视觉推理增强运动可控视频生成

专知会员服务

5+阅读 · 5月23日

AI能预测科学突破吗？CUSP基准揭示前沿模型能力边界

AI能预测科学突破吗？CUSP基准揭示前沿模型能力边界

专知会员服务

8+阅读 · 5月23日

美以伊冲突中的无人机反防空作战

美以伊冲突中的无人机反防空作战

专知会员服务

7+阅读 · 5月23日

【ICML 2026】面向视野外操作的VLA空间记忆框架SOMA

【ICML 2026】面向视野外操作的VLA空间记忆框架SOMA

专知会员服务

7+阅读 · 5月22日

【综述】大语言模型驱动的多模态情感识别综述：挑战、分类与未来方向

【综述】大语言模型驱动的多模态情感识别综述：挑战、分类与未来方向

专知会员服务

8+阅读 · 5月22日

安杜里尔与Meta研发军用智能眼镜的内幕

安杜里尔与Meta研发军用智能眼镜的内幕

专知会员服务

7+阅读 · 5月22日

《GPS拒止环境中的网络化赋能目标锁定》总结报告

《GPS拒止环境中的网络化赋能目标锁定》总结报告

专知会员服务

10+阅读 · 5月22日

超越步调威胁：整合人工智能以加速指挥决策

超越步调威胁：整合人工智能以加速指挥决策

专知会员服务

14+阅读 · 5月22日

连接供应链与杀伤链：Palantir 保障与对抗性后勤解决方案

连接供应链与杀伤链：Palantir 保障与对抗性后勤解决方案

专知会员服务

12+阅读 · 5月22日

Nature三连发AI自主科学发现论文

Nature三连发AI自主科学发现论文

专知会员服务

9+阅读 · 5月21日

相关VIP内容

可解释聚类综述

可解释聚类综述

专知会员服务

38+阅读 · 2024年9月8日

【CIKM2023教程】深度聚类算法的应用，94页ppt

【CIKM2023教程】深度聚类算法的应用，94页ppt

专知会员服务

53+阅读 · 2023年11月8日

【爱丁堡大学博士论文】图聚类结构的学习，164页pdf

【爱丁堡大学博士论文】图聚类结构的学习，164页pdf

专知会员服务

21+阅读 · 2023年1月5日

图上聚类怎么做？国防科大等最新《深度图聚类》综述，13页pdf阐述深度图聚类分类、挑战与应用综述

图上聚类怎么做？国防科大等最新《深度图聚类》综述，13页pdf阐述深度图聚类分类、挑战与应用综述

专知会员服务

43+阅读 · 2022年11月25日

电子科大最新《深度聚类》全面综述，20页pdf涵盖260篇文献全面阐述深度聚类方法

电子科大最新《深度聚类》全面综述，20页pdf涵盖260篇文献全面阐述深度聚类方法

专知会员服务

109+阅读 · 2022年10月16日

浙江大学等最新《深度聚类》综述，，35页pdf涵盖246篇文献概述深度聚类体系挑战与未来方向

浙江大学等最新《深度聚类》综述，，35页pdf涵盖246篇文献概述深度聚类体系挑战与未来方向

专知会员服务

132+阅读 · 2022年6月20日

美国空军技术学院博士论文《用于气象聚类和预测的深度学习》

美国空军技术学院博士论文《用于气象聚类和预测的深度学习》

专知会员服务

54+阅读 · 2022年4月17日

【KDD2021】可扩展凝聚层次聚类

专知会员服务

15+阅读 · 2021年7月4日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知会员服务

78+阅读 · 2021年1月30日

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

专知会员服务

42+阅读 · 2019年11月21日

热门VIP内容

开通专知VIP会员享更多权益服务

《北约城市作战高级训练技术（UCATT）实况模拟标准2》176页报告

Claw AI Lab：从自动写论文到交互式AI研究实验室

“史诗怒火”行动中的无人机与反无人机作战

[ICML26] 破局长视频理解！快手推出统一框架实现视频定位与深度理解，多项基准测试性能全面提升

相关资讯

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

【Python实战】无监督学习—聚类、层次聚类、t-SNE，DBSCAN

【Python实战】无监督学习—聚类、层次聚类、t-SNE，DBSCAN

专知

13+阅读 · 2018年6月18日

干货：基于用户画像的聚类分析

干货：基于用户画像的聚类分析

数据分析

22+阅读 · 2018年5月17日

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

专知

14+阅读 · 2018年2月18日

机器学习之确定最佳聚类数目的10种方法

机器学习之确定最佳聚类数目的10种方法

炼数成金订阅号

13+阅读 · 2017年10月12日

相关论文

On the Optimality of Hierarchical Secure Aggregation with Arbitrary Heterogeneous Data Assignment

Arxiv

0+阅读 · 4月14日

Weight-Informed Self-Explaining Clustering for Mixed-Type Tabular Data

Arxiv

0+阅读 · 4月7日

A Pragmatic Method for Comparing Clusterings with Overlaps and Outliers

Arxiv

0+阅读 · 3月20日

Explainable cluster analysis: a bagging approach

Arxiv

0+阅读 · 3月20日

Inference in Regression Discontinuity Designs with Clustered Data

Arxiv

0+阅读 · 3月19日

Federated Hierarchical Clustering with Automatic Selection of Optimal Cluster Numbers

Arxiv

0+阅读 · 3月13日

Improving clustering quality evaluation in noisy Gaussian mixtures

Arxiv

0+阅读 · 3月10日

Scalable Uncertainty Quantification for Black-Box Density-Based Clustering

Arxiv

0+阅读 · 3月3日

Assigning Confidence: K-partition Ensembles

Arxiv

0+阅读 · 2月20日

Incomplete Multi-view Clustering via Hierarchical Semantic Alignment and Cooperative Completion

Arxiv

0+阅读 · 2月20日

相关基金

基于量子随机行走智能处理的理论和方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于聚合的社会化短文本信息处理与细粒度倾向性分析

国家自然科学基金

0+阅读 · 2015年12月31日

井震联合数据驱动下，多智能技术融合的煤层气储层参数预测与评价

国家自然科学基金

2+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

基于聚类分析的高性能包分类技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

时间序列数据挖掘中的聚类模型与算法研究

国家自然科学基金

14+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员