The silhouette coefficient quantifies, for each observation, the balance between within-cluster cohesion and between-cluster separation, taking values in the range [-1, 1]. The average silhouette width (ASW) is a widely used internal measure of clustering quality, with higher values indicating more cohesive and well-separated clusters. However, the dataset-specific maximum of ASW is typically unknown, and the standard upper limit of 1 is rarely attainable. In this work, we derive for each data point a sharp upper bound on its silhouette width and aggregate these to obtain a canonical upper bound of the ASW. This bound-often substantially below 1-enhances the interpretability of empirical ASW values by providing guidance on how close a given clustering result is to the best possible outcome for that dataset. We evaluate the usefulness of the upper bound on a variety of datasets and conclude that it can meaningfully enrich cluster quality evaluation; however, its practical relevance depends on the specific dataset. Finally, we extend the framework to establish an upper bound of the macro-averaged silhouette.


翻译:轮廓系数通过量化每个观测点的类内内聚性与类间分离性之间的平衡程度,其取值范围为[-1, 1]。平均轮廓宽度(ASW)是一种广泛使用的聚类质量内部评价指标,其值越高表明聚类结果的内聚性与分离性越优。然而,ASW在特定数据集上的最大值通常是未知的,且标准上限值1在实际中极少能达到。本文中,我们为每个数据点推导出其轮廓宽度的严格上界,并通过聚合这些上界得到ASW的规范上界。该上界——通常显著低于1——通过揭示给定聚类结果距离该数据集可能达到的最优结果有多接近,从而增强了经验ASW值的可解释性。我们在多种数据集上评估了该上界的实用性,结论表明其能够有效丰富聚类质量评估体系;然而,其实际相关性取决于具体的数据集特性。最后,我们将该框架扩展至建立宏观平均轮廓指标的上界。

0
下载
关闭预览

相关内容

谱聚类与图结构学习的全面综述
专知会员服务
19+阅读 · 2025年1月25日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
【ICML2020】图神经网络谱聚类
专知
10+阅读 · 2020年7月7日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
图分类:结合胶囊网络Capsule和图卷积GCN(附代码)
中国人工智能学会
36+阅读 · 2019年2月26日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月9日
Arxiv
0+阅读 · 1月21日
VIP会员
相关资讯
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
【ICML2020】图神经网络谱聚类
专知
10+阅读 · 2020年7月7日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
图分类:结合胶囊网络Capsule和图卷积GCN(附代码)
中国人工智能学会
36+阅读 · 2019年2月26日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员