Improving clustering quality evaluation in noisy Gaussian mixtures - 专知论文

会员服务 ·

0

噪声 · 数据集 · 高斯混合 · 高斯混合模型 · 混合 ·

Improving clustering quality evaluation in noisy Gaussian mixtures

翻译：提升噪声高斯混合模型中聚类质量评估的可靠性

Renato Cordeiro de Amorim,Vladimir Makarenkov

Clustering is a well-established technique in machine learning and data analysis, widely used across various domains. Cluster validity indices, such as the Average Silhouette Width, Calinski-Harabasz, and Davies-Bouldin indices, play a crucial role in assessing clustering quality when external ground truth labels are unavailable. However, these measures can be affected by different degrees of feature relevance, potentially leading to unreliable evaluations in high-dimensional or noisy data sets. We introduce a theoretically grounded Feature Importance Rescaling (FIR) method that enhances the quality of clustering validation by adjusting feature contributions based on their dispersion. It attenuates noise features, clarifies clustering compactness and separation, and thereby aligns clustering validation more closely with the ground truth. Through extensive experiments on synthetic data sets under different configurations and a case study on real-world data, we demonstrate that FIR consistently improves the correlation between the values of cluster validity indices and the ground truth, particularly in settings with noisy or irrelevant features. The results show that FIR increases the robustness of clustering evaluation, reduces variability in performance across different data sets, and remains effective even when clusters exhibit significant overlap. These findings highlight the potential of FIR as a valuable enhancement of clustering validation, making it a practical tool for unsupervised learning tasks where labelled data is unavailable.

翻译：聚类是机器学习与数据分析中一项成熟的技术，已广泛应用于各个领域。当外部真实标签不可用时，聚类有效性指标（如平均轮廓宽度、Calinski-Harabasz指数和Davies-Bouldin指数）在评估聚类质量方面发挥着关键作用。然而，这些度量指标可能受到不同特征相关度的影响，在高维或含噪声数据集中可能导致不可靠的评估。本文提出一种基于理论的特征重要性重标定方法，该方法通过依据特征离散度调整其特征贡献来提升聚类验证的质量。FIR方法能够抑制噪声特征、明晰聚类的紧致性与分离性，从而使聚类验证结果更贴近真实情况。通过对不同配置下的合成数据集进行大量实验，并结合真实世界数据的案例研究，我们证明FIR能够持续提升聚类有效性指标值与真实情况之间的相关性，尤其在存在噪声或无关特征的场景中效果显著。结果表明，FIR增强了聚类评估的鲁棒性，降低了不同数据集间的性能波动，即使在聚类存在显著重叠时仍保持有效。这些发现凸显了FIR作为聚类验证重要增强手段的潜力，使其成为无标签数据可用情况下无监督学习任务的实用工具。

0

相关内容

【WWW2025】释放大型语言模型在去噪推荐中的强大能力

【WWW2025】释放大型语言模型在去噪推荐中的强大能力

专知会员服务

13+阅读 · 2025年2月18日

谱聚类与图结构学习的全面综述

谱聚类与图结构学习的全面综述

专知会员服务

19+阅读 · 2025年1月25日

可解释聚类综述

可解释聚类综述

专知会员服务

38+阅读 · 2024年9月8日

【博士论文】无监督深度图聚类中的自适应表示学习，144页pdf

【博士论文】无监督深度图聚类中的自适应表示学习，144页pdf

专知会员服务

43+阅读 · 2023年10月21日

电子科大最新《深度聚类》全面综述，20页pdf涵盖260篇文献全面阐述深度聚类方法

电子科大最新《深度聚类》全面综述，20页pdf涵盖260篇文献全面阐述深度聚类方法

专知会员服务

109+阅读 · 2022年10月16日

浙江大学等最新《深度聚类》综述，，35页pdf涵盖246篇文献概述深度聚类体系挑战与未来方向

浙江大学等最新《深度聚类》综述，，35页pdf涵盖246篇文献概述深度聚类体系挑战与未来方向

专知会员服务

132+阅读 · 2022年6月20日

美国空军技术学院博士论文《用于气象聚类和预测的深度学习》

美国空军技术学院博士论文《用于气象聚类和预测的深度学习》

专知会员服务

54+阅读 · 2022年4月17日

【KDD2021】可扩展凝聚层次聚类

专知会员服务

15+阅读 · 2021年7月4日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知会员服务

78+阅读 · 2021年1月30日

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

专知会员服务

42+阅读 · 2019年11月21日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

浅析Faiss在推荐系统中的应用及原理

浅析Faiss在推荐系统中的应用及原理

凡人机器学习

11+阅读 · 2020年5月5日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

83页《目标分类和目标检测综述（2D和3D数据）》论文，来自纽约城市大学

83页《目标分类和目标检测综述（2D和3D数据）》论文，来自纽约城市大学

GAN生成式对抗网络

26+阅读 · 2019年6月1日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

干货：基于用户画像的聚类分析

干货：基于用户画像的聚类分析

数据分析

22+阅读 · 2018年5月17日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

机器学习之确定最佳聚类数目的10种方法

机器学习之确定最佳聚类数目的10种方法

炼数成金订阅号

13+阅读 · 2017年10月12日

顾及异方差与空间约束的高光谱混合像元模糊聚类分解方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

基于聚类分析的高性能包分类技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

谱聚类在多个网络模块识别中的推广及在生物网络中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

时间序列数据挖掘中的聚类模型与算法研究

国家自然科学基金

14+阅读 · 2008年12月31日

Hierarchical Clustering With Confidence

Arxiv

0+阅读 · 3月14日

Federated Hierarchical Clustering with Automatic Selection of Optimal Cluster Numbers

Arxiv

0+阅读 · 3月13日

Fair Model-based Clustering

Arxiv

0+阅读 · 2月25日

Improved Algorithms for Clustering with Noisy Distance Oracles

Arxiv

0+阅读 · 2月20日

Improved Approximation Algorithms for Relational Clustering

Arxiv

0+阅读 · 2月17日

A Pragmatic Method for Comparing Clusterings with Overlaps and Outliers

Arxiv

0+阅读 · 2月16日

Delving into Spectral Clustering with Vision-Language Representations

Arxiv

0+阅读 · 2月10日

Noise Stability of Transformer Models

Arxiv

0+阅读 · 2月9日

Clustering under Constraints: Efficient Parameterized Approximation Schemes

Arxiv

0+阅读 · 2月7日

Weighted Sum-of-Trees Model for Clustered Data

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

高斯混合模型

最新内容

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

专知会员服务

1+阅读 · 47分钟前

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

0+阅读 · 49分钟前

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

0+阅读 · 56分钟前

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

11+阅读 · 今天6:39

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

4+阅读 · 今天6:36

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

8+阅读 · 今天6:28

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

6+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

4+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

6+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

11+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

12+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

8+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

21+阅读 · 4月29日

相关VIP内容

【WWW2025】释放大型语言模型在去噪推荐中的强大能力

【WWW2025】释放大型语言模型在去噪推荐中的强大能力

专知会员服务

13+阅读 · 2025年2月18日

谱聚类与图结构学习的全面综述

谱聚类与图结构学习的全面综述

专知会员服务

19+阅读 · 2025年1月25日

可解释聚类综述

可解释聚类综述

专知会员服务

38+阅读 · 2024年9月8日

【博士论文】无监督深度图聚类中的自适应表示学习，144页pdf

【博士论文】无监督深度图聚类中的自适应表示学习，144页pdf

专知会员服务

43+阅读 · 2023年10月21日

电子科大最新《深度聚类》全面综述，20页pdf涵盖260篇文献全面阐述深度聚类方法

电子科大最新《深度聚类》全面综述，20页pdf涵盖260篇文献全面阐述深度聚类方法

专知会员服务

109+阅读 · 2022年10月16日

浙江大学等最新《深度聚类》综述，，35页pdf涵盖246篇文献概述深度聚类体系挑战与未来方向

浙江大学等最新《深度聚类》综述，，35页pdf涵盖246篇文献概述深度聚类体系挑战与未来方向

专知会员服务

132+阅读 · 2022年6月20日

美国空军技术学院博士论文《用于气象聚类和预测的深度学习》

美国空军技术学院博士论文《用于气象聚类和预测的深度学习》

专知会员服务

54+阅读 · 2022年4月17日

【KDD2021】可扩展凝聚层次聚类

专知会员服务

15+阅读 · 2021年7月4日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知会员服务

78+阅读 · 2021年1月30日

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

专知会员服务

42+阅读 · 2019年11月21日

热门VIP内容

开通专知VIP会员享更多权益服务

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

面向具身智能与机器人仿真的三维生成：综述

相关资讯

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

浅析Faiss在推荐系统中的应用及原理

浅析Faiss在推荐系统中的应用及原理

凡人机器学习

11+阅读 · 2020年5月5日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

83页《目标分类和目标检测综述（2D和3D数据）》论文，来自纽约城市大学

83页《目标分类和目标检测综述（2D和3D数据）》论文，来自纽约城市大学

GAN生成式对抗网络

26+阅读 · 2019年6月1日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

干货：基于用户画像的聚类分析

干货：基于用户画像的聚类分析

数据分析

22+阅读 · 2018年5月17日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

机器学习之确定最佳聚类数目的10种方法

机器学习之确定最佳聚类数目的10种方法

炼数成金订阅号

13+阅读 · 2017年10月12日

相关论文

Hierarchical Clustering With Confidence

Arxiv

0+阅读 · 3月14日

Federated Hierarchical Clustering with Automatic Selection of Optimal Cluster Numbers

Arxiv

0+阅读 · 3月13日

Fair Model-based Clustering

Arxiv

0+阅读 · 2月25日

Improved Algorithms for Clustering with Noisy Distance Oracles

Arxiv

0+阅读 · 2月20日

Improved Approximation Algorithms for Relational Clustering

Arxiv

0+阅读 · 2月17日

A Pragmatic Method for Comparing Clusterings with Overlaps and Outliers

Arxiv

0+阅读 · 2月16日

Delving into Spectral Clustering with Vision-Language Representations

Arxiv

0+阅读 · 2月10日

Noise Stability of Transformer Models

Arxiv

0+阅读 · 2月9日

Clustering under Constraints: Efficient Parameterized Approximation Schemes

Arxiv

0+阅读 · 2月7日

Weighted Sum-of-Trees Model for Clustered Data

Arxiv

0+阅读 · 2月3日

相关基金

顾及异方差与空间约束的高光谱混合像元模糊聚类分解方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

基于聚类分析的高性能包分类技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

谱聚类在多个网络模块识别中的推广及在生物网络中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

时间序列数据挖掘中的聚类模型与算法研究

国家自然科学基金

14+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员