Clustering algorithms are fundamental in data analysis, enabling the organization of data into meaningful groups. However, individual clustering methods often face limitations and biases, making it challenging to develop a universal solution for diverse datasets. To address this, we propose a novel clustering framework that combines the Minimum Description Length (MDL) principle with a genetic optimization algorithm. This approach begins with an ensemble clustering solution as a baseline, which is refined using MDL-based evaluation functions and optimized with a genetic algorithm. By leveraging the MDL principle, the method adapts to the intrinsic properties of datasets, minimizing dependence on input clusters and ensuring a data-driven process. The proposed method was evaluated on thirteen benchmark datasets using four validation metrics: accuracy, normalized mutual information (NMI), Fisher score, and adjusted Rand index (ARI). Results show that the method consistently outperforms traditional clustering algorithms, achieving higher accuracy, greater stability, and reduced biases. Its adaptability makes it a reliable tool for clustering complex and varied datasets. This study demonstrates the potential of combining MDL and genetic optimization to create a robust and versatile clustering framework, advancing the field of data analysis and offering a scalable solution for diverse applications.


翻译:聚类算法是数据分析的基础,能够将数据组织成有意义的群组。然而,单个聚类方法常常面临局限性和偏差,难以针对多样化数据集开发出通用解决方案。为此,我们提出了一种新颖的聚类框架,该框架将最小描述长度(MDL)原理与遗传优化算法相结合。该方法以集成聚类解作为基线,通过基于MDL的评估函数进行优化,并利用遗传算法进行改进。通过运用MDL原理,该方法能够适应数据集的内在特性,减少对输入聚类的依赖,并确保数据驱动的过程。我们使用四种验证指标(准确率、归一化互信息(NMI)、Fisher分数和调整兰德指数(ARI))在十三个基准数据集上对所提方法进行了评估。结果表明,该方法始终优于传统聚类算法,实现了更高的准确性、更强的稳定性和更低的偏差。其适应性使其成为处理复杂多变数据集的可靠工具。本研究展示了结合MDL与遗传优化构建鲁棒且通用聚类框架的潜力,推动了数据分析领域的发展,并为多样化应用提供了可扩展的解决方案。

0
下载
关闭预览

相关内容

FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
32+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
164+阅读 · 2019年10月12日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
From Softmax to Sparsemax-ICML16(1)
KingsGarden
74+阅读 · 2016年11月26日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Knowledge Embedding Based Graph Convolutional Network
Arxiv
24+阅读 · 2021年4月23日
Arxiv
38+阅读 · 2020年12月2日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
From Softmax to Sparsemax-ICML16(1)
KingsGarden
74+阅读 · 2016年11月26日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员