Principal component analysis (PCA) is a key tool in the field of data dimensionality reduction. Various methods have been proposed to extend PCA to the union of subspace (UoS) setting for clustering data that comes from multiple subspaces like K-Subspaces (KSS). However, some applications involve heterogeneous data that vary in quality due to noise characteristics associated with each data sample. Heteroscedastic methods aim to deal with such mixed data quality. This paper develops a heteroscedastic-based subspace clustering method, named ALPCAHUS, that can estimate the sample-wise noise variances and use this information to improve the estimate of the subspace bases associated with the low-rank structure of the data. This clustering algorithm builds on K-Subspaces (KSS) principles by extending the recently proposed heteroscedastic PCA method, named LR-ALPCAH, for clusters with heteroscedastic noise in the UoS setting. Simulations and real-data experiments show the effectiveness of accounting for data heteroscedasticity compared to existing clustering algorithms. Code available at https://github.com/javiersc1/ALPCAHUS.


翻译:主成分分析(PCA)是数据降维领域的关键工具。已有多种方法将PCA扩展至子空间并集(UoS)框架,用于对来自多个子空间的数据进行聚类,例如K-子空间(KSS)方法。然而,某些应用涉及异构数据,这些数据因各样本的噪声特性而存在质量差异。异方差方法旨在处理此类混合质量数据。本文提出了一种基于异方差的子空间聚类方法ALPCAHUS,该方法能够估计样本级噪声方差,并利用该信息改进对数据低秩结构相关子空间基的估计。该聚类算法基于K-子空间(KSS)原理,通过扩展近期提出的异方差PCA方法LR-ALPCAH,使其适用于UoS框架下含异方差噪声的聚类场景。仿真和真实数据实验表明,相较于现有聚类算法,考虑数据异方差性能有效提升聚类性能。代码发布于https://github.com/javiersc1/ALPCAHUS。

0
下载
关闭预览

相关内容

【NeurIPS2023】利用扩散模型进行异常值想象
专知会员服务
24+阅读 · 2023年10月1日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
一文梳理数据科学家必备核心算法与常用模型
THU数据派
16+阅读 · 2018年5月10日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
PCA的基本数学原理
算法与数学之美
11+阅读 · 2017年8月8日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Arxiv
0+阅读 · 1月21日
VIP会员
相关VIP内容
【NeurIPS2023】利用扩散模型进行异常值想象
专知会员服务
24+阅读 · 2023年10月1日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
相关资讯
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
一文梳理数据科学家必备核心算法与常用模型
THU数据派
16+阅读 · 2018年5月10日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
PCA的基本数学原理
算法与数学之美
11+阅读 · 2017年8月8日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员