Principal Component Analysis (PCA) is a powerful and popular dimensionality reduction technique. However, due to its linear nature, it often fails to capture the complex underlying structure of real-world data. While Kernel PCA (kPCA) addresses non-linearity, it sacrifices interpretability and struggles with hyperparameter selection. In this paper, we propose a robust non-linear PCA framework that unifies the interpretability of PCA with the flexibility of neural networks. Our method parametrizes variable transformations via neural networks, optimized using Evolution Strategies (ES) to handle the non-differentiability of eigendecomposition. We introduce a novel, granular objective function that maximizes the individual variance contribution of each variable providing a stronger learning signal than global variance maximization. This approach natively handles categorical and ordinal variables without the dimensional explosion associated with one-hot encoding. We demonstrate that our method significantly outperforms both linear PCA and kPCA in explained variance across synthetic and real-world datasets. At the same time, it preserves PCA's interpretability, enabling visualization and analysis of feature contributions using standard tools such as biplots. The code can be found on GitHub.


翻译:主成分分析(PCA)是一种强大且广泛应用的降维技术。然而,由于其线性本质,它常常无法捕捉现实世界数据中复杂的底层结构。虽然核主成分分析(kPCA)解决了非线性问题,但它牺牲了可解释性,并且在超参数选择方面存在困难。本文提出了一种鲁棒的非线性PCA框架,该框架统一了PCA的可解释性与神经网络的灵活性。我们的方法通过神经网络对变量变换进行参数化,并使用进化策略(ES)进行优化,以处理特征分解的不可微性。我们引入了一种新颖的、细粒度的目标函数,该函数最大化每个变量的个体方差贡献,从而提供比全局方差最大化更强的学习信号。此方法能够原生处理分类变量和有序变量,而无需进行与独热编码相关的维度爆炸。我们证明,在合成数据集和真实数据集上,我们的方法在解释方差方面显著优于线性PCA和kPCA。同时,它保留了PCA的可解释性,使得能够使用双标图等标准工具对特征贡献进行可视化和分析。代码可在GitHub上找到。

0
下载
关闭预览

相关内容

在统计中,主成分分析(PCA)是一种通过最大化每个维度的方差来将较高维度空间中的数据投影到较低维度空间中的方法。给定二维,三维或更高维空间中的点集合,可以将“最佳拟合”线定义为最小化从点到线的平均平方距离的线。可以从垂直于第一条直线的方向类似地选择下一条最佳拟合线。重复此过程会产生一个正交的基础,其中数据的不同单个维度是不相关的。 这些基向量称为主成分。
【NeurIPS2023】因果成分分析
专知会员服务
41+阅读 · 2023年11月13日
【干货书】基于R的非线性时间序列分析,510页pdf
专知会员服务
47+阅读 · 2023年6月12日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
【干货】一文读懂什么是变分自编码器
专知
12+阅读 · 2018年2月11日
机器学习(30)之线性判别分析(LDA)原理详解
机器学习算法与Python学习
11+阅读 · 2017年12月6日
迁移成分分析 (TCA) 方法简介
AI研习社
12+阅读 · 2017年9月15日
PCA的基本数学原理
算法与数学之美
11+阅读 · 2017年8月8日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月28日
Arxiv
0+阅读 · 1月21日
VIP会员
相关VIP内容
【NeurIPS2023】因果成分分析
专知会员服务
41+阅读 · 2023年11月13日
【干货书】基于R的非线性时间序列分析,510页pdf
专知会员服务
47+阅读 · 2023年6月12日
相关资讯
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
【干货】一文读懂什么是变分自编码器
专知
12+阅读 · 2018年2月11日
机器学习(30)之线性判别分析(LDA)原理详解
机器学习算法与Python学习
11+阅读 · 2017年12月6日
迁移成分分析 (TCA) 方法简介
AI研习社
12+阅读 · 2017年9月15日
PCA的基本数学原理
算法与数学之美
11+阅读 · 2017年8月8日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员