Over the past decades, the increasing dimensionality of data has increased the need for effective data decomposition methods. Existing approaches, however, often rely on linear models or lack sufficient interpretability or flexibility. To address this issue, we introduce a novel nonlinear decomposition technique called the principal nested submanifolds, which builds on the foundational concepts of principal component analysis. This method exploits the local geometric information of data sets by projecting samples onto a series of nested principal submanifolds with progressively decreasing dimensions. It effectively isolates complex information within the data in a backward stepwise manner by targeting variations associated with smaller eigenvalues in local covariance matrices. Unlike previous methods, the resulting subspaces are smooth manifolds, not merely linear spaces or special shape spaces. Validated through extensive simulation studies and applied to real-world RNA sequencing data, our approach surpasses existing models in delineating intricate nonlinear structures. It provides more flexible subspace constraints that improve the extraction of significant data components and facilitate noise reduction. This innovative approach not only advances the non-Euclidean statistical analysis of data with low-dimensional intrinsic structure within Euclidean spaces, but also offers new perspectives for dealing with high-dimensional noisy data sets in fields such as bioinformatics and machine learning.


翻译:过去几十年中,数据维度的不断增长凸显了对有效数据分解方法的需求。然而,现有方法往往依赖线性模型,或缺乏足够的可解释性与灵活性。为解决这一问题,我们提出了一种名为"主嵌套子流形"的新型非线性分解技术,该技术建立在主成分分析的基础概念之上。该方法通过将样本投影到一系列维度逐步递减的嵌套主子流形上,利用数据集的局部几何信息。它针对局部协方差矩阵中较小特征值对应的变化,以逆向逐步方式有效分离数据中的复杂信息。与以往方法不同,所得子空间是光滑流形,而不仅仅是线性空间或特殊形状空间。通过大量模拟研究和实际RNA测序数据的验证,我们的方法在刻画复杂非线性结构方面超越了现有模型。它提供了更灵活的约束子空间,从而改进了重要数据成分的提取并促进了降噪。这一创新方法不仅推动了欧几里得空间中具有低维内在结构的非欧几里得统计分析,还为生物信息学与机器学习等领域处理高维含噪数据集提供了新视角。

0
下载
关闭预览

相关内容

CoLiDR: 使用聚合解缠表示进行概念学习
专知会员服务
15+阅读 · 2024年8月21日
【KDD2024】CoLiDR:使用聚合的解缠表示进行概念学习
专知会员服务
18+阅读 · 2024年7月30日
几何深度学习分子表示综述
专知会员服务
41+阅读 · 2021年9月7日
最新《图嵌入组合优化》综述论文,40页pdf
从模型到应用,一文读懂因子分解机
AI100
10+阅读 · 2019年9月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月24日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
2+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
4+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
3+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
CoLiDR: 使用聚合解缠表示进行概念学习
专知会员服务
15+阅读 · 2024年8月21日
【KDD2024】CoLiDR:使用聚合的解缠表示进行概念学习
专知会员服务
18+阅读 · 2024年7月30日
几何深度学习分子表示综述
专知会员服务
41+阅读 · 2021年9月7日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员