PCA is widely used in health and care research to analyze complex HD datasets, such as patient health records, genetic data, and medical imaging. By reducing dimensionality, PCA helps identify key patterns and trends, which can aid in disease diagnosis, treatment optimization, and the discovery of new biomarkers. However, the primary goal of any dimensional reduction technique is to reduce the dimensionality in a data set while keeping the essential information and variability. There are a few ways to do this in practice, such as the Kaiser-Guttman criterion, Cattell's Scree Test, and the percent cumulative variance approach. Unfortunately, the results of these methods are entirely different. That means using inappropriate methods to find the optimal number of PCs retained in PCA may lead to misinterpreted and inaccurate results in PCA and PCA-related health and care research applications. This contradiction becomes even more pronounced in HD settings where n < p, making it even more critical to determine the best approach. Therefore, it is necessary to identify the issues of different techniques to select the optimal number of PCs retained in PCA. Kaiser-Guttman criterion retains fewer PCs, causing overdispersion, while Cattell's scree test retains more PCs, compromising reliability. The percentage of cumulative variation criterion offers greater stability, consistently selecting the optimal number of components. Therefore, the Pareto chart, which shows both the cumulative percentage and the cut-off point for retained PCs, provides the most reliable method of selecting components, ensuring stability and enhancing PCA effectiveness, particularly in health-related research applications.


翻译:主成分分析(PCA)在健康与护理研究中被广泛用于分析复杂的高维数据集,如患者健康记录、遗传数据和医学影像。通过降维,PCA有助于识别关键模式和趋势,从而辅助疾病诊断、治疗优化以及新生物标志物的发现。然而,任何降维技术的主要目标都是在保留基本信息和变异性的同时降低数据集的维度。实践中存在多种实现方式,例如Kaiser-Guttman准则、Cattell碎石检验和累积方差百分比法。遗憾的是,这些方法得出的结果往往截然不同。这意味着使用不恰当的方法来确定PCA中保留的最优主成分数量,可能导致PCA及其相关健康与护理研究应用中的结果被误解或产生偏差。这种矛盾在高维且样本量小于变量数的场景中尤为突出,使得确定最佳方法变得更为关键。因此,有必要厘清不同技术在选择PCA最优保留主成分数量时存在的问题。Kaiser-Guttman准则倾向于保留较少主成分,可能导致过度离散;而Cattell碎石检验则倾向于保留较多主成分,可能损害结果的可靠性。累积方差百分比准则展现出更高的稳定性,能够持续选择最优的成分数量。因此,同时展示累积百分比和保留主成分截断点的帕累托图,提供了最可靠的成分选择方法,确保了稳定性并提升了PCA的有效性,尤其在健康相关研究应用中具有重要价值。

0
下载
关闭预览

相关内容

在统计中,主成分分析(PCA)是一种通过最大化每个维度的方差来将较高维度空间中的数据投影到较低维度空间中的方法。给定二维,三维或更高维空间中的点集合,可以将“最佳拟合”线定义为最小化从点到线的平均平方距离的线。可以从垂直于第一条直线的方向类似地选择下一条最佳拟合线。重复此过程会产生一个正交的基础,其中数据的不同单个维度是不相关的。 这些基向量称为主成分。
Linux导论,Introduction to Linux,96页ppt
专知会员服务
82+阅读 · 2020年7月26日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
32+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
164+阅读 · 2019年10月12日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
From Softmax to Sparsemax-ICML16(1)
KingsGarden
74+阅读 · 2016年11月26日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
From Softmax to Sparsemax-ICML16(1)
KingsGarden
74+阅读 · 2016年11月26日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员