A common approach to perform PCA on probability measures is to embed them into a Hilbert space where standard functional PCA techniques apply. While convergence rates for estimating the embedding of a single measure from $m$ samples are well understood, the literature has not addressed the setting involving multiple measures. In this paper, we study PCA in a double asymptotic regime where $n$ probability measures are observed, each through $m$ samples. We derive convergence rates of the form $n^{-1/2} + m^{-α}$ for the empirical covariance operator and the PCA excess risk, where $α>0$ depends on the chosen embedding. This characterizes the relationship between the number $n$ of measures and the number $m$ of samples per measure, revealing a sparse (small $m$) to dense (large $m$) transition in the convergence behavior. Moreover, we prove that the dense-regime rate is minimax optimal for the empirical covariance error. Our numerical experiments validate these theoretical rates and demonstrate that appropriate subsampling preserves PCA accuracy while reducing computational cost.


翻译:对概率测度进行主成分分析的一种常见方法是将它们嵌入到希尔伯特空间中,从而应用标准函数型主成分分析技术。虽然从 $m$ 个样本估计单个测度嵌入的收敛速率已有充分研究,但现有文献尚未涉及涉及多个测度的场景。本文研究了一种双渐近机制下的主成分分析,其中观测到 $n$ 个概率测度,每个测度通过 $m$ 个样本获得。我们推导了经验协方差算子与主成分分析超额风险的收敛速率,其形式为 $n^{-1/2} + m^{-α}$,其中 $α>0$ 取决于所选嵌入方式。这一结果刻画了测度数量 $n$ 与每个测度样本数 $m$ 之间的关系,揭示了收敛行为中从稀疏($m$ 较小)到密集($m$ 较大)的转变。此外,我们证明了密集机制下的速率对于经验协方差误差是极小极大最优的。数值实验验证了这些理论速率,并表明适当的子采样能在降低计算成本的同时保持主成分分析的准确性。

0
下载
关闭预览

相关内容

在统计中,主成分分析(PCA)是一种通过最大化每个维度的方差来将较高维度空间中的数据投影到较低维度空间中的方法。给定二维,三维或更高维空间中的点集合,可以将“最佳拟合”线定义为最小化从点到线的平均平方距离的线。可以从垂直于第一条直线的方向类似地选择下一条最佳拟合线。重复此过程会产生一个正交的基础,其中数据的不同单个维度是不相关的。 这些基向量称为主成分。
【博士论文】用于概率程序与生成模型的变分推断
专知会员服务
17+阅读 · 2025年10月27日
【PAISS 2021 教程】概率散度与生成式模型,92页ppt
专知会员服务
34+阅读 · 2021年11月30日
专知会员服务
29+阅读 · 2021年8月2日
【干货书】概率,统计与数据,513页pdf
专知
36+阅读 · 2021年11月27日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
概率图模型体系:HMM、MEMM、CRF
机器学习研究会
30+阅读 · 2018年2月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
0+阅读 · 1月29日
Arxiv
0+阅读 · 1月28日
Arxiv
0+阅读 · 1月21日
VIP会员
相关VIP内容
【博士论文】用于概率程序与生成模型的变分推断
专知会员服务
17+阅读 · 2025年10月27日
【PAISS 2021 教程】概率散度与生成式模型,92页ppt
专知会员服务
34+阅读 · 2021年11月30日
专知会员服务
29+阅读 · 2021年8月2日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员