Many statistical applications, such as the Principal Component Analysis, matrix completion, tensor regression and many others, rely on accurate estimation of leading eigenvectors of a matrix. The Davis-Kahan theorem is known to be instrumental for bounding above the distances between matrices $U$ and $\widehat{U}$ of population eigenvectors and their sample versions. While those distances can be measured in various metrics, the recent developments have shown advantages of evaluation of the deviation in the two-to-infinity norm. The purpose of this paper is to develop a toolbox for derivation of upper bounds for the distances between $U$ and $\widehat{U}$ in the two-to-infinity norm for a variety of possible scenarios. Although this problem has been studied by several authors, the difference between this paper and its predecessors is that the upper bounds are obtained under various sets of assumptions. The upper bounds are initially derived with no or mild probabilistic assumptions on the error, and are subsequently refined, when some generic probabilistic assumptions on the errors hold. The paper also provides rectification of the upper bounds in the cases of heavy-tailed or exponentially fast decaying errors. In addition, the paper suggests alternative methods for evaluation of $\widehat{U}$ and, therefore, enables one to compare the resulting accuracies. As an example of an application of the techniques in the paper, we derive sufficient conditions for perfect clustering in a generic setting, and then employ them in various scenarios.


翻译:许多统计应用,例如主成分分析、矩阵补全、张量回归等,都依赖于矩阵主特征向量的精确估计。Davis-Kahan定理在控制总体特征向量矩阵$U$与其样本版本$\widehat{U}$之间的距离上界方面具有重要作用。尽管这些距离可以通过多种度量方式衡量,但近期研究表明,采用无穷范数评估偏差具有显著优势。本文旨在构建一套工具箱,用于推导各类场景下$U$与$\widehat{U}$在无穷范数下的距离上界。尽管已有学者研究过该问题,但本文与既往工作的区别在于:我们针对不同假设条件集给出了上界表达式。本文首先在无误差概率假设或弱概率假设下推导出初始上界,随后在误差满足通用概率假设时对其进行优化。此外,本文还修正了重尾分布或指数快速衰减误差情形下的上界表达式。文章进一步提出了评估$\widehat{U}$的替代方法,从而能够比较不同方法的精度。作为本文技术的应用实例,我们推导了通用设定下实现完美聚类的充分条件,并将其应用于多种场景。

0
下载
关闭预览

相关内容

本话题关于日常用语「概率」,用于讨论生活中的运气、机会,及赌博、彩票、游戏中的「技巧」。关于抽象数学概念「概率」的讨论,请转 概率(数学)话题。
【干货书】无穷维统计模型的数学基础,705页pdf
专知会员服务
73+阅读 · 2023年10月23日
【硬核书】矩阵代数:统计学的理论、计算和应用,664页pdf
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
数据分析师应该知道的16种回归方法:泊松回归
数萃大数据
35+阅读 · 2018年9月13日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
【干货书】无穷维统计模型的数学基础,705页pdf
专知会员服务
73+阅读 · 2023年10月23日
【硬核书】矩阵代数:统计学的理论、计算和应用,664页pdf
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员