Classification of high-dimensional data with spiked covariance matrix structure - 专知论文

会员服务 ·

0

协方差矩阵 · 方差 · 分类器 · 结构 · 高维 ·

Classification of high-dimensional data with spiked covariance matrix structure

翻译：具有尖峰协方差矩阵结构的高维数据分类

Yin-Jen Chen,Minh Tang

from arxiv, 40 pages, 2 figures

We study the classification problem for high-dimensional data with $n$ observations on $p$ features where the $p \times p$ covariance matrix $Σ$ exhibits a spiked eigenvalue structure and the vector $ζ$, given by the difference between the {\em whitened} mean vectors, is sparse. We analyze an adaptive classifier (adaptive with respect to the sparsity $s$) that first performs dimension reduction on the feature vectors prior to classification in the dimensionally reduced space, i.e., the classifier whitens the data, then screens the features by keeping only those corresponding to the $s$ largest coordinates of $ζ$ and finally applies Fisher linear discriminant on the selected features. Leveraging recent results on entrywise matrix perturbation bounds for covariance matrices, we show that the resulting classifier is Bayes optimal whenever $n \rightarrow \infty$ and $s \sqrt{n^{-1} \ln p} \rightarrow 0$. Notably, our theory also guarantees Bayes optimality for the corresponding quadratic discriminant analysis (QDA). Experimental results on real and synthetic data further indicate that the proposed approach is competitive with state-of-the-art methods while operating on a substantially lower-dimensional representation.

翻译：我们研究高维数据的分类问题，其中包含 $n$ 个观测样本和 $p$ 个特征，且 $p \times p$ 协方差矩阵 $Σ$ 呈现尖峰特征值结构，而由{\em 白化}均值向量之差给出的向量 $ζ$ 是稀疏的。我们分析了一种自适应分类器（针对稀疏度 $s$ 自适应），该分类器首先对特征向量进行降维，然后在降维后的空间中进行分类，即分类器先将数据白化，随后通过仅保留与 $ζ$ 的 $s$ 个最大坐标对应的特征进行筛选，最后对所选特征应用 Fisher 线性判别。借助协方差矩阵逐项矩阵扰动界的最新研究成果，我们证明当 $n \rightarrow \infty$ 且 $s \sqrt{n^{-1} \ln p} \rightarrow 0$ 时，所得分类器是贝叶斯最优的。值得注意的是，我们的理论同样保证了相应二次判别分析（QDA）的贝叶斯最优性。在真实与合成数据上的实验结果表明，所提方法在显著更低维的表示上运行，同时与现有先进方法相比具有竞争力。

0

相关内容

协方差矩阵

协方差矩阵

在概率论和统计学中，协方差矩阵（也称为自协方差矩阵，色散矩阵，方差矩阵或方差-协方差矩阵）是平方矩阵，给出了给定随机向量的每对元素之间的协方差。在矩阵对角线中存在方差，即每个元素与其自身的协方差。

【MIT博士论文】稀疏与低秩矩阵优化在机器学习应用中的进展

【MIT博士论文】稀疏与低秩矩阵优化在机器学习应用中的进展

专知会员服务

19+阅读 · 2024年11月15日

【MIT博士论文】机器学习应用中稀疏和低秩矩阵优化的进展

【MIT博士论文】机器学习应用中稀疏和低秩矩阵优化的进展

专知会员服务

28+阅读 · 2024年11月9日

【MIT博士论文】稀疏和低秩矩阵优化在机器学习应用中的进展

【MIT博士论文】稀疏和低秩矩阵优化在机器学习应用中的进展

专知会员服务

34+阅读 · 2024年10月17日

【WWW2021】大规模层次结构中的元数据感知文本分类

专知会员服务

17+阅读 · 2021年2月17日

【伯克利马毅老师等重磅新书】低维模型进行高维数据分析:原理、计算和应用，730页pdf

【伯克利马毅老师等重磅新书】低维模型进行高维数据分析:原理、计算和应用，730页pdf

专知会员服务

136+阅读 · 2020年12月8日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations for Semi-Supervised Learning from Sparse Data

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations for Semi-Supervised Learning from Sparse Data

专知会员服务

15+阅读 · 2020年3月7日

【AAAI2020-清华大学】张量图卷积网络文本分类，Tensor Graph Convolutional Networks for Text Classification

【AAAI2020-清华大学】张量图卷积网络文本分类，Tensor Graph Convolutional Networks for Text Classification

专知会员服务

76+阅读 · 2020年1月16日

【论文】深度卷积神经网络的ImageNet分类（ImageNet Classification with Deep Convolutional Neural Networks）

【论文】深度卷积神经网络的ImageNet分类（ImageNet Classification with Deep Convolutional Neural Networks）

专知会员服务

14+阅读 · 2020年1月1日

【论文推荐】数据科学中有关矩阵方法的文献综述：A LITERATURE SURVEY OF MATRIX METHODS FOR DATASCIENCE

【论文推荐】数据科学中有关矩阵方法的文献综述：A LITERATURE SURVEY OF MATRIX METHODS FOR DATASCIENCE

专知会员服务

25+阅读 · 2019年12月19日

【伯克利马毅老师等重磅新书】低维模型进行高维数据分析:原理、计算和应用，710页pdf

【伯克利马毅老师等重磅新书】低维模型进行高维数据分析:原理、计算和应用，710页pdf

专知

45+阅读 · 2020年12月9日

学者推荐 | 深度学习与高光谱图像分类【内含PPT 福利】

学者推荐 | 深度学习与高光谱图像分类【内含PPT 福利】

中国图象图形学报

10+阅读 · 2019年12月3日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

五年12篇顶会论文综述！一文读懂深度学习文本分类方法

五年12篇顶会论文综述！一文读懂深度学习文本分类方法

AI100

10+阅读 · 2019年6月5日

博客 | 度量学习总结(二) | 如何使用度量学习处理高维数据？

博客 | 度量学习总结(二) | 如何使用度量学习处理高维数据？

AI研习社

20+阅读 · 2019年3月26日

图分类：结合胶囊网络Capsule和图卷积GCN（附代码）

图分类：结合胶囊网络Capsule和图卷积GCN（附代码）

中国人工智能学会

36+阅读 · 2019年2月26日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

【干货】理解特征工程Part 2——类别数据（附代码）

【干货】理解特征工程Part 2——类别数据（附代码）

专知

16+阅读 · 2018年6月8日

【论文推荐】最新七篇图像分类相关论文—条件标签空间、生成对抗胶囊网络、深度预测编码网络、生成对抗网络、数字病理图像、在线表示学习

【论文推荐】最新七篇图像分类相关论文—条件标签空间、生成对抗胶囊网络、深度预测编码网络、生成对抗网络、数字病理图像、在线表示学习

专知

17+阅读 · 2018年3月3日

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

专知

14+阅读 · 2018年2月18日

基于对象模型与多点空间统计的高分辨率遥感影像分类策略

国家自然科学基金

4+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

17+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向光谱-空间特征集合的高光谱遥感影像度量学习与分类研究

国家自然科学基金

0+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

基于多视图协同训练的高光谱遥感影像分类

国家自然科学基金

3+阅读 · 2014年12月31日

协方差阵的推断及在方向数据分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于字典学习的小样本高光谱遥感图像稀疏表示分类精度研究与应用

国家自然科学基金

3+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

Graphical model for factorization and completion of relatively high rank tensors by sparse sampling

Arxiv

0+阅读 · 2月18日

Graphical model for factorization and completion of relatively high rank tensors by sparse sampling

Arxiv

0+阅读 · 2月17日

High-dimensional analysis of ridge regression for non-identically distributed data with a variance profile

Arxiv

0+阅读 · 2月12日

Covariance scanning for adaptively optimal change point detection in high-dimensional linear models

Arxiv

0+阅读 · 2月10日

Covariate Selection for Joint Latent Space Modeling of Sparse Network Data

Arxiv

0+阅读 · 2月4日

Classifiers in High Dimensional Hilbert Metrics

Arxiv

0+阅读 · 1月19日

Associating High-Dimensional Longitudinal Datasets through an Efficient Cross-Covariance Decomposition

Arxiv

0+阅读 · 1月19日

Clustering High-dimensional Data: Balancing Abstraction and Representation Tutorial at AAAI 2026

Arxiv

0+阅读 · 1月16日

Split-and-Conquer: Distributed Factor Modeling for High-Dimensional Matrix-Variate Time Series

Arxiv

0+阅读 · 1月16日

Spatial Covariance Constraints for Gaussian Mixture Models

Arxiv

0+阅读 · 1月12日

VIP会员

文章信息

相关主题

协方差矩阵

最新内容

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

专知会员服务

1+阅读 · 6月4日

AgentOps综述：智能体系统运维框架

AgentOps综述：智能体系统运维框架

专知会员服务

2+阅读 · 6月4日

《美陆军最新条令：兵力防护》

《美陆军最新条令：兵力防护》

专知会员服务

6+阅读 · 6月4日

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

专知会员服务

6+阅读 · 6月4日

《人工智能的挑战：算法战的想象与现实》

《人工智能的挑战：算法战的想象与现实》

专知会员服务

6+阅读 · 6月4日

《自适应智能：融合数字孪生精准性与人工智能预见力，实现实时决策》

《自适应智能：融合数字孪生精准性与人工智能预见力，实现实时决策》

专知会员服务

7+阅读 · 6月4日

首场人工智能战争：Maven如何重塑武装冲突

首场人工智能战争：Maven如何重塑武装冲突

专知会员服务

5+阅读 · 6月4日

【博士论文】抽象信息论与安全奖励学习的数学发展

【博士论文】抽象信息论与安全奖励学习的数学发展

专知会员服务

7+阅读 · 6月3日

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

专知会员服务

5+阅读 · 6月3日

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

专知会员服务

10+阅读 · 6月3日

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

专知会员服务

20+阅读 · 6月3日

《发展用于决策支持的化生放核（CBRN）态势理解》

《发展用于决策支持的化生放核（CBRN）态势理解》

专知会员服务

8+阅读 · 6月3日

《通往人工通用智能之路上的均衡策略》

《通往人工通用智能之路上的均衡策略》

专知会员服务

7+阅读 · 6月3日

《人工智能与军事整合：现状与未来风险》报告

《人工智能与军事整合：现状与未来风险》报告

专知会员服务

5+阅读 · 6月3日

《Palantir的科技生态系统》

《Palantir的科技生态系统》

专知会员服务

19+阅读 · 6月2日

相关VIP内容

【MIT博士论文】稀疏与低秩矩阵优化在机器学习应用中的进展

【MIT博士论文】稀疏与低秩矩阵优化在机器学习应用中的进展

专知会员服务

19+阅读 · 2024年11月15日

【MIT博士论文】机器学习应用中稀疏和低秩矩阵优化的进展

【MIT博士论文】机器学习应用中稀疏和低秩矩阵优化的进展

专知会员服务

28+阅读 · 2024年11月9日

【MIT博士论文】稀疏和低秩矩阵优化在机器学习应用中的进展

【MIT博士论文】稀疏和低秩矩阵优化在机器学习应用中的进展

专知会员服务

34+阅读 · 2024年10月17日

【WWW2021】大规模层次结构中的元数据感知文本分类

专知会员服务

17+阅读 · 2021年2月17日

【伯克利马毅老师等重磅新书】低维模型进行高维数据分析:原理、计算和应用，730页pdf

【伯克利马毅老师等重磅新书】低维模型进行高维数据分析:原理、计算和应用，730页pdf

专知会员服务

136+阅读 · 2020年12月8日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations for Semi-Supervised Learning from Sparse Data

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations for Semi-Supervised Learning from Sparse Data

专知会员服务

15+阅读 · 2020年3月7日

【AAAI2020-清华大学】张量图卷积网络文本分类，Tensor Graph Convolutional Networks for Text Classification

【AAAI2020-清华大学】张量图卷积网络文本分类，Tensor Graph Convolutional Networks for Text Classification

专知会员服务

76+阅读 · 2020年1月16日

【论文】深度卷积神经网络的ImageNet分类（ImageNet Classification with Deep Convolutional Neural Networks）

【论文】深度卷积神经网络的ImageNet分类（ImageNet Classification with Deep Convolutional Neural Networks）

专知会员服务

14+阅读 · 2020年1月1日

【论文推荐】数据科学中有关矩阵方法的文献综述：A LITERATURE SURVEY OF MATRIX METHODS FOR DATASCIENCE

【论文推荐】数据科学中有关矩阵方法的文献综述：A LITERATURE SURVEY OF MATRIX METHODS FOR DATASCIENCE

专知会员服务

25+阅读 · 2019年12月19日

热门VIP内容

开通专知VIP会员享更多权益服务

AgentOps综述：智能体系统运维框架

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

《美陆军最新条令：兵力防护》

相关资讯

【伯克利马毅老师等重磅新书】低维模型进行高维数据分析:原理、计算和应用，710页pdf

【伯克利马毅老师等重磅新书】低维模型进行高维数据分析:原理、计算和应用，710页pdf

专知

45+阅读 · 2020年12月9日

学者推荐 | 深度学习与高光谱图像分类【内含PPT 福利】

学者推荐 | 深度学习与高光谱图像分类【内含PPT 福利】

中国图象图形学报

10+阅读 · 2019年12月3日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

五年12篇顶会论文综述！一文读懂深度学习文本分类方法

五年12篇顶会论文综述！一文读懂深度学习文本分类方法

AI100

10+阅读 · 2019年6月5日

博客 | 度量学习总结(二) | 如何使用度量学习处理高维数据？

博客 | 度量学习总结(二) | 如何使用度量学习处理高维数据？

AI研习社

20+阅读 · 2019年3月26日

图分类：结合胶囊网络Capsule和图卷积GCN（附代码）

图分类：结合胶囊网络Capsule和图卷积GCN（附代码）

中国人工智能学会

36+阅读 · 2019年2月26日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

【干货】理解特征工程Part 2——类别数据（附代码）

【干货】理解特征工程Part 2——类别数据（附代码）

专知

16+阅读 · 2018年6月8日

【论文推荐】最新七篇图像分类相关论文—条件标签空间、生成对抗胶囊网络、深度预测编码网络、生成对抗网络、数字病理图像、在线表示学习

【论文推荐】最新七篇图像分类相关论文—条件标签空间、生成对抗胶囊网络、深度预测编码网络、生成对抗网络、数字病理图像、在线表示学习

专知

17+阅读 · 2018年3月3日

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

专知

14+阅读 · 2018年2月18日

相关论文

Graphical model for factorization and completion of relatively high rank tensors by sparse sampling

Arxiv

0+阅读 · 2月18日

Graphical model for factorization and completion of relatively high rank tensors by sparse sampling

Arxiv

0+阅读 · 2月17日

High-dimensional analysis of ridge regression for non-identically distributed data with a variance profile

Arxiv

0+阅读 · 2月12日

Covariance scanning for adaptively optimal change point detection in high-dimensional linear models

Arxiv

0+阅读 · 2月10日

Covariate Selection for Joint Latent Space Modeling of Sparse Network Data

Arxiv

0+阅读 · 2月4日

Classifiers in High Dimensional Hilbert Metrics

Arxiv

0+阅读 · 1月19日

Associating High-Dimensional Longitudinal Datasets through an Efficient Cross-Covariance Decomposition

Arxiv

0+阅读 · 1月19日

Clustering High-dimensional Data: Balancing Abstraction and Representation Tutorial at AAAI 2026

Arxiv

0+阅读 · 1月16日

Split-and-Conquer: Distributed Factor Modeling for High-Dimensional Matrix-Variate Time Series

Arxiv

0+阅读 · 1月16日

Spatial Covariance Constraints for Gaussian Mixture Models

Arxiv

0+阅读 · 1月12日

相关基金

基于对象模型与多点空间统计的高分辨率遥感影像分类策略

国家自然科学基金

4+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

17+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向光谱-空间特征集合的高光谱遥感影像度量学习与分类研究

国家自然科学基金

0+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

基于多视图协同训练的高光谱遥感影像分类

国家自然科学基金

3+阅读 · 2014年12月31日

协方差阵的推断及在方向数据分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于字典学习的小样本高光谱遥感图像稀疏表示分类精度研究与应用

国家自然科学基金

3+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员