The sample covariance matrix is a cornerstone of multivariate statistics, but it is highly sensitive to outliers. These can be casewise outliers, such as cases belonging to a different population, or cellwise outliers, which are deviating cells (entries) of the data matrix. Recently some robust covariance estimators have been developed that can handle both types of outliers, but their computation is only feasible up to at most 20 dimensions. To remedy this we propose the cellRCov method, a robust covariance estimator that simultaneously handles casewise outliers, cellwise outliers, and missing data. It relies on a decomposition of the covariance on principal and orthogonal subspaces, leveraging recent work on robust PCA. It also employs a ridge-type regularization to stabilize the estimated covariance matrix. We establish some theoretical properties of cellRCov, including its casewise and cellwise influence functions as well as consistency and asymptotic normality. A simulation study demonstrates the superior performance of cellRCov in contaminated and missing data scenarios. Furthermore, its practical utility is illustrated in a real-world application to anomaly detection. We also construct and illustrate the cellRCCA method for robust and regularized canonical correlation analysis.


翻译:样本协方差矩阵是多变量统计学的基石,但极易受异常值影响。异常值可分为两类:个案异常值(如属于不同总体的样本)和单元格异常值(数据矩阵中的异常单元格)。近年来虽已开发出能处理两类异常值的稳健协方差估计量,但其计算复杂度仅支持最多20维数据。为解决此问题,我们提出cellRCov方法——一种能同时处理个案异常值、单元格异常值和缺失数据的稳健协方差估计量。该方法基于主子空间与正交子空间的协方差分解,借鉴了稳健主成分分析的最新成果,并采用岭型正则化稳定协方差矩阵估计。我们建立了cellRCov的部分理论性质,包括个案与单元格影响函数、一致性和渐近正态性。仿真研究表明,cellRCov在含污染值和缺失数据场景中具有优异表现。此外,通过异常检测的实际应用案例验证了其实用价值。我们还构建并展示了用于稳健正则化典型相关分析的cellRCCA方法。

0
下载
关闭预览

相关内容

《基于高斯混合流和入包的异常检测》2023最新57页论文
专知会员服务
29+阅读 · 2023年5月15日
专知会员服务
56+阅读 · 2021年8月29日
【国防科大】复杂异构数据的表征学习综述
专知会员服务
86+阅读 · 2020年4月23日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
简述多种降维算法
算法与数学之美
11+阅读 · 2018年9月23日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
[有意思的数学] 参数估计
机器学习和数学
15+阅读 · 2017年6月4日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
9+阅读 · 6月15日
相关VIP内容
《基于高斯混合流和入包的异常检测》2023最新57页论文
专知会员服务
29+阅读 · 2023年5月15日
专知会员服务
56+阅读 · 2021年8月29日
【国防科大】复杂异构数据的表征学习综述
专知会员服务
86+阅读 · 2020年4月23日
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员