Statistical data depth plays an important role in the analysis of multivariate data sets. The main outcome is a center-outward ordering of the observations that can be used both to highlight features of the underlying distribution of the data and as input to further statistical analysis. An important property of data depth is related to symmetric distributions as the point with the highest depth value, the center, coincides with the point of symmetry. However, there are applications in which it is more natural to consider symmetry with respect to a subspace of a certain dimension rather than to a point, i.e. a subspace of dimension zero. We provide a general framework to construct statistical data depths which attain maximum value in a subspace, providing a center-outward ordering from that subspace. We refer to these data depths as central subspace data depths. Moreover, if the distribution is symmetric with respect to a subspace, then the depth is maximized at that subspace. We introduce general notions of symmetry about a subspace for distributions, study the properties of central subspace data depths and provide asymptotic convergence for the corresponding sample versions. Additionally, we discuss connections with projection pursuit and dimension reduction. An application based on custom data fraud detection shows the importance of the proposed approach and strengthens its potential.


翻译:统计数据深度在多变量数据集分析中扮演着重要角色。其主要结果是观测值的一种由中心向外的排序,该排序既可用于揭示数据潜在分布的特征,也可作为进一步统计分析的基础。数据深度的一个重要性质与对称分布相关:深度值最高的点(即中心)与对称点重合。然而,在某些应用中,考虑关于特定维数子空间(而非零维子空间,即点)的对称性更为自然。我们提出了一个通用框架来构建统计数据深度,该深度在某个子空间处取得最大值,从而提供从该子空间出发的由中心向外的排序。我们将这类数据深度称为中心子空间数据深度。此外,若分布关于某个子空间对称,则深度在该子空间处达到最大。我们引入了关于子空间对称性的一般概念,研究了中心子空间数据深度的性质,并给出了相应样本版本的渐近收敛性。此外,我们还探讨了其与投影寻踪和降维的联系。一项基于定制数据欺诈检测的应用展示了所提方法的重要性,并强化了其潜在价值。

0
下载
关闭预览

相关内容

以数据为中心的图机器学习
专知会员服务
38+阅读 · 2023年9月25日
基于深度学习的数据融合方法研究综述
专知会员服务
147+阅读 · 2020年12月10日
最新《深度多模态数据分析》综述论文,26页pdf
专知会员服务
302+阅读 · 2020年6月16日
【康奈尔大学】度量数据粒度,Measuring Dataset Granularity
专知会员服务
13+阅读 · 2019年12月27日
基于深度学习的数据融合方法研究综述
专知
37+阅读 · 2020年12月10日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
【深度学习】深度学习的核心:掌握训练数据的方法
产业智能官
12+阅读 · 2018年1月14日
资源 | 一文读懂深度学习(附学习资源)
AI100
14+阅读 · 2017年11月30日
Deep Learning(深度学习)各种资料网址
数据挖掘入门与实战
11+阅读 · 2017年10月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
14+阅读 · 2023年9月27日
Arxiv
27+阅读 · 2023年3月17日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
8+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
19+阅读 · 4月29日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
11+阅读 · 4月28日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员