Modeling observations as random distributions embedded within Wasserstein spaces is becoming increasingly popular across scientific fields, as it captures the variability and geometric structure of the data more effectively. However, the distinct geometry and unique properties of Wasserstein spaces pose challenges to the application of conventional statistical tools, which are primarily designed for Euclidean spaces. Consequently, adapting and developing new methodologies for analysis within Wasserstein spaces has become essential. The space of distributions on $\mathbb{R}^d$ with $d>1$ is not linear, and "mimic" the geometry of a Riemannian manifold. In this paper, we extend the concept of statistical depth to distribution-valued data, introducing the notion of Wasserstein spatial depth. This new measure provides a way to rank and order distributions, enabling the development of order-based clustering techniques and inferential tools. We show that Wasserstein spatial depth (WSD) preserves critical properties of conventional statistical depths, notably, ranging within $[0,1]$, transformation and geodesic invariance, vanishing at infinity, reaching a maximum at the geometric median, and continuity. Regarding robustness, we characterize the breakdown points of the empirical depth regions and the influence function of the WSD. Additionally, the population WSD has a straightforward plug-in estimator based on sampled empirical distributions. We establish the estimator's consistency and asymptotic normality. We also provide a two-sample test for populations of distributions based on the WSD. Finally, extensive simulations and a real-data application showcase the practical efficacy of the WSD.


翻译:将观测数据建模为嵌入Wasserstein空间中的随机分布在科学领域日益普及,该方法能更有效地捕捉数据的变异性和几何结构。然而,Wasserstein空间独特的几何性质和独特属性,给传统主要面向欧氏空间设计的统计工具的应用带来了挑战。因此,针对Wasserstein空间内的分析进行方法调适与开发至关重要。当$d>1$时,$\mathbb{R}^d$上分布的集合并非线性空间,而是"模拟"了黎曼流形的几何特征。本文我们将统计深度的概念扩展到分布值数据,提出了Wasserstein空间深度这一概念。这一新指标提供了一种对分布进行排序和排序的方法,能支持基于排序的聚类技术和推断工具的开发。我们证明了Wasserstein空间深度保留了传统统计深度的关键性质,特别是其取值范围为$[0,1]$,具备变换不变性和测地线不变性,在无穷远处趋于零,在几何中位数处达到最大值,且具有连续性。在稳健性方面,我们刻画了经验深度区域的崩溃点以及Wasserstein空间深度的影响函数。此外,总体Wasserstein空间深度存在一个基于抽样经验分布的简便插值估计量。我们建立了该估计量的一致性和渐近正态性。同时,基于Wasserstein空间深度,我们还为分布总体提供了一个双样本检验。最后,广泛的模拟实验和一项实际数据应用展示了Wasserstein空间深度实际应用中的有效性。

0
下载
关闭预览

相关内容

排序是计算机内经常进行的一种操作,其目的是将一组“无序”的记录序列调整为“有序”的记录序列。分内部排序和外部排序。若整个排序过程不需要访问外存便能完成,则称此类排序问题为内部排序。反之,若参加排序的记录数量很大,整个序列的排序过程不可能在内存中完成,则称此类排序问题为外部排序。内部排序的过程是一个逐步扩大记录的有序序列长度的过程。
潜空间综述:基础、演化、机制、能力与展望
专知会员服务
21+阅读 · 4月3日
【ICML2025】生成模型中潜空间的Hessian几何结构
专知会员服务
17+阅读 · 2025年6月15日
【SIGMOD2023】大规模地理空间分析:问题、挑战与机遇,
专知会员服务
20+阅读 · 2023年7月9日
几何观点下的深度学习
专知会员服务
36+阅读 · 2022年12月13日
空间数据智能:概念、技术与挑战
专知会员服务
93+阅读 · 2022年2月3日
时空数据挖掘:综述
专知
36+阅读 · 2022年6月30日
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
1+阅读 · 今天16:54
Agentic RL:框架、实践与长程智能体训练
专知会员服务
1+阅读 · 今天16:52
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员