With the increasing availability of data objects in the form of probability distributions, there is a growing need for statistical methods tailored to distributional data. Distance measures, especially the pairwise distance matrix between data objects, provide the foundation for a wide range of modern data analysis methods, such as clustering, multidimensional scaling, and distance-based regression, among others. The Wasserstein distance is commonly used with distributional data due to its compelling optimal transport property. However, while the Wasserstein distance can be efficiently computed for univariate distributions, its application to multivariate distributions is limited due to high computational costs. To address these scalability issues, we introduce the Nonparanormal Transport (NPT) metric, a closed-form distance based on the flexible nonparanormal distribution family for modeling skewed and non-Gaussian multivariate data. Simulation studies demonstrate that NPT maintains a high level of agreement with the Wasserstein distance, while being at least 1000 times faster than its efficient variants when computing a 100-distribution pairwise distance matrix in both 2 and 5 dimensions. We illustrate the utility of NPT through a multidimensional scaling analysis of bivariate oxygen desaturation distributions of 723 individuals with sleep apnea in the Sleep Heart Health Study.


翻译:随着以概率分布形式呈现的数据对象日益增多,对适用于分布数据的统计方法的需求也在不断增长。距离度量,特别是数据对象间的成对距离矩阵,为聚类分析、多维尺度分析及基于距离的回归等众多现代数据分析方法提供了基础。Wasserstein距离因其最优传输特性而常用于分布数据。然而,尽管Wasserstein距离在单变量分布中可高效计算,但由于高昂的计算成本,其在多元分布中的应用受到限制。为解决这些可扩展性问题,我们提出了非参数正态传输(NPT)度量——一种基于灵活非参数正态分布族的闭式距离度量,适用于建模偏态与非高斯多元数据。仿真研究表明,在计算100个分布的成对距离矩阵时(维度为2维和5维),NPT与Wasserstein距离保持高度一致性,同时计算速度比其高效变体快至少1000倍。我们通过对睡眠心脏健康研究中723名睡眠呼吸暂停患者的双变量血氧饱和度分布进行多维尺度分析,展示了NPT的实际应用价值。

0
下载
关闭预览

相关内容

多智能体博弈中的分布式学习: 原理与算法
专知会员服务
54+阅读 · 2024年6月13日
【CMU博士论文】最优传输的统计推断
专知会员服务
28+阅读 · 2024年5月29日
「多模态遥感图像匹配方法」最新研究综述
专知会员服务
33+阅读 · 2023年4月7日
【博士论文】吉布斯分布的局部、动态与快速采样算法
专知会员服务
29+阅读 · 2021年11月26日
专知会员服务
50+阅读 · 2021年4月15日
专知会员服务
47+阅读 · 2020年11月13日
简述多种降维算法
算法与数学之美
11+阅读 · 2018年9月23日
数据分析师应该知道的16种回归技术:分位数回归
数萃大数据
29+阅读 · 2018年8月8日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关资讯
简述多种降维算法
算法与数学之美
11+阅读 · 2018年9月23日
数据分析师应该知道的16种回归技术:分位数回归
数萃大数据
29+阅读 · 2018年8月8日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员