Regression with distribution-valued responses and Euclidean predictors has gained increasing scientific relevance. While methodology for univariate distributional data has advanced rapidly in recent years, multivariate distributions, which additionally encode dependence across univariate marginals, have received less attention and pose computational and statistical challenges. In this work, we address these challenges with a new regression approach for multivariate distributional responses, in which distributions are modeled within the semiparametric nonparanormal family. By incorporating the nonparanormal transport (NPT) metric -- an efficient closed-form surrogate for the Wasserstein distance -- into the Fréchet regression framework, our approach decomposes the problem into separate regressions of marginal distributions and their dependence structure, facilitating both efficient estimation and granular interpretation of predictor effects. We provide theoretical justification for NPT, establishing its topological equivalence to the Wasserstein distance and proving that it mitigates the curse of dimensionality. We further prove uniform convergence guarantees for regression estimators, both when distributional responses are fully observed and when they are estimated from empirical samples, attaining fast convergence rates comparable to the univariate case. The utility of our method is demonstrated via simulations and an application to continuous glucose monitoring data.


翻译:以分布为响应变量、欧几里得空间变量为预测变量的回归模型正日益凸显其科学重要性。近年来,单变量分布数据的分析方法发展迅速,而多元分布——其额外编码了单变量边缘分布间的依赖关系——却较少受到关注,并带来计算与统计上的挑战。本研究通过一种新的多元分布响应回归方法应对这些挑战,其中分布被建模于半参数非参数正态族框架内。通过将非参数正态传输度量——Wasserstein距离的高效闭式替代度量——纳入Fréchet回归框架,本方法将问题分解为边缘分布及其依赖结构的独立回归,既实现了高效估计,又便于对预测变量效应进行细粒度解释。我们为NPT提供了理论依据,证明其与Wasserstein距离的拓扑等价性,并证实其能缓解维度灾难问题。进一步地,我们证明了回归估计量的一致收敛性保证,无论分布响应是被完全观测还是通过经验样本估计,均能获得与单变量情形相当的快速收敛速率。通过模拟实验和连续血糖监测数据的应用,验证了本方法的实用价值。

0
下载
关闭预览

相关内容

港中文等最新《多模态元学习》综述论文
专知会员服务
124+阅读 · 2021年10月8日
专知会员服务
146+阅读 · 2021年2月3日
专知会员服务
24+阅读 · 2021年1月30日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
数据分析师应该知道的16种回归方法:泊松回归
数萃大数据
35+阅读 · 2018年9月13日
数据分析师应该知道的16种回归方法:定序回归
数萃大数据
16+阅读 · 2018年9月9日
数据分析师应该知道的16种回归技术:分位数回归
数萃大数据
29+阅读 · 2018年8月8日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
8+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
19+阅读 · 4月29日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
11+阅读 · 4月28日
相关资讯
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
数据分析师应该知道的16种回归方法:泊松回归
数萃大数据
35+阅读 · 2018年9月13日
数据分析师应该知道的16种回归方法:定序回归
数萃大数据
16+阅读 · 2018年9月9日
数据分析师应该知道的16种回归技术:分位数回归
数萃大数据
29+阅读 · 2018年8月8日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员