We study high-dimensional rank regression when data are distributed across multiple machines and the loss is a non-additive U-statistic, as in convoluted rank regression (CRR). Classical communication-efficient surrogate likelihood (CSL) methods crucially rely on the additivity of the empirical loss and therefore break down for CRR, whose global loss couples all sample pairs across machines. We propose a distributed convoluted rank regression (DCRR) framework that constructs a similar surrogate loss and demonstrate its validity under the non-additive losses. We show that this surrogate shares the same population minimizer as the full-data CRR loss and yields estimators that are statistically equivalent to centralized CRR. Building on this, we develop a two-stage sparse DCRR procedure -- an iterative $\ell_1$-penalized stage followed by a folded-concave refinement -- and establish non-asymptotic error bounds, a distributed strong oracle property, and a DHBIC-type criterion for consistent model selection. A scaling result shows that the number of machines may diverge as $M = o({N/(s^2\log p)})$ while achieving centralized oracle rates with only $O(\log N)$ communication rounds. Simulations and a large-scale real data example demonstrate substantial gains over naive divide-and-conquer, particularly under heavy-tailed errors.


翻译:本文研究高维秩回归问题,其中数据分布在多台机器上且损失函数为非可加U统计量,如卷积秩回归(CRR)所示。经典的通信高效代理似然(CSL)方法严重依赖于经验损失的加性特性,因此无法适用于CRR——其全局损失耦合了所有机器间的样本对。我们提出分布式卷积秩回归(DCRR)框架,该框架构建了类似的代理损失,并证明了其在非可加损失下的有效性。我们证明该代理损失与全数据CRR损失具有相同总体极小值点,且能产生与集中式CRR统计等价的估计量。在此基础上,我们开发了两阶段稀疏DCRR方法——迭代$\ell_1$惩罚阶段后接折叠凹修正——并建立了非渐近误差界、分布式强预言机性质以及用于一致模型选择的DHBIC型准则。尺度分析表明,在仅需$O(\log N)$轮通信的情况下,机器数量可发散至$M = o({N/(s^2\log p)})$同时达到集中式预言机速率。仿真实验与大规模实际数据案例表明,该方法相较于朴素分治策略具有显著优势,尤其在重尾误差条件下表现突出。

0
下载
关闭预览

相关内容

不平衡数据学习的全面综述
专知会员服务
44+阅读 · 2025年2月15日
深度强化学习中的可塑性损失:综述
专知会员服务
22+阅读 · 2024年11月8日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
换个角度看GAN:另一种损失函数
机器之心
16+阅读 · 2019年1月1日
数据分析师应该知道的16种回归方法:负二项回归
数萃大数据
74+阅读 · 2018年9月16日
数据分析师应该知道的16种回归方法:泊松回归
数萃大数据
35+阅读 · 2018年9月13日
数据分析师应该知道的16种回归技术:Lasso回归
数萃大数据
16+阅读 · 2018年8月13日
数据分析师应该知道的16种回归技术:分位数回归
数萃大数据
29+阅读 · 2018年8月8日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
7+阅读 · 4月19日
澳大利亚发布《国防战略(2026年)》
专知会员服务
2+阅读 · 4月19日
全球高超音速武器最新发展趋势
专知会员服务
2+阅读 · 4月19日
相关VIP内容
不平衡数据学习的全面综述
专知会员服务
44+阅读 · 2025年2月15日
深度强化学习中的可塑性损失:综述
专知会员服务
22+阅读 · 2024年11月8日
相关资讯
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
换个角度看GAN:另一种损失函数
机器之心
16+阅读 · 2019年1月1日
数据分析师应该知道的16种回归方法:负二项回归
数萃大数据
74+阅读 · 2018年9月16日
数据分析师应该知道的16种回归方法:泊松回归
数萃大数据
35+阅读 · 2018年9月13日
数据分析师应该知道的16种回归技术:Lasso回归
数萃大数据
16+阅读 · 2018年8月13日
数据分析师应该知道的16种回归技术:分位数回归
数萃大数据
29+阅读 · 2018年8月8日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员