Modern datasets arising from social media, genomics, and biomedical informatics are often heterogeneous and (ultra) high-dimensional, creating substantial challenges for conventional modeling techniques. Quantile regression (QR) not only offers a flexible way to capture heterogeneous effects across the conditional distribution of an outcome, but also naturally produces prediction intervals that help quantify uncertainty in future predictions. However, classical QR methods can face serious memory and computational constraints in large-scale settings. These limitations motivate the use of parallel computing to maintain tractability. While extensive work has examined sample-splitting strategies in settings where the number of observations $n$ greatly exceeds the number of features $p$, the equally important (ultra) high-dimensional regime ($p >> n$) has been comparatively underexplored. To address this gap, we introduce a feature-splitting proximal point algorithm, FS-QRPPA, for penalized QR in high-dimensional regime. Leveraging recent developments in variational analysis, we establish a Q-linear convergence rate for FS-QRPPA and demonstrate its superior scalability in large-scale genomic applications from the UK Biobank relative to existing methods. Moreover, FS-QRPPA yields more accurate coefficient estimates and better coverage for prediction intervals than current approaches. We provide a parallel implementation in the R package fsQRPPA, making penalized QR tractable on large-scale datasets.


翻译:现代数据集常源自社交媒体、基因组学和生物医学信息学等领域,通常具有异质性且维度(超)高,这给传统建模技术带来了巨大挑战。分位数回归不仅为捕捉结果变量条件分布中的异质性效应提供了灵活方法,还能自然地生成预测区间,有助于量化未来预测的不确定性。然而,经典分位数回归方法在大规模场景下面临严重的内存和计算限制。这些局限性促使人们利用并行计算来保持可处理性。尽管已有大量研究探讨了观测数$n$远大于特征数$p$情形下的样本分割策略,但同等重要的(超)高维情形($p >> n$)却相对缺乏深入探索。为填补这一空白,本文针对高维情形下的惩罚分位数回归,提出了一种特征分割近端点算法——FS-QRPPA。基于变分分析的最新进展,我们证明了FS-QRPPA具有Q线性收敛速率,并通过英国生物银行的大规模基因组学应用案例,展示了该方法相较于现有方法的卓越可扩展性。此外,FS-QRPPA能产生更精确的系数估计和更优的预测区间覆盖性能。我们在R软件包fsQRPPA中提供了并行实现,使得惩罚分位数回归能够在大规模数据集上高效运行。

0
下载
关闭预览

相关内容

Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员