High-dimensional datasets are frequently subject to contamination by outliers and heavy-tailed noise, which can severely bias standard regularized estimators like the Lasso. While Maximum Mean Discrepancy (MMD) has recently been introduced as a ``universal'' framework for robust regression, its application to high-dimensional Generalized Linear Models (GLMs) remains largely unexplored, particularly regarding variable selection. In this paper, we propose a penalized MMD framework for robust estimation and feature selection in GLMs. We introduce an $\ell_1$-penalized MMD objective and develop two versions of the estimator: a full $O(n^2)$ version and a computationally efficient $O(n)$ approximation. To solve the resulting non-convex optimization problem, we employ an algorithm based on the Alternating Direction Method of Multipliers (ADMM) combined with AdaGrad. Through extensive simulation studies involving Gaussian linear regression and binary logistic regression, we demonstrate that our proposed methods are highly competitive with classical penalized GLMs and existing robust benchmarks. Our approach shows particular resilience in maintaining a balance between estimation accuracy and variable selection across diverse contamination scenarios, especially in handling high-leverage points and heavy-tailed error distributions where traditional methods may fluctuate in performance.


翻译:高维数据集常受异常值和重尾噪声污染,这可能导致Lasso等标准正则化估计量产生严重偏差。尽管最大均值差异(MMD)近期被引入作为鲁棒回归的“通用”框架,但其在高维广义线性模型(GLM)中的应用——特别是在变量选择方面——仍缺乏系统研究。本文针对GLM的鲁棒估计与特征选择问题,提出一种惩罚MMD框架。我们构建了基于$\ell_1$惩罚的MMD目标函数,并开发了两种估计量版本:全量$O(n^2)$版本与计算高效的$O(n)$近似版本。为求解产生的非凸优化问题,我们采用基于交替方向乘子法(ADMM)结合AdaGrad的算法。通过涵盖高斯线性回归与二元逻辑回归的广泛模拟研究,我们证明所提方法与经典惩罚GLM及现有鲁棒基准方法相比具有高度竞争力。该方法在各类污染场景下尤其展现出维持估计精度与变量选择之间平衡的显著韧性,特别是在处理高杠杆点与重尾误差分布时,传统方法的性能可能出现波动。

0
下载
关闭预览

相关内容

《多模态大型语言模型》最新进展,详述26种现有MM-LLMs
专知会员服务
65+阅读 · 2024年1月25日
【斯坦福博士论文】大模型驱动的鲁棒机器学习,243页pdf
专知会员服务
54+阅读 · 2021年10月1日
专知会员服务
144+阅读 · 2021年3月17日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
27+阅读 · 2018年12月13日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
数据分析师应该知道的16种回归技术:弹性网络回归
数萃大数据
91+阅读 · 2018年8月16日
数据分析师应该知道的16种回归技术:Lasso回归
数萃大数据
16+阅读 · 2018年8月13日
FCS 论坛 | 孟德宇:误差建模原理
FCS
15+阅读 · 2017年8月17日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
5+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员