We study the problem of selecting features associated with extreme values in high dimensional linear regression. Normally, in linear modeling problems, the presence of abnormal extreme values or outliers is considered an anomaly which should either be removed from the data or remedied using robust regression methods. In many situations, however, the extreme values in regression modeling are not outliers but rather the signals of interest; consider traces from spiking neurons, volatility in finance, or extreme events in climate science, for example. In this paper, we propose a new method for sparse high-dimensional linear regression for extreme values which is motivated by the Subbotin, or generalized normal distribution, which we call the extreme value linear regression model. For our method, we utilize an $\ell_p$ norm loss where $p$ is an even integer greater than two; we demonstrate that this loss increases the weight on extreme values. We prove consistency and variable selection consistency for the extreme value linear regression with a Lasso penalty, which we term the Extreme Lasso, and we also analyze the theoretical impact of extreme value observations on the model parameter estimates using the concept of influence functions. Through simulation studies and a real-world data example, we show that the Extreme Lasso outperforms other methods currently used in the literature for selecting features of interest associated with extreme values in high-dimensional regression.


翻译:通常,在线性模型问题中,异常极端值或异常值的存在被认为是一种异常现象,应该从数据中删除,或者使用强力回归方法加以补救。然而,在许多情况下,回归模型的极端值不是外值,而是感兴趣的信号;我们研究高维线回归中与极端值相关的特征。在本文中,我们提出了一种新的方法,用于稀疏高维线性回归,这是由Subbotin或普遍正常分布驱动的极端值驱动的,我们称之为极端值线性回归模型。对于我们的方法,我们使用一个$\ell_p$的标准损失,其中美元甚至整数大于2美元;我们证明这一损失增加了极端值的重量。我们用Lasso惩罚来证明极端值线性回归的一致性和可变选择的一致性,我们称之为极端拉索,我们还用影响函数的概念来分析极端值观察对模型参数估计的理论影响,我们称之为极端线性回归模型的理论影响模型。对于我们的方法,我们使用一个$ell_p$p$的标准损失,我们通过模拟研究,用真实的极端水平数据特征来选择其他的回归方法,我们展示了当前在极端水平文献中所使用的利息。

0
下载
关闭预览

相关内容

线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
29+阅读 · 2021年8月2日
【干货书】机器学习速查手册,135页pdf
专知会员服务
127+阅读 · 2020年11月20日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
49+阅读 · 2020年7月4日
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
92+阅读 · 2020年7月4日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
MIT新书《强化学习与最优控制》
专知会员服务
282+阅读 · 2019年10月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
3+阅读 · 2017年10月12日
Arxiv
0+阅读 · 2021年8月12日
Arxiv
0+阅读 · 2021年8月11日
Arxiv
4+阅读 · 2018年1月15日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
9+阅读 · 4月25日
多智能体协作机制
专知会员服务
8+阅读 · 4月25日
非对称优势:美海军开发低成本反无人机技术
专知会员服务
9+阅读 · 4月25日
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
8+阅读 · 4月25日
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
12+阅读 · 4月25日
【NTU博士论文】3D人体动作生成
专知会员服务
9+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
9+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
16+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
13+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
6+阅读 · 4月24日
相关VIP内容
专知会员服务
29+阅读 · 2021年8月2日
【干货书】机器学习速查手册,135页pdf
专知会员服务
127+阅读 · 2020年11月20日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
49+阅读 · 2020年7月4日
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
92+阅读 · 2020年7月4日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
MIT新书《强化学习与最优控制》
专知会员服务
282+阅读 · 2019年10月9日
相关资讯
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
3+阅读 · 2017年10月12日
Top
微信扫码咨询专知VIP会员