Outlying observations are frequently encountered across a wide spectrum of scientific domains, posing notable challenges to the generalizability of statistical models and the reproducibility of downstream analysis. They are identified through influential diagnostics, which aim to capture observations that unduly bias model estimation. To date, methods for identifying observations that influence the selection of a stochastically chosen submodel have been underdeveloped, especially in the high-dimensional setting where the number of predictors $p$ exceeds the sample size $n$. Recently we proposed an improved diagnostic measure to handle this setting. However, its distributional properties and approximations have not yet been explored. To address this shortcoming, we revisit the notion of exchangeability to determine the exact asymptotic distribution of our assessment measure. This foundation enables the introduction of theoretically supported parametric and nonparametric approaches for distributional approximation and derivation of thresholds for outlier identification. The resulting framework is further extended to logistic regression models and evaluated by comprehensive simulation studies comparing the performance of various detection methods. Finally, the framework is applied to data from a task-based fMRI study of thermal pain, with the goal of identifying outliers that distort the formulation of the statistical model using functional brain activity to predict physical pain ratings. Both linear and logistic models are used to demonstrate the benefits of detection and compare the performance of different detection procedures. In particular, we identify two influential observations that were not detected in prior studies


翻译:异常观测值在广泛的科学领域中频繁出现,对统计模型的普适性及下游分析的可重复性构成显著挑战。这些观测值通过影响诊断方法进行识别,其目的在于捕捉那些对模型估计产生不当偏差的观测值。迄今为止,针对影响随机选择子模型筛选的观测值的识别方法尚不完善,尤其是在预测变量数量$p$超过样本量$n$的高维场景中。近期我们提出了一种改进的诊断度量来处理此场景。然而,其分布特性与近似方法尚未得到探究。为弥补此不足,我们重新审视可交换性概念,以确定我们评估度量的精确渐近分布。此基础使得引入理论支持的参数化与非参数化方法成为可能,用于分布近似及推导异常值识别阈值。所得框架进一步扩展至逻辑回归模型,并通过综合模拟研究评估各种检测方法的性能。最后,该框架应用于一项基于任务的功能磁共振成像热痛研究数据,旨在识别那些扭曲统计模型构建的异常值——该模型利用功能性大脑活动预测物理疼痛评分。研究同时采用线性模型与逻辑回归模型来展示检测的益处,并比较不同检测流程的性能。特别地,我们识别出两个在先验研究中未被发现的影响观测值。

0
下载
关闭预览

相关内容

基于扩散模型的异常检测综述
专知会员服务
30+阅读 · 2025年1月23日
多模态遥感图像配准方法研究综述
专知会员服务
19+阅读 · 2024年7月20日
《基于高斯混合流和入包的异常检测》2023最新57页论文
专知会员服务
28+阅读 · 2023年5月15日
多模态数据的行为识别综述
专知会员服务
88+阅读 · 2022年11月30日
基于图注意力机制和Transformer的异常检测
专知会员服务
62+阅读 · 2022年5月16日
监控视频的异常检测与建模综述
专知会员服务
50+阅读 · 2021年12月27日
专知会员服务
68+阅读 · 2021年9月10日
专知会员服务
111+阅读 · 2020年10月27日
多模态情绪识别研究综述
专知
25+阅读 · 2020年12月21日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
【机器视觉】表面缺陷检测:机器视觉检测技术
产业智能官
25+阅读 · 2018年5月30日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(16份)
专知会员服务
5+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
12+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
2+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
2+阅读 · 4月12日
相关VIP内容
基于扩散模型的异常检测综述
专知会员服务
30+阅读 · 2025年1月23日
多模态遥感图像配准方法研究综述
专知会员服务
19+阅读 · 2024年7月20日
《基于高斯混合流和入包的异常检测》2023最新57页论文
专知会员服务
28+阅读 · 2023年5月15日
多模态数据的行为识别综述
专知会员服务
88+阅读 · 2022年11月30日
基于图注意力机制和Transformer的异常检测
专知会员服务
62+阅读 · 2022年5月16日
监控视频的异常检测与建模综述
专知会员服务
50+阅读 · 2021年12月27日
专知会员服务
68+阅读 · 2021年9月10日
专知会员服务
111+阅读 · 2020年10月27日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员