Small influential data subsets can dramatically impact model conclusions, with a few data points overturning key findings. While recent work identifies these most influential sets, there is no formal way to tell when maximum influence is excessive rather than expected under natural random sampling variation. We address this gap by developing a principled framework for most influential sets. Focusing on linear least-squares, we derive a convenient exact influence formula and identify the extreme value distributions of maximal influence - the heavy-tailed Fréchet for constant-size sets and heavy-tailed data, and the well-behaved Gumbel for growing sets or light tails. This allows us to conduct rigorous hypothesis tests for excessive influence. We demonstrate through applications across economics, biology, and machine learning benchmarks, resolving contested findings and replacing ad-hoc heuristics with rigorous inference.


翻译:小型有影响力的数据子集能显著影响模型结论,少数数据点即可推翻关键发现。尽管近期研究已能识别这些最具影响力的集合,但目前尚无正式方法来判断最大影响力何时属于异常现象而非自然随机抽样变异下的预期结果。针对这一空白,我们建立了最具影响力集合的理论框架。聚焦于线性最小二乘法,我们推导出便捷的精确影响力公式,并确定了最大影响力的极值分布——对于固定规模集合与重尾数据呈现重尾弗雷歇分布,而对于增长型集合或轻尾数据则呈现性质良好的冈贝尔分布。这使我们能够对异常影响力进行严格的假设检验。我们通过经济学、生物学和机器学习基准测试中的应用案例进行验证,解决了存在争议的研究发现,并以严格统计推断替代了临时启发性方法。

0
下载
关闭预览

相关内容

清华大学《《SuperBench大模型综合能力评测报告》发布
专知会员服务
47+阅读 · 2024年4月20日
事件抽取的再评价:过去、现在和未来的挑战
专知会员服务
25+阅读 · 2023年11月28日
CVPR 二十年,影响力最大的 10 篇论文!
专知会员服务
31+阅读 · 2022年2月1日
【资源】图像分割/显著性检测数据集列表
专知
13+阅读 · 2019年5月22日
Attention!注意力机制模型最新综述(附下载)
THU数据派
29+阅读 · 2019年4月13日
Attention!注意力机制模型最新综述
中国人工智能学会
18+阅读 · 2019年4月8日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
福利 | 最全面超大规模数据集下载链接汇总
AI研习社
26+阅读 · 2017年9月7日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月23日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(16份)
专知会员服务
7+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
15+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
2+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
4+阅读 · 4月12日
相关VIP内容
清华大学《《SuperBench大模型综合能力评测报告》发布
专知会员服务
47+阅读 · 2024年4月20日
事件抽取的再评价:过去、现在和未来的挑战
专知会员服务
25+阅读 · 2023年11月28日
CVPR 二十年,影响力最大的 10 篇论文!
专知会员服务
31+阅读 · 2022年2月1日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员