Testing Most Influential Sets - 专知论文

会员服务 ·

0

呈现 · 数据点 · 识别 · 假设检验 · 生物 ·

Testing Most Influential Sets

翻译：最具影响力集合的检验

Lucas Darius Konrad,Nikolas Kuschnig

from arxiv, Some minor changes and additions

Small influential data subsets can dramatically impact model conclusions, with a few data points overturning key findings. While recent work identifies these most influential sets, there is no formal way to tell when maximum influence is excessive rather than expected under natural random sampling variation. We address this gap by developing a principled framework for most influential sets. Focusing on linear least-squares, we derive a convenient exact influence formula and identify the extreme value distributions of maximal influence - the heavy-tailed Fréchet for constant-size sets and heavy-tailed data, and the well-behaved Gumbel for growing sets or light tails. This allows us to conduct rigorous hypothesis tests for excessive influence. We demonstrate through applications across economics, biology, and machine learning benchmarks, resolving contested findings and replacing ad-hoc heuristics with rigorous inference.

翻译：小型有影响力的数据子集能显著影响模型结论，少数数据点即可推翻关键发现。尽管近期研究已能识别这些最具影响力的集合，但目前尚无正式方法来判断最大影响力何时属于异常现象而非自然随机抽样变异下的预期结果。针对这一空白，我们建立了最具影响力集合的理论框架。聚焦于线性最小二乘法，我们推导出便捷的精确影响力公式，并确定了最大影响力的极值分布——对于固定规模集合与重尾数据呈现重尾弗雷歇分布，而对于增长型集合或轻尾数据则呈现性质良好的冈贝尔分布。这使我们能够对异常影响力进行严格的假设检验。我们通过经济学、生物学和机器学习基准测试中的应用案例进行验证，解决了存在争议的研究发现，并以严格统计推断替代了临时启发性方法。

0

相关内容

清华大学《《SuperBench大模型综合能力评测报告》发布

清华大学《《SuperBench大模型综合能力评测报告》发布

专知会员服务

47+阅读 · 2024年4月20日

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

事件抽取的再评价:过去、现在和未来的挑战

事件抽取的再评价:过去、现在和未来的挑战

专知会员服务

25+阅读 · 2023年11月28日

弹药异常检测《使用机器学习进行缺陷表征》最佳论文，MODSIM World 2023

弹药异常检测《使用机器学习进行缺陷表征》最佳论文，MODSIM World 2023

专知会员服务

36+阅读 · 2023年7月22日

《IMPACTS：一个人机协作的信任模型》加拿大国防研级与发展部

《IMPACTS：一个人机协作的信任模型》加拿大国防研级与发展部

专知会员服务

29+阅读 · 2022年7月20日

CVPR 二十年，影响力最大的 10 篇论文！

CVPR 二十年，影响力最大的 10 篇论文！

专知会员服务

31+阅读 · 2022年2月1日

南开大学范登平的博士论文《认知规律启发的显著性物体检测方法与评测》

南开大学范登平的博士论文《认知规律启发的显著性物体检测方法与评测》

专知会员服务

23+阅读 · 2021年11月25日

如何撰写好一篇论文？密歇根Andrew教授这篇《撰写高影响力论文指南》为你细致讲解论文写作，附视频与pdf

如何撰写好一篇论文？密歇根Andrew教授这篇《撰写高影响力论文指南》为你细致讲解论文写作，附视频与pdf

专知会员服务

79+阅读 · 2021年9月6日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

Influence Maximization: Integrating and Expanding Classical Algorithms into the Social Network Context [陈卫微软亚洲研究院] 2019年中国计算机大会机器学习与数据挖掘论坛

Influence Maximization: Integrating and Expanding Classical Algorithms into the Social Network Context [陈卫微软亚洲研究院] 2019年中国计算机大会机器学习与数据挖掘论坛

专知会员服务

10+阅读 · 2019年10月26日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

【资源】图像分割/显著性检测数据集列表

【资源】图像分割/显著性检测数据集列表

专知

13+阅读 · 2019年5月22日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

Attention！注意力机制模型最新综述（附下载）

Attention！注意力机制模型最新综述（附下载）

THU数据派

29+阅读 · 2019年4月13日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

Attention！注意力机制模型最新综述

Attention！注意力机制模型最新综述

中国人工智能学会

18+阅读 · 2019年4月8日

异常检测的阈值，你怎么选？给你整理好了...

异常检测的阈值，你怎么选？给你整理好了...

机器学习算法与Python学习

10+阅读 · 2018年9月19日

【资源】史上最全数据集汇总

【资源】史上最全数据集汇总

七月在线实验室

18+阅读 · 2018年4月24日

【论文推荐】最新七篇推荐系统相关论文—影响兴趣、知识Embeddings、音乐推荐、非结构化、一致性、显式和隐式特征、知识图谱

【论文推荐】最新七篇推荐系统相关论文—影响兴趣、知识Embeddings、音乐推荐、非结构化、一致性、显式和隐式特征、知识图谱

专知

14+阅读 · 2018年3月28日

福利 | 最全面超大规模数据集下载链接汇总

福利 | 最全面超大规模数据集下载链接汇总

AI研习社

26+阅读 · 2017年9月7日

大数据量度下移动社交网络中影响力最大化问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

超高维数据中若干检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

试验设计中的模型选择

国家自然科学基金

6+阅读 · 2014年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

高维混合数据异常知识发现的粒计算模型关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

Detection of Multiple Influential Observations on Model Selection

Arxiv

0+阅读 · 3月15日

Decision Aggregation under Quantal Response

Arxiv

0+阅读 · 3月14日

Causal Influence Maximization with Steady-State Guarantees

Arxiv

0+阅读 · 3月12日

Goal-Oriented Influence-Maximizing Data Acquisition for Learning and Optimization

Arxiv

0+阅读 · 2月23日

Linked factor analysis

Arxiv

0+阅读 · 2月23日

Factor-Adjusted Multiple Testing for High-Dimensional Individual Mediation Effects

Arxiv

0+阅读 · 2月18日

Concept Influence: Leveraging Interpretability to Improve Performance and Efficiency in Training Data Attribution

Arxiv

0+阅读 · 2月16日

A Community-Aware Framework for Influence Maximization with Explicit Accounting for Inter-Community Influence

Arxiv

0+阅读 · 2月2日

Benchmarking of algorithms for set partitions

Arxiv

0+阅读 · 2月1日

Optimal Decision-Making Based on Prediction Sets

Arxiv

0+阅读 · 2月1日

VIP会员

文章信息

相关主题

最新内容

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

7+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

3+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

4+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

4+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

4+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

4+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

5+阅读 · 5月29日

“史诗怒火行动”中美军损失的作战飞机

“史诗怒火行动”中美军损失的作战飞机

专知会员服务

4+阅读 · 5月29日

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

专知会员服务

5+阅读 · 5月28日

Agent Harness综述：大模型智能体执行器工程全景

Agent Harness综述：大模型智能体执行器工程全景

专知会员服务

14+阅读 · 5月28日

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

专知会员服务

14+阅读 · 5月28日

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

专知会员服务

9+阅读 · 5月28日

马赛克防御与分布式指挥：伊朗的回击（中文版）

马赛克防御与分布式指挥：伊朗的回击（中文版）

专知会员服务

10+阅读 · 5月28日

《基于理论的威慑效能评估》

《基于理论的威慑效能评估》

专知会员服务

8+阅读 · 5月28日

《移动旅级战斗队转型中的支援单元指挥控制挑战》

《移动旅级战斗队转型中的支援单元指挥控制挑战》

专知会员服务

15+阅读 · 5月27日

相关VIP内容

清华大学《《SuperBench大模型综合能力评测报告》发布

清华大学《《SuperBench大模型综合能力评测报告》发布

专知会员服务

47+阅读 · 2024年4月20日

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

事件抽取的再评价:过去、现在和未来的挑战

事件抽取的再评价:过去、现在和未来的挑战

专知会员服务

25+阅读 · 2023年11月28日

弹药异常检测《使用机器学习进行缺陷表征》最佳论文，MODSIM World 2023

弹药异常检测《使用机器学习进行缺陷表征》最佳论文，MODSIM World 2023

专知会员服务

36+阅读 · 2023年7月22日

《IMPACTS：一个人机协作的信任模型》加拿大国防研级与发展部

《IMPACTS：一个人机协作的信任模型》加拿大国防研级与发展部

专知会员服务

29+阅读 · 2022年7月20日

CVPR 二十年，影响力最大的 10 篇论文！

CVPR 二十年，影响力最大的 10 篇论文！

专知会员服务

31+阅读 · 2022年2月1日

南开大学范登平的博士论文《认知规律启发的显著性物体检测方法与评测》

南开大学范登平的博士论文《认知规律启发的显著性物体检测方法与评测》

专知会员服务

23+阅读 · 2021年11月25日

如何撰写好一篇论文？密歇根Andrew教授这篇《撰写高影响力论文指南》为你细致讲解论文写作，附视频与pdf

如何撰写好一篇论文？密歇根Andrew教授这篇《撰写高影响力论文指南》为你细致讲解论文写作，附视频与pdf

专知会员服务

79+阅读 · 2021年9月6日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

Influence Maximization: Integrating and Expanding Classical Algorithms into the Social Network Context [陈卫微软亚洲研究院] 2019年中国计算机大会机器学习与数据挖掘论坛

Influence Maximization: Integrating and Expanding Classical Algorithms into the Social Network Context [陈卫微软亚洲研究院] 2019年中国计算机大会机器学习与数据挖掘论坛

专知会员服务

10+阅读 · 2019年10月26日

热门VIP内容

开通专知VIP会员享更多权益服务

AutoScientists：自组织智能体团队驱动长期科学实验

战略前沿人工智能的再思考（中文）

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

相关资讯

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

【资源】图像分割/显著性检测数据集列表

【资源】图像分割/显著性检测数据集列表

专知

13+阅读 · 2019年5月22日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

Attention！注意力机制模型最新综述（附下载）

Attention！注意力机制模型最新综述（附下载）

THU数据派

29+阅读 · 2019年4月13日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

Attention！注意力机制模型最新综述

Attention！注意力机制模型最新综述

中国人工智能学会

18+阅读 · 2019年4月8日

异常检测的阈值，你怎么选？给你整理好了...

异常检测的阈值，你怎么选？给你整理好了...

机器学习算法与Python学习

10+阅读 · 2018年9月19日

【资源】史上最全数据集汇总

【资源】史上最全数据集汇总

七月在线实验室

18+阅读 · 2018年4月24日

【论文推荐】最新七篇推荐系统相关论文—影响兴趣、知识Embeddings、音乐推荐、非结构化、一致性、显式和隐式特征、知识图谱

【论文推荐】最新七篇推荐系统相关论文—影响兴趣、知识Embeddings、音乐推荐、非结构化、一致性、显式和隐式特征、知识图谱

专知

14+阅读 · 2018年3月28日

福利 | 最全面超大规模数据集下载链接汇总

福利 | 最全面超大规模数据集下载链接汇总

AI研习社

26+阅读 · 2017年9月7日

相关论文

Detection of Multiple Influential Observations on Model Selection

Arxiv

0+阅读 · 3月15日

Decision Aggregation under Quantal Response

Arxiv

0+阅读 · 3月14日

Causal Influence Maximization with Steady-State Guarantees

Arxiv

0+阅读 · 3月12日

Goal-Oriented Influence-Maximizing Data Acquisition for Learning and Optimization

Arxiv

0+阅读 · 2月23日

Linked factor analysis

Arxiv

0+阅读 · 2月23日

Factor-Adjusted Multiple Testing for High-Dimensional Individual Mediation Effects

Arxiv

0+阅读 · 2月18日

Concept Influence: Leveraging Interpretability to Improve Performance and Efficiency in Training Data Attribution

Arxiv

0+阅读 · 2月16日

A Community-Aware Framework for Influence Maximization with Explicit Accounting for Inter-Community Influence

Arxiv

0+阅读 · 2月2日

Benchmarking of algorithms for set partitions

Arxiv

0+阅读 · 2月1日

Optimal Decision-Making Based on Prediction Sets

Arxiv

0+阅读 · 2月1日

相关基金

大数据量度下移动社交网络中影响力最大化问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

超高维数据中若干检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

试验设计中的模型选择

国家自然科学基金

6+阅读 · 2014年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

高维混合数据异常知识发现的粒计算模型关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员