A data analysis pipeline is a structured sequence of steps that transforms raw data into meaningful insights by integrating multiple analysis algorithms. In many practical applications, analytical findings are obtained only after data pass through several data-dependent procedures within such pipelines. In this study, we address the problem of quantifying the statistical reliability of results produced by data analysis pipelines. As a proof of concept, we focus on clustering pipelines that identify cluster structures from complex and heterogeneous data through procedures such as outlier detection, feature selection, and clustering. We propose a novel statistical testing framework to assess the significance of clustering results obtained through these pipelines. Our framework, based on selective inference, enables the systematic construction of valid statistical tests for clustering pipelines composed of predefined components. We prove that the proposed test controls the type I error rate at any nominal level and demonstrate its validity and effectiveness through experiments on synthetic and real datasets.


翻译:数据分析流程是将原始数据转化为有意义洞察的结构化步骤序列,通过整合多种分析算法实现。在实际应用中,分析结论往往需要数据经过此类流程中多个数据依赖步骤后方可获取。本研究针对数据分析流程输出结果的统计可靠性量化问题展开探讨。作为概念验证,我们聚焦于通过异常检测、特征选择和聚类等流程从复杂异构数据中识别聚类结构的聚类流程。我们提出了一种新颖的统计检验框架,用于评估此类流程所得聚类结果的显著性。该框架基于选择性推断方法,可系统构建由预定义组件组成的聚类流程的有效统计检验。理论证明所提检验能在任意名义水平控制第一类错误率,并通过合成数据集与真实数据集的实验验证了其有效性与实用性。

0
下载
关闭预览

相关内容

基于因果推断的推荐系统去偏研究
专知会员服务
21+阅读 · 2024年11月10日
《基于高斯混合流和入包的异常检测》2023最新57页论文
专知会员服务
29+阅读 · 2023年5月15日
具有组合结构的统计推断和在线算法
专知会员服务
12+阅读 · 2022年12月13日
专知会员服务
79+阅读 · 2021年10月12日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
【干货书】统计基础、推理与推断,361页pdf
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
详解 | 推荐系统的工程实现
AI100
42+阅读 · 2019年3月15日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
推荐系统算法合集,满满都是干货(建议收藏)
七月在线实验室
17+阅读 · 2018年7月23日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
【大数据】数据挖掘与数据分析知识流程梳理
产业智能官
13+阅读 · 2017年9月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关资讯
【干货书】统计基础、推理与推断,361页pdf
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
详解 | 推荐系统的工程实现
AI100
42+阅读 · 2019年3月15日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
推荐系统算法合集,满满都是干货(建议收藏)
七月在线实验室
17+阅读 · 2018年7月23日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
【大数据】数据挖掘与数据分析知识流程梳理
产业智能官
13+阅读 · 2017年9月22日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员