In data analysis, unexpected results often prompt researchers to revisit their procedures to identify potential issues. While some researchers may struggle to identify the root causes, experienced researchers can often quickly diagnose problems by checking a few key assumptions. These checked assumptions, or expectations, are typically informal, difficult to trace, and rarely discussed in publications. In this paper, we introduce the term *analysis validation checks* to formalize and externalize these informal assumptions. We then introduce a procedure to identify a subset of checks that best predict the occurrence of unexpected outcomes, based on simulations of the original data. The checks are evaluated in terms of accuracy, determined by binary classification metrics, and independence, which measures the shared information among checks. We demonstrate this approach with a toy example using step count data and a generalized linear model example examining the effect of particulate matter air pollution on daily mortality.


翻译:在数据分析中,意外结果常促使研究者重新审视其流程以识别潜在问题。尽管部分研究者可能难以确定根本原因,但经验丰富的研究者通常能通过检查若干关键假设迅速诊断问题。这些被检查的假设或预期通常是非正式的、难以追溯的,且鲜少在出版物中讨论。本文引入*分析验证检查*这一术语,以形式化并外化这些非正式假设。随后,我们提出一种基于原始数据模拟的程序,用于识别最能预测意外结果发生的检查子集。这些检查通过准确度(由二分类指标确定)和独立性(衡量检查间共享信息)进行评估。我们通过一个使用步数数据的示例和一个研究颗粒物空气污染对每日死亡率影响的广义线性模型示例,展示了该方法。

0
下载
关闭预览

相关内容

【新书】数据科学中的因果推断,638页pdf
专知会员服务
80+阅读 · 2025年2月19日
因果推断,Causal Inference:The Mixtape
专知会员服务
110+阅读 · 2021年8月27日
专知会员服务
24+阅读 · 2021年6月19日
专知会员服务
66+阅读 · 2021年1月6日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
异常检测论文大列表:方法、应用、综述
专知
126+阅读 · 2019年7月15日
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Arxiv
0+阅读 · 1月23日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员