This article develops new tools and new statistical theory for a statistical problem we call Scale Reliant Inference (SRI). Many scientific fields collect multivariate data that lack scale: where the size, sum, or total of each measurement is arbitrary and is not representative of the scale of the underlying system being measured. For example, in the analysis of high-throughput sequencing data, it is well known that the number of sequencing reads (the sequencing depth) varies substantially due non-biological (technical) factors. This article develops a formal problem statement for SRI which unifies problems seen in multiple scientific fields. Informally, we define SRI as an estimation problem in which an estimand of interest cannot be uniquely identified due to the lack of scale information in the observed data. This problem statement represents a reformulation of the related field of Compositional Data Analysis and allows us to prove fundamental limits on SRI. For example, we prove that inferential criteria such as consistency, calibration, and bias are unattainable for common SRI tasks. Moreover, we show that common methods often applied to SRI implicitly assume infinite knowledge of the system scale and can lead to a troubling phenomena termed unacknowledged bias. Counter-intuitively, we show that this problem worsens with more data and can lead to substantially elevated Type-I and Type-II error rates. Still, we show that rigorous statistical inference is possible so long as models acknowledge the fundamental uncertainty in the system scale. We introduce a class of models we call Scale Simulation Random Variables (SSRVs) as flexible, rigorous, and computationally efficient approach to SRI.


翻译:本文针对我们称为“尺度依赖推断”(Scale Reliant Inference, SRI)的统计问题,开发了新的工具与统计理论。许多科学领域采集的多变量数据缺乏尺度信息:即每个测量值的大小、总和或总量具有任意性,无法反映被测量系统本身的真实尺度。例如,在高通量测序数据分析中,众所周知测序读数数量(即测序深度)会因非生物性(技术性)因素而产生显著差异。本文为SRI建立了正式的问题表述,统一了多个科学领域中出现的类似问题。非正式地,我们将SRI定义为一种估计问题:由于观测数据中缺乏尺度信息,感兴趣的目标参数无法被唯一识别。该问题表述重塑了相关领域的成分数据分析(Compositional Data Analysis),并使我们能够证明SRI的基本极限。例如,我们证明了一致性、校准性和无偏性等推断准则在常见SRI任务中无法实现。此外,我们指出,常用于SRI的方法隐含地假设对系统尺度拥有无限知识,这可能导致一种称为“未承认偏差”(unacknowledged bias)的令人困扰的现象。反直觉的是,我们证明该问题会随数据量的增加而恶化,并导致I类与II类错误率显著升高。尽管如此,我们仍证明只要模型承认系统尺度的基本不确定性,严格的统计推断仍是可能的。我们引入一类称为“尺度模拟随机变量”(Scale Simulation Random Variables, SSRVs)的模型,作为解决SRI的灵活、严谨且计算高效的方法。

0
下载
关闭预览

相关内容

专知会员服务
52+阅读 · 2020年12月14日
因果图,Causal Graphs,52页ppt
专知会员服务
254+阅读 · 2020年4月19日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
164+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
全球首个GNN为主的AI创业公司,募资$18.5 million!
图与推荐
1+阅读 · 2022年4月16日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
14+阅读 · 2022年10月15日
Arxiv
10+阅读 · 2021年11月3日
VIP会员
最新内容
【剑桥博士论文】智能体-环境协同优化
专知会员服务
3+阅读 · 今天14:33
为初级军官战术训练设计生成式人工智能平台
专知会员服务
5+阅读 · 今天6:43
《美军条令:作战伤员后送保障》
专知会员服务
4+阅读 · 今天6:38
《美空军条令出版物 4-0,维持》
专知会员服务
4+阅读 · 今天6:32
《基于仿真的空军任务规划优化》
专知会员服务
4+阅读 · 今天6:21
相关VIP内容
专知会员服务
52+阅读 · 2020年12月14日
因果图,Causal Graphs,52页ppt
专知会员服务
254+阅读 · 2020年4月19日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
164+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
相关资讯
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
全球首个GNN为主的AI创业公司,募资$18.5 million!
图与推荐
1+阅读 · 2022年4月16日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员