Many modern procedures use the data to learn a structure and then leverage it to test many hypotheses. If the entire data is used at both stages, analytical or computational corrections for selection bias are required to ensure validity (post-learning adjustment). Alternatively, one can learn and/or test on masked versions of the data to avoid selection bias, either via information splitting or null augmentation}. Choosing among these three learn-then-test paradigms, and how much masking to employ for the latter two, are critical decisions impacting power that currently lack theoretical guidance. In a multivariate normal means model, we derive asymptotic power formulas for prototypical methods from each paradigm -- variants of sample splitting, conformal-style null augmentation, and resampling-based post-learning adjustment -- quantifying the power losses incurred by masking at each stage. For these paradigm representatives, we find that post-learning adjustment is most powerful, followed by null augmentation, and then information splitting. Moreover, null augmentation can be nearly as powerful as post-learning adjustment, while avoiding its challenges: the power of the former approaches that of the latter if the number of nulls used for augmentation is a vanishing fraction of the number of hypotheses. We also prove for a tractable proxy that the optimal number of nulls scales as the square root of the number of hypotheses, challenging existing heuristics. Finally, we characterize optimal tuning for information splitting by identifying an optimal split fraction and tying it to the difficulty of the learning problem. These results establish a theoretical foundation for key decisions in the deployment of learn-then-test methods.


翻译:许多现代统计程序利用数据学习结构,随后借助该结构检验多重假设。若全部数据在两个阶段均被使用,则需通过解析或计算校正选择偏倚以确保有效性(后学习调整)。或者,可通过信息分割或零值增广的方式,在数据的掩蔽版本上进行学习和/或检验,从而避免选择偏倚。在这三种学习-检验范式之间进行选择,以及为后两种范式确定掩蔽程度,是影响统计功效的关键决策,目前缺乏理论指导。在多元正态均值模型中,我们推导了各范式典型方法——样本分割变体、类conformal零值增广以及基于重采样的后学习调整——的渐近功效公式,量化了各阶段掩蔽导致的功效损失。对于这些范式代表方法,我们发现后学习调整功效最高,其次为零值增广,信息分割最低。此外,零值增广的功效可接近后学习调整,同时规避其挑战:若用于增广的零值数量是假设数量的可忽略部分,前者的功效将趋近后者。我们还证明,对于一个可处理的代理问题,最优零值数量与假设数量的平方根成正比,这对现有启发式方法提出了挑战。最后,我们通过确定最优分割比例并将其与学习问题的难度相关联,刻画了信息分割的最优调参策略。这些结果为学习-检验方法部署中的关键决策建立了理论基础。

0
下载
关闭预览

相关内容

【阿姆斯特丹博士论文】缓解多任务学习中的偏差
专知会员服务
23+阅读 · 2024年11月1日
【ICML2022】几何多模态对比表示学习
专知会员服务
45+阅读 · 2022年7月17日
WSDM'22「百度」考虑行为多样性的对比元学习
专知会员服务
24+阅读 · 2022年2月21日
港中文等最新《多模态元学习》综述论文
专知会员服务
124+阅读 · 2021年10月8日
专知会员服务
235+阅读 · 2020年5月6日
对比自监督学习
深度学习自然语言处理
35+阅读 · 2020年7月15日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
基于数据优化的人机协同与机器人僚机
专知会员服务
4+阅读 · 今天2:08
美陆军设想无人系统司令部
专知会员服务
3+阅读 · 4月15日
【博士论文】已对齐人工智能系统的持久脆弱性
扭曲还是编造?视频大语言模型幻觉研究综述
专知会员服务
6+阅读 · 4月15日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员