In many settings in science and industry, such as drug discovery and clinical trials, a central challenge is designing experiments under time and budget constraints. Bayesian Optimal Experimental Design (BOED) is a paradigm to pick maximally informative designs that has been increasingly applied to such problems. During training, BOED selects inputs according to a pre-determined acquisition criterion to target informativeness. During testing, the model learned during training encounters a naturally occurring distribution of test samples. This leads to an instance of covariate shift, where the train and test samples are drawn from different distributions (the training samples are not representative of the test distribution). Prior work has shown that in the presence of model misspecification, covariate shift amplifies generalization error. Our first contribution is to provide a mathematical analysis of generalization error that reveals key contributors to generalization error in the presence of model misspecification. We show that generalization error under misspecification is the result of, in addition to covariate shift, a phenomenon we term error (de-)amplification which has not been identified or studied in prior work. We then develop a new acquisition function that mitigates the effects of model misspecification by including terms for representativeness, informativeness, and de-amplification (R-IDeA). Our experimental results demonstrate that the proposed method performs better than methods that target either only informativeness, representativeness, or both.


翻译:在科学与工业的诸多领域,如药物发现与临床试验中,一个核心挑战是在时间和预算约束下设计实验。贝叶斯最优实验设计(BOED)是一种选择最大化信息性设计的范式,已日益应用于此类问题。在训练阶段,BOED根据预设的获取准则选择输入以针对信息性。在测试阶段,训练期间学得的模型会遇到自然出现的测试样本分布。这导致了协变量偏移的一个实例,即训练样本与测试样本来自不同的分布(训练样本不能代表测试分布)。先前研究表明,在模型误设存在的情况下,协变量偏移会放大泛化误差。我们的第一个贡献是提供了一个泛化误差的数学分析,揭示了模型误设下影响泛化误差的关键因素。我们证明,误设下的泛化误差除了源于协变量偏移外,还源于一种我们称为误差(去)放大的现象,该现象在先前工作中未被识别或研究。随后,我们开发了一种新的获取函数,通过纳入代表性、信息性与去放大(R-IDeA)项来减轻模型误设的影响。我们的实验结果表明,所提方法优于仅针对信息性、代表性或两者兼顾的方法。

0
下载
关闭预览

相关内容

【CMU博士论文】基于深度学习的高效贝叶斯实验设计
专知会员服务
17+阅读 · 2025年8月19日
【牛津大学】贝叶斯优化用于自动化机器学习,321页pdf
专知会员服务
31+阅读 · 2024年5月17日
【干货书】贝叶斯推断随机过程,449页pdf
专知
31+阅读 · 2020年8月27日
一文读懂机器学习中的贝叶斯统计学
数据分析
26+阅读 · 2019年5月8日
【深度】让DL可解释?这一份66页贝叶斯深度学习教程告诉你
GAN生成式对抗网络
15+阅读 · 2018年8月11日
贝叶斯机器学习前沿进展
机器学习研究会
21+阅读 · 2018年1月21日
国家自然科学基金
16+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
8+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
19+阅读 · 4月29日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
11+阅读 · 4月28日
相关基金
国家自然科学基金
16+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员