Model selection is a central task in statistics, but standard methods are not robust in misspecified settings where the true data-generating process (DGP) is not in the set of candidate models. The key limitation is that existing methods -- including information criteria and Bayesian posteriors -- do not quantify uncertainty about how well each candidate model approximates the true DGP. In this paper, we introduce a novel approach to model selection based on modeling the likelihood values themselves. Specifically, given $K$ candidate models and $n$ observations, we view the $n\times K$ matrix of negative log-likelihood values as a random data matrix and observe that the expectation of each row is equal to the vector of Kullback--Leibler divergences between the $K$ models and the true DGP, up to an additive constant. We use a multivariate normal model to estimate and quantify uncertainty in this expectation, providing calibrated inferences for robust model selection under misspecification. The procedure is easy to compute, interpretable, and comes with theoretical guarantees, including consistency.


翻译:模型选择是统计学中的核心任务,但标准方法在误设情境下并不稳健,即真实数据生成过程(DGP)不在候选模型集合中。现有方法(包括信息准则和贝叶斯后验)的关键局限在于,它们无法量化每个候选模型逼近真实DGP程度的不确定性。本文提出一种基于对似然值本身建模的新颖模型选择方法。具体而言,给定 $K$ 个候选模型和 $n$ 个观测值,我们将 $n\times K$ 的负对数似然值矩阵视为随机数据矩阵,并观察到每行的期望值等于 $K$ 个模型与真实DGP之间的Kullback--Leibler散度向量(相差一个加性常数)。我们采用多元正态模型来估计该期望值并量化其不确定性,从而为误设下的稳健模型选择提供校准推断。该方法计算简便、可解释性强,并具有理论保证(包括一致性)。

0
下载
关闭预览

相关内容

【NeurIPS2024】通过方差减少实现零样本模型的稳健微调
专知会员服务
19+阅读 · 2024年11月12日
【普林斯顿博士论文】理解数据在模型决策中的作用
专知会员服务
42+阅读 · 2024年4月26日
【MIT博士论文】基于数据的模型可靠性视角,322页pdf
专知会员服务
39+阅读 · 2024年3月25日
一文读懂机器学习模型的选择与取舍
DBAplus社群
13+阅读 · 2019年8月25日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
统计学常用数据类型
论智
19+阅读 · 2018年7月6日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【NeurIPS2024】通过方差减少实现零样本模型的稳健微调
专知会员服务
19+阅读 · 2024年11月12日
【普林斯顿博士论文】理解数据在模型决策中的作用
专知会员服务
42+阅读 · 2024年4月26日
【MIT博士论文】基于数据的模型可靠性视角,322页pdf
专知会员服务
39+阅读 · 2024年3月25日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员