Machine-generated probability predictions are essential in modern classification tasks such as image classification. A model is well calibrated when its predicted probabilities correspond to observed event frequencies. Despite the need for multicategory recalibration methods, existing methods are limited to (i) comparing calibration between two or more models rather than directly assessing the calibration of a single model, (ii) requiring under-the-hood model access, e.g., accessing logit-scale predictions within the layers of a neural network, and (iii) providing output which is difficult for human analysts to understand. To overcome (i)-(iii), we propose Multicategory Linear Log Odds (MCLLO) recalibration, which (i) includes a likelihood ratio hypothesis test to assess calibration, (ii) does not require under-the-hood access to models and is thus applicable on a wide range of classification problems, and (iii) can be easily interpreted. We demonstrate the effectiveness of the MCLLO method through simulations and three real-world case studies involving image classification via convolutional neural network, obesity analysis via random forest, and ecology via regression modeling. We compare MCLLO to four comparator recalibration techniques utilizing both our hypothesis test and the existing calibration metric Expected Calibration Error to show that our method works well alone and in concert with other methods.


翻译:机器生成的概率预测在现代分类任务(如图像分类)中至关重要。当模型的预测概率与观测到的事件频率相符时,该模型被认为是良好校准的。尽管多类别再校准方法存在需求,但现有方法局限于:(i)比较两个或多个模型之间的校准程度,而非直接评估单个模型的校准;(ii)需要底层模型访问权限,例如访问神经网络层内的对数几率尺度预测;(iii)提供的输出结果难以被人类分析者理解。为克服(i)至(iii)的局限,我们提出了多类别线性对数几率(MCLLO)再校准方法,该方法(i)包含用于评估校准程度的似然比假设检验;(ii)无需底层模型访问权限,因而可广泛应用于各类分类问题;(iii)易于解释。我们通过仿真实验及三个真实案例研究(包括基于卷积神经网络的图像分类、基于随机森林的肥胖症分析以及基于回归模型的生态学研究)验证了MCLLO方法的有效性。我们利用本文提出的假设检验及现有校准指标——期望校准误差,将MCLLO与四种对比再校准技术进行比较,结果表明我们的方法既能独立有效工作,也能与其他方法协同使用。

0
下载
关闭预览

相关内容

【斯坦福博士论文】概率机器学习中的不确定性原理
专知会员服务
27+阅读 · 2025年8月4日
对比预训练和多模态生成式人工智能的统计理论
专知会员服务
22+阅读 · 2025年1月12日
机器学习领域必知必会的12种概率分布(附Python代码实现)
算法与数学之美
21+阅读 · 2019年10月18日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
概率图模型体系:HMM、MEMM、CRF
机器学习研究会
30+阅读 · 2018年2月10日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
最新内容
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
0+阅读 · 今天14:22
《新兴技术武器化及其对全球风险的影响》
专知会员服务
8+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
21+阅读 · 4月29日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员