We make two contributions to the problem of estimating the $L_1$ calibration error of a binary classifier from a finite dataset. First, we provide an upper bound for any classifier where the calibration function has bounded variation. Second, we provide a method of modifying any classifier so that its calibration error can be upper bounded efficiently without significantly impacting classifier performance and without any restrictive assumptions. All our results are non-asymptotic and distribution-free. We conclude by providing advice on how to measure calibration error in practice. Our methods yield practical procedures that can be run on real-world datasets with modest overhead.


翻译:本文针对从有限数据集中估计二元分类器的$L_1$校准误差问题做出两项贡献。首先,我们为任何校准函数具有有界变差的分类器提供了一个上界。其次,我们提出了一种修改任意分类器的方法,使得其校准误差能够被高效地上界估计,同时不会显著影响分类器性能,且无需任何限制性假设。我们所有的结果均为非渐近且与分布无关的。最后,我们提供了关于实践中如何度量校准误差的建议。我们的方法产生了可在现实世界数据集上以适度开销运行的实用流程。

0
下载
关闭预览

相关内容

分类是数据挖掘的一种非常重要的方法。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型(即我们通常所说的分类器(Classifier))。该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个,从而可以应用于数据预测。总之,分类器是数据挖掘中对样本进行分类的方法的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。
专知会员服务
33+阅读 · 2021年7月27日
专知会员服务
12+阅读 · 2021年6月20日
专知会员服务
29+阅读 · 2020年10月2日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月5日
VIP会员
相关VIP内容
专知会员服务
33+阅读 · 2021年7月27日
专知会员服务
12+阅读 · 2021年6月20日
专知会员服务
29+阅读 · 2020年10月2日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员