All Models Are Miscalibrated, But Some Less So: Comparing Calibration with Conditional Mean Operators - 专知论文

会员服务 ·

0

均值 · 概率预测 · 误差估计 · 度量 · 构建 ·

2025 年 12 月 17 日

All Models Are Miscalibrated, But Some Less So: Comparing Calibration with Conditional Mean Operators

翻译：所有模型都存在校准误差，但部分模型误差较小：基于条件均值算子的校准比较

Peter Moskvichev,Dino Sejdinovic

from arxiv, Australasian Joint Conference on Artificial Intelligence (2025)

When working in a high-risk setting, having well calibrated probabilistic predictive models is a crucial requirement. However, estimators for calibration error are not always able to correctly distinguish which model is better calibrated. We propose the \emph{conditional kernel calibration error} (CKCE) which is based on the Hilbert-Schmidt norm of the difference between conditional mean operators. By working directly with the definition of strong calibration as the distance between conditional distributions, which we represent by their embeddings in reproducing kernel Hilbert spaces, the CKCE is less sensitive to the marginal distribution of predictive models. This makes it more effective for relative comparisons than previously proposed calibration metrics. Our experiments, using both synthetic and real data, show that CKCE provides a more consistent ranking of models by their calibration error and is more robust against distribution shift.

翻译：在高风险应用场景中，具备良好校准能力的概率预测模型是至关重要的前提。然而，现有的校准误差估计量并不总能准确区分不同模型的校准优劣。本文提出基于条件均值算子希尔伯特-施密特范数差异的\\emph{条件核校准误差}（CKCE）度量方法。该方法直接依据强校准定义——即条件分布之间的距离进行构建，通过将条件分布嵌入再生核希尔伯特空间进行表征，使得CKCE对预测模型的边缘分布敏感性较低。相较于既有校准指标，该方法在相对比较中表现出更高有效性。我们通过合成数据与真实数据的实验表明，CKCE能够为模型校准误差提供更一致的排序结果，并对分布偏移具有更强的鲁棒性。

0

相关内容

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

专知会员服务

51+阅读 · 2025年11月21日

DeepSeek模型综述：V1 V2 V3 R1-Zero

DeepSeek模型综述：V1 V2 V3 R1-Zero

专知会员服务

116+阅读 · 2025年2月11日

【ICML2023】SEGA:结构熵引导的图对比学习锚视图

【ICML2023】SEGA:结构熵引导的图对比学习锚视图

专知会员服务

24+阅读 · 2023年5月10日

【CVPR2023】基于梯度不确定性归因的可解释贝叶斯深度学习

【CVPR2023】基于梯度不确定性归因的可解释贝叶斯深度学习

专知会员服务

42+阅读 · 2023年4月14日

【Reza Yazdanfar】基于递归神经网络的多元缺失值时间序列

【Reza Yazdanfar】基于递归神经网络的多元缺失值时间序列

专知会员服务

21+阅读 · 2022年3月16日

【ICML2021】元学习的分布依赖分析

专知会员服务

19+阅读 · 2021年8月15日

MonoGRNet：单目3D目标检测的通用框架（TPAMI2021）

MonoGRNet：单目3D目标检测的通用框架（TPAMI2021）

专知会员服务

18+阅读 · 2021年5月3日

【KDD2020】CAST:一种基于相关关系的多尺度数据自适应光谱聚类算法,CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data

【KDD2020】CAST:一种基于相关关系的多尺度数据自适应光谱聚类算法,CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data

专知会员服务

20+阅读 · 2020年6月11日

知识图谱嵌入模型的概率标定,Probability Calibration for Knowledge Graph Embedding Models

专知会员服务

36+阅读 · 2020年5月11日

Time2Vec：学习时间的向量表示，Time2Vec: Learning a Vector Representation of Time

Time2Vec：学习时间的向量表示，Time2Vec: Learning a Vector Representation of Time

专知会员服务

36+阅读 · 2020年5月10日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

NLG任务评价指标BLEU与ROUGE

NLG任务评价指标BLEU与ROUGE

AINLP

21+阅读 · 2020年5月25日

CVPR 2019：精确目标检测的不确定边界框回归

CVPR 2019：精确目标检测的不确定边界框回归

AI科技评论

13+阅读 · 2019年9月16日

误差反向传播——CNN

误差反向传播——CNN

统计学习与视觉计算组

31+阅读 · 2018年7月12日

使用CNN生成图像先验实现场景的盲图像去模糊

使用CNN生成图像先验实现场景的盲图像去模糊

统计学习与视觉计算组

10+阅读 · 2018年6月14日

论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG

论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG

开放知识图谱

36+阅读 · 2018年3月30日

斯坦福Jure Leskovec图表示学习：无监督和有监督方法（附PPT下载）

斯坦福Jure Leskovec图表示学习：无监督和有监督方法（附PPT下载）

专知

24+阅读 · 2017年12月17日

LibRec 每周算法：DeepFM

LibRec 每周算法：DeepFM

LibRec智能推荐

14+阅读 · 2017年11月6日

在TensorFlow中对比两大生成模型：VAE与GAN

在TensorFlow中对比两大生成模型：VAE与GAN

机器之心

12+阅读 · 2017年10月23日

SSD: Single Shot MultiBox Detector 深度学习笔记之SSD物体检测模型

SSD: Single Shot MultiBox Detector 深度学习笔记之SSD物体检测模型

AI研习社

18+阅读 · 2017年8月31日

不确定分数阶非线性系统Mittag-Leffler自适应控制

国家自然科学基金

1+阅读 · 2016年12月31日

粗糙回归模型与算法研究

国家自然科学基金

8+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

考虑材料分布不确定性的结构拓扑优化问题数学建模与求解方法

国家自然科学基金

0+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

Berezin变换及相关的算子理论

国家自然科学基金

1+阅读 · 2014年12月31日

随机系数和带跳的线性随机微分系统的H2/H∞控制

国家自然科学基金

0+阅读 · 2014年12月31日

函数空间、几何和Mahler测度

国家自然科学基金

0+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

随机Helmholtz型问题的数值方法

国家自然科学基金

0+阅读 · 2014年12月31日

DeepSeek-V3 Technical Report

Arxiv

18+阅读 · 2024年12月27日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

176+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

43+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

111+阅读 · 2023年4月11日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

87+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

501+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

155+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

64+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

83+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

182+阅读 · 2023年3月24日

VIP会员

文章信息

相关主题

最新内容

《美国首席数字与人工智能办公室（CDAO）人工智能治理与采办流程效能评估》报告

《美国首席数字与人工智能办公室（CDAO）人工智能治理与采办流程效能评估》报告

专知会员服务

2+阅读 · 今天3:36

算法战加速推进：五角大楼项目、供应商生态体系与军事创新的战略重塑

算法战加速推进：五角大楼项目、供应商生态体系与军事创新的战略重塑

专知会员服务

1+阅读 · 今天3:23

探秘Palantir：驱动美情报的科技巨头

探秘Palantir：驱动美情报的科技巨头

专知会员服务

2+阅读 · 今天3:14

《从技术突破到战场应用：发挥原型开发效能的最佳实践》报告

《从技术突破到战场应用：发挥原型开发效能的最佳实践》报告

专知会员服务

3+阅读 · 今天3:09

《美国海军军事海运司令部 2026年手册》

《美国海军军事海运司令部 2026年手册》

专知会员服务

2+阅读 · 今天3:05

别再只盯着“杀手机器人”了：人工智能真正变革现代战争的三种方式

别再只盯着“杀手机器人”了：人工智能真正变革现代战争的三种方式

专知会员服务

1+阅读 · 今天2:36

《人工智能使能系统可靠性框架》

《人工智能使能系统可靠性框架》

专知会员服务

5+阅读 · 今天2:28

2026“人工智能+”行业发展蓝皮书（附下载）

2026“人工智能+”行业发展蓝皮书（附下载）

专知会员服务

14+阅读 · 4月26日

《强化学习数学基础》

《强化学习数学基础》

专知会员服务

10+阅读 · 4月26日

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

专知会员服务

7+阅读 · 4月26日

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

专知会员服务

6+阅读 · 4月26日

深入Maven智能系统：Palantir基于Claude打造的军事大脑

深入Maven智能系统：Palantir基于Claude打造的军事大脑

专知会员服务

12+阅读 · 4月26日

“Maven计划”的发展演变之“Maven智能系统”应用

“Maven计划”的发展演变之“Maven智能系统”应用

专知会员服务

10+阅读 · 4月26日

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

专知会员服务

7+阅读 · 4月26日

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

专知会员服务

9+阅读 · 4月26日

相关VIP内容

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

专知会员服务

51+阅读 · 2025年11月21日

DeepSeek模型综述：V1 V2 V3 R1-Zero

DeepSeek模型综述：V1 V2 V3 R1-Zero

专知会员服务

116+阅读 · 2025年2月11日

【ICML2023】SEGA:结构熵引导的图对比学习锚视图

【ICML2023】SEGA:结构熵引导的图对比学习锚视图

专知会员服务

24+阅读 · 2023年5月10日

【CVPR2023】基于梯度不确定性归因的可解释贝叶斯深度学习

【CVPR2023】基于梯度不确定性归因的可解释贝叶斯深度学习

专知会员服务

42+阅读 · 2023年4月14日

【Reza Yazdanfar】基于递归神经网络的多元缺失值时间序列

【Reza Yazdanfar】基于递归神经网络的多元缺失值时间序列

专知会员服务

21+阅读 · 2022年3月16日

【ICML2021】元学习的分布依赖分析

专知会员服务

19+阅读 · 2021年8月15日

MonoGRNet：单目3D目标检测的通用框架（TPAMI2021）

MonoGRNet：单目3D目标检测的通用框架（TPAMI2021）

专知会员服务

18+阅读 · 2021年5月3日

【KDD2020】CAST:一种基于相关关系的多尺度数据自适应光谱聚类算法,CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data

【KDD2020】CAST:一种基于相关关系的多尺度数据自适应光谱聚类算法,CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data

专知会员服务

20+阅读 · 2020年6月11日

知识图谱嵌入模型的概率标定,Probability Calibration for Knowledge Graph Embedding Models

专知会员服务

36+阅读 · 2020年5月11日

Time2Vec：学习时间的向量表示，Time2Vec: Learning a Vector Representation of Time

Time2Vec：学习时间的向量表示，Time2Vec: Learning a Vector Representation of Time

专知会员服务

36+阅读 · 2020年5月10日

热门VIP内容

开通专知VIP会员享更多权益服务

算法战加速推进：五角大楼项目、供应商生态体系与军事创新的战略重塑

《从技术突破到战场应用：发挥原型开发效能的最佳实践》报告

《美国首席数字与人工智能办公室（CDAO）人工智能治理与采办流程效能评估》报告

探秘Palantir：驱动美情报的科技巨头

相关资讯

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

NLG任务评价指标BLEU与ROUGE

NLG任务评价指标BLEU与ROUGE

AINLP

21+阅读 · 2020年5月25日

CVPR 2019：精确目标检测的不确定边界框回归

CVPR 2019：精确目标检测的不确定边界框回归

AI科技评论

13+阅读 · 2019年9月16日

误差反向传播——CNN

误差反向传播——CNN

统计学习与视觉计算组

31+阅读 · 2018年7月12日

使用CNN生成图像先验实现场景的盲图像去模糊

使用CNN生成图像先验实现场景的盲图像去模糊

统计学习与视觉计算组

10+阅读 · 2018年6月14日

论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG

论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG

开放知识图谱

36+阅读 · 2018年3月30日

斯坦福Jure Leskovec图表示学习：无监督和有监督方法（附PPT下载）

斯坦福Jure Leskovec图表示学习：无监督和有监督方法（附PPT下载）

专知

24+阅读 · 2017年12月17日

LibRec 每周算法：DeepFM

LibRec 每周算法：DeepFM

LibRec智能推荐

14+阅读 · 2017年11月6日

在TensorFlow中对比两大生成模型：VAE与GAN

在TensorFlow中对比两大生成模型：VAE与GAN

机器之心

12+阅读 · 2017年10月23日

SSD: Single Shot MultiBox Detector 深度学习笔记之SSD物体检测模型

SSD: Single Shot MultiBox Detector 深度学习笔记之SSD物体检测模型

AI研习社

18+阅读 · 2017年8月31日

相关论文

DeepSeek-V3 Technical Report

Arxiv

18+阅读 · 2024年12月27日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

176+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

43+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

111+阅读 · 2023年4月11日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

87+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

501+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

155+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

64+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

83+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

182+阅读 · 2023年3月24日

相关基金

不确定分数阶非线性系统Mittag-Leffler自适应控制

国家自然科学基金

1+阅读 · 2016年12月31日

粗糙回归模型与算法研究

国家自然科学基金

8+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

考虑材料分布不确定性的结构拓扑优化问题数学建模与求解方法

国家自然科学基金

0+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

Berezin变换及相关的算子理论

国家自然科学基金

1+阅读 · 2014年12月31日

随机系数和带跳的线性随机微分系统的H2/H∞控制

国家自然科学基金

0+阅读 · 2014年12月31日

函数空间、几何和Mahler测度

国家自然科学基金

0+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

随机Helmholtz型问题的数值方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员