Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules - 专知论文

会员服务 ·

0

评分规则 · 分布回归 · 概率预测 · 基准 · 基准测试 ·

Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

翻译：基于表格基础模型的分布回归：通过恰当评分规则评估概率预测

Jonas Landsgesell,Pascal Knoll

Tabular foundation models such as TabPFN and TabICL already produce full predictive distributions, yet the benchmarks used to evaluate them (TabArena, TALENT, and others) still rely almost exclusively on point-estimate metrics (RMSE, $R^2$). This mismatch implicitly rewards models that elicit a good conditional mean while ignoring the quality of the predicted distribution. We make two contributions. First, we propose supplementing standard point metrics with proper scoring rules (CRPS, CRLS, and the Interval Score) and provide a head-to-head comparison of realTabPFNv2.5 and TabICLv2 with regards to some proper scoring rules across 20 OpenML regression datasets. Second, we show analytically and empirically that different proper scoring rules induce different model rankings and different inductive biases during training, even though each rule is individually minimized by the true distribution. Fine-tuning realTabPFNv2.5 with scoring rules not seen during pretraining (CRLS, $β=1.8$ energy score) yields consistent improvements on the corresponding metrics, confirming that the training loss shapes the model beyond what propriety alone guarantees. Together, these findings argue for (i) reporting distributional metrics in tabular regression benchmarks and (ii) making the training objective of foundation models adaptable (via fine-tuning or task-token conditioning) to the scoring rule relevant to the downstream decision problem.

翻译：诸如TabPFN和TabICL等表格基础模型已能生成完整的预测分布，然而用于评估它们的基准测试（TabArena、TALENT等）仍几乎完全依赖点估计指标（RMSE、$R^2$）。这种不匹配隐式地奖励那些能产生良好条件均值但忽略预测分布质量的模型。我们做出两项贡献。首先，我们建议用恰当评分规则（CRPS、CRLS及区间评分）补充标准点估计指标，并在20个OpenML回归数据集上对realTabPFNv2.5和TabICLv2就部分恰当评分规则进行了直接比较。其次，我们从分析和实证角度证明，不同的恰当评分规则会诱导不同的模型排序和训练过程中的不同归纳偏好，尽管每个规则本身均被真实分布最小化。使用预训练期间未见的评分规则（CRLS、$β=1.8$能量评分）对realTabPFNv2.5进行微调，可在相应指标上获得一致改进，这证实训练损失对模型的塑造作用超出了恰当性本身所保证的范围。综上，这些发现主张：（i）在表格回归基准测试中报告分布度量指标；（ii）通过微调或任务令牌调节，使基础模型的训练目标能适配下游决策问题相关的评分规则。

0

相关内容

评分规则

图基础模型中的分布外（Out-of-Distribution）泛化研究

图基础模型中的分布外（Out-of-Distribution）泛化研究

专知会员服务

12+阅读 · 1月31日

【AAAI2026】《SimDiff：用于时间序列点预测的更简单但更优的扩散模型》

【AAAI2026】《SimDiff：用于时间序列点预测的更简单但更优的扩散模型》

专知会员服务

14+阅读 · 2025年11月25日

【斯坦福博士论文】基础模型的数据分布视角，321页pdf

【斯坦福博士论文】基础模型的数据分布视角，321页pdf

专知会员服务

42+阅读 · 2024年7月8日

【牛津大学博士论文】基于评分规则的生成模型统计推断, 274页pdf

【牛津大学博士论文】基于评分规则的生成模型统计推断, 274页pdf

专知会员服务

40+阅读 · 2023年7月5日

【伯克利博士论文】预测与反馈回路中的统计推断, 234页pdf

【伯克利博士论文】预测与反馈回路中的统计推断, 234页pdf

专知会员服务

30+阅读 · 2023年5月9日

【西湖大学】图预训练方法体系综述，A Survey of Pre-training on Graphs: Taxonomy, Methods and Applications

【西湖大学】图预训练方法体系综述，A Survey of Pre-training on Graphs: Taxonomy, Methods and Applications

专知会员服务

43+阅读 · 2022年3月25日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【CMU博士论文】面向分布偏移的自然语言处理学习神经模型，148页pdf

专知会员服务

38+阅读 · 2021年9月7日

知识图谱嵌入模型的概率标定,Probability Calibration for Knowledge Graph Embedding Models

专知会员服务

36+阅读 · 2020年5月11日

【干货】面向深度学习研究者的概率分布基础教程（附代码），庆熙大学| Tae Hwan Jung

【干货】面向深度学习研究者的概率分布基础教程（附代码），庆熙大学| Tae Hwan Jung

专知会员服务

36+阅读 · 2019年9月9日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

面向深度学习研究者的*概率分布*基础教程（附代码）

面向深度学习研究者的*概率分布*基础教程（附代码）

专知

10+阅读 · 2019年9月9日

使用 Bert 预训练模型文本分类（内附源码）

使用 Bert 预训练模型文本分类（内附源码）

数据库开发

102+阅读 · 2019年3月12日

数据分析师应该知道的16种回归方法：泊松回归

数据分析师应该知道的16种回归方法：泊松回归

数萃大数据

35+阅读 · 2018年9月13日

数据分析师应该知道的16种回归技术：偏最小二乘回归

数据分析师应该知道的16种回归技术：偏最小二乘回归

数萃大数据

14+阅读 · 2018年8月29日

【干货】机器学习中的五种回归模型及其优缺点

【干货】机器学习中的五种回归模型及其优缺点

专知

21+阅读 · 2018年3月29日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

[推荐] 这些年，我用过的点击率（CTR）预估模型！！！

[推荐] 这些年，我用过的点击率（CTR）预估模型！！！

菜鸟的机器学习

28+阅读 · 2017年7月31日

回归预测&时间序列预测

回归预测&时间序列预测

GBASE数据工程部数据团队

44+阅读 · 2017年5月17日

分布无关的概率图模型结构学习方法的研究

国家自然科学基金

4+阅读 · 2015年12月31日

半参数回归模型中随机误差分布的检验问题

国家自然科学基金

2+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基因表达随机调控的数学模型及动态分析

国家自然科学基金

0+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

一般误差分布下若干半参数模型的复合分位数方法

国家自然科学基金

0+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

Kantorovich Regression Analysis of Random Distributions with Mixed Predictors

Arxiv

0+阅读 · 3月9日

Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

Arxiv

0+阅读 · 3月9日

Sequential Regression for Continuous Value Prediction using Residual Quantization

Arxiv

0+阅读 · 2月26日

Distribution-informed Online Conformal Prediction

Arxiv

0+阅读 · 2月24日

TabICLv2: A better, faster, scalable, and open tabular foundation model

Arxiv

0+阅读 · 2月11日

Computing Conditional Shapley Values Using Tabular Foundation Models

Arxiv

0+阅读 · 2月10日

TabPFN-2.5: Advancing the State of the Art in Tabular Foundation Models

Arxiv

0+阅读 · 2月5日

A principled framework for uncertainty decomposition in TabPFN

Arxiv

0+阅读 · 2月4日

Distribution-informed Efficient Conformal Prediction for Full Ranking

Arxiv

0+阅读 · 1月30日

Generative and Nonparametric Approaches for Conditional Distribution Estimation: Methods, Perspectives, and Comparative Evaluations

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

专知会员服务

0+阅读 · 今天15:20

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

1+阅读 · 今天15:17

伊朗的导弹-无人机行动及其对美国威慑的影响

伊朗的导弹-无人机行动及其对美国威慑的影响

专知会员服务

3+阅读 · 今天13:05

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

专知会员服务

2+阅读 · 今天13:00

战争贩子：2026年第一季度美国对中东潜在军售激增

战争贩子：2026年第一季度美国对中东潜在军售激增

专知会员服务

0+阅读 · 今天12:47

【CVPR Oral 2026】LILA：从无标签视频中学习像素级时空一致表示

【CVPR Oral 2026】LILA：从无标签视频中学习像素级时空一致表示

专知会员服务

7+阅读 · 5月3日

【综述】基于大语言模型的对话用户模拟综述

【综述】基于大语言模型的对话用户模拟综述

专知会员服务

6+阅读 · 5月3日

《美战争部人工智能应用用例评估：人类专家与大型语言模型比较》

《美战争部人工智能应用用例评估：人类专家与大型语言模型比较》

专知会员服务

10+阅读 · 5月3日

《无人机与大规模齐射攻击：美国-以色列的经验教训》

《无人机与大规模齐射攻击：美国-以色列的经验教训》

专知会员服务

14+阅读 · 5月3日

《再入飞行器轨迹分析与性能工具的开发及其在SpaceX星舰™上的应用》227页

《再入飞行器轨迹分析与性能工具的开发及其在SpaceX星舰™上的应用》227页

专知会员服务

5+阅读 · 5月3日

《军事人工智能中的法律、伦理和技术困境》338页书籍

《军事人工智能中的法律、伦理和技术困境》338页书籍

专知会员服务

3+阅读 · 5月3日

首场人工智能战争：美军在伊朗对无人机、无人水面艇、无人潜航器、人工智能及商业航天技术的运用

首场人工智能战争：美军在伊朗对无人机、无人水面艇、无人潜航器、人工智能及商业航天技术的运用

专知会员服务

5+阅读 · 5月3日

反无人机措施与海湾局势：乌克兰战争对抗无人机的经验教训

反无人机措施与海湾局势：乌克兰战争对抗无人机的经验教训

专知会员服务

11+阅读 · 5月2日

【CVPR 2026】语义泡沫：统一空间与语义场景分解

【CVPR 2026】语义泡沫：统一空间与语义场景分解

专知会员服务

8+阅读 · 5月2日

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

专知会员服务

9+阅读 · 5月2日

相关VIP内容

图基础模型中的分布外（Out-of-Distribution）泛化研究

图基础模型中的分布外（Out-of-Distribution）泛化研究

专知会员服务

12+阅读 · 1月31日

【AAAI2026】《SimDiff：用于时间序列点预测的更简单但更优的扩散模型》

【AAAI2026】《SimDiff：用于时间序列点预测的更简单但更优的扩散模型》

专知会员服务

14+阅读 · 2025年11月25日

【斯坦福博士论文】基础模型的数据分布视角，321页pdf

【斯坦福博士论文】基础模型的数据分布视角，321页pdf

专知会员服务

42+阅读 · 2024年7月8日

【牛津大学博士论文】基于评分规则的生成模型统计推断, 274页pdf

【牛津大学博士论文】基于评分规则的生成模型统计推断, 274页pdf

专知会员服务

40+阅读 · 2023年7月5日

【伯克利博士论文】预测与反馈回路中的统计推断, 234页pdf

【伯克利博士论文】预测与反馈回路中的统计推断, 234页pdf

专知会员服务

30+阅读 · 2023年5月9日

【西湖大学】图预训练方法体系综述，A Survey of Pre-training on Graphs: Taxonomy, Methods and Applications

【西湖大学】图预训练方法体系综述，A Survey of Pre-training on Graphs: Taxonomy, Methods and Applications

专知会员服务

43+阅读 · 2022年3月25日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【CMU博士论文】面向分布偏移的自然语言处理学习神经模型，148页pdf

专知会员服务

38+阅读 · 2021年9月7日

知识图谱嵌入模型的概率标定,Probability Calibration for Knowledge Graph Embedding Models

专知会员服务

36+阅读 · 2020年5月11日

【干货】面向深度学习研究者的概率分布基础教程（附代码），庆熙大学| Tae Hwan Jung

【干货】面向深度学习研究者的概率分布基础教程（附代码），庆熙大学| Tae Hwan Jung

专知会员服务

36+阅读 · 2019年9月9日

热门VIP内容

开通专知VIP会员享更多权益服务

【综述】机器人学习中的世界模型：全面综述

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

伊朗的导弹-无人机行动及其对美国威慑的影响

相关资讯

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

面向深度学习研究者的*概率分布*基础教程（附代码）

面向深度学习研究者的*概率分布*基础教程（附代码）

专知

10+阅读 · 2019年9月9日

使用 Bert 预训练模型文本分类（内附源码）

使用 Bert 预训练模型文本分类（内附源码）

数据库开发

102+阅读 · 2019年3月12日

数据分析师应该知道的16种回归方法：泊松回归

数据分析师应该知道的16种回归方法：泊松回归

数萃大数据

35+阅读 · 2018年9月13日

数据分析师应该知道的16种回归技术：偏最小二乘回归

数据分析师应该知道的16种回归技术：偏最小二乘回归

数萃大数据

14+阅读 · 2018年8月29日

【干货】机器学习中的五种回归模型及其优缺点

【干货】机器学习中的五种回归模型及其优缺点

专知

21+阅读 · 2018年3月29日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

[推荐] 这些年，我用过的点击率（CTR）预估模型！！！

[推荐] 这些年，我用过的点击率（CTR）预估模型！！！

菜鸟的机器学习

28+阅读 · 2017年7月31日

回归预测&时间序列预测

回归预测&时间序列预测

GBASE数据工程部数据团队

44+阅读 · 2017年5月17日

相关论文

Kantorovich Regression Analysis of Random Distributions with Mixed Predictors

Arxiv

0+阅读 · 3月9日

Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

Arxiv

0+阅读 · 3月9日

Sequential Regression for Continuous Value Prediction using Residual Quantization

Arxiv

0+阅读 · 2月26日

Distribution-informed Online Conformal Prediction

Arxiv

0+阅读 · 2月24日

TabICLv2: A better, faster, scalable, and open tabular foundation model

Arxiv

0+阅读 · 2月11日

Computing Conditional Shapley Values Using Tabular Foundation Models

Arxiv

0+阅读 · 2月10日

TabPFN-2.5: Advancing the State of the Art in Tabular Foundation Models

Arxiv

0+阅读 · 2月5日

A principled framework for uncertainty decomposition in TabPFN

Arxiv

0+阅读 · 2月4日

Distribution-informed Efficient Conformal Prediction for Full Ranking

Arxiv

0+阅读 · 1月30日

Generative and Nonparametric Approaches for Conditional Distribution Estimation: Methods, Perspectives, and Comparative Evaluations

Arxiv

0+阅读 · 1月30日

相关基金

分布无关的概率图模型结构学习方法的研究

国家自然科学基金

4+阅读 · 2015年12月31日

半参数回归模型中随机误差分布的检验问题

国家自然科学基金

2+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基因表达随机调控的数学模型及动态分析

国家自然科学基金

0+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

一般误差分布下若干半参数模型的复合分位数方法

国家自然科学基金

0+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员