Tabular foundation models such as TabPFN and TabICL already produce full predictive distributions, yet prevailing regression benchmarks evaluate them almost exclusively via point-estimate metrics (RMSE, $R^2$). This discards precisely the distributional information these models are designed to provide - a critical gap for high-stakes domains where not all kinds of errors are equally costly. We introduce ScoringBench, an open and extensible benchmark that evaluates tabular regression models under a comprehensive suite of proper scoring rules - including CRPS, CRLS, interval score, energy score, and weighted CRPS - alongside standard point metrics. ScoringBench covers 97 regression datasets from diverse domains, supports transparent community contributions via a git-based leaderboard, and provides two complementary ranking protocols: an ordinal Demsar/autorank approach and a magnitude-preserving z-score ranking approach. Evaluating several models - spanning in-context learners, fine-tuned foundation models, gradient-boosted trees, and MLPs - we find that model rankings shift substantially depending on the scoring rule: models that excel on point-estimate metrics can rank poorly on probabilistic ones, and the top-performing model under one proper scoring rule may rank noticeably lower under another. These results demonstrate that the choice of evaluation metric is not a technicality but a modelling decision - and, for applications where e.g. tail errors are disproportionately costly, a domain-specific requirement with direct consequences for model deployment.


翻译:诸如TabPFN和TabICL等表格基础模型已具备生成完整预测分布的能力,然而现有的回归评测基准几乎完全依赖点估计指标(RMSE、$R^2$)进行评估。这恰恰丢弃了这些模型旨在提供的分布信息——对于各类错误代价不等的关键领域而言,这构成了重大短板。我们提出ScoringBench——一个开放可扩展的基准测试,它通过全面的恰当评分规则套件(包括CRPS、CRLS、区间评分、能量评分及加权CRPS)以及标准点指标,对表格回归模型进行评估。ScoringBench涵盖来自不同领域的97个回归数据集,支持基于git排行榜的透明社区贡献,并提供两种互补的排名方案:基于德姆萨尔/奥托兰克方法的序数排名与保持量级差异的z分数排名。通过对上下文学习器、微调基础模型、梯度提升树及多层感知机等多种模型进行评估,我们发现模型排名会随评分规则显著变化:在点估计指标上表现优异的模型可能在概率性指标上排名靠后,而同一恰当评分规则下的最优模型在另一规则下可能排名明显降低。这些结果表明,评估指标的选择并非技术细节,而是一个建模决策——对于尾部错误代价尤为高昂的应用场景,这更是直接影响模型部署的领域特定需求。

0
下载
关闭预览

相关内容

军事决策大语言模型综合评价基准
专知会员服务
20+阅读 · 4月1日
大语言模型基准综述
专知会员服务
27+阅读 · 2025年8月22日
数据分析师应该知道的16种回归方法:泊松回归
数萃大数据
35+阅读 · 2018年9月13日
[推荐] 这些年,我用过的点击率(CTR)预估模型!!!
菜鸟的机器学习
28+阅读 · 2017年7月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员