Pretrained models are often evaluated on multi-task leaderboards to measure their applicability in diverse contexts. However, current methods for aggregating performance across tasks into leaderboard-level rankings do not address the uncertainty and variability at the task level. While recent works have proposed interval-based model rankings, the principled aggregation of uncertainty from individual tasks to leaderboard-level rankings remains unaddressed, and variation in models' performance across tasks is frequently obscured. In this work, we introduce a hierarchical framework that constructs model rank intervals with statistical guarantees at both levels: task-level rank confidence intervals from pairwise comparisons, and leaderboard-level rank prediction intervals using a conformal approach. This enables reliable quantification of model rank for each observed task and for new potential tasks. Experiments on simulated data and the TabArena and PromptEval (MMLU) benchmarks show that our method yields statistically valid and informative intervals, enabling reliable, uncertainty-aware model ranking on leaderboards.


翻译:预训练模型通常通过多任务排行榜来评估其在不同场景中的适用性。然而,当前将各任务性能汇总为排行榜级别排名的方法未能解决任务层面的不确定性与变异性。尽管近期研究提出了基于区间的模型排名方法,但如何原则性地将单个任务的不确定性聚合至排行榜级别排名的问题仍未得到解决,模型在不同任务上的性能差异也常被掩盖。本研究提出一种分层框架,该框架在统计保证下构建两个层面的模型排名区间:通过成对比较获得任务级别的排名置信区间,并利用共形方法构建排行榜级别的排名预测区间。这使得我们能够对每个已观测任务及潜在新任务的模型排名进行可靠量化。在模拟数据以及TabArena和PromptEval(MMLU)基准上的实验表明,该方法能生成统计有效且具有信息量的区间,从而实现排行榜上具有不确定性感知的可靠模型排名。

0
下载
关闭预览

相关内容

《在国家冲突建模中理解区域变量的分层聚类方法》
专知会员服务
21+阅读 · 2024年8月13日
清华大学《《SuperBench大模型综合能力评测报告》发布
专知会员服务
47+阅读 · 2024年4月20日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 今天14:45
定向能反无人机系统最新发展动态
专知会员服务
3+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
2+阅读 · 今天13:33
相关VIP内容
《在国家冲突建模中理解区域变量的分层聚类方法》
专知会员服务
21+阅读 · 2024年8月13日
清华大学《《SuperBench大模型综合能力评测报告》发布
专知会员服务
47+阅读 · 2024年4月20日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员