The rapid proliferation of benchmarks for evaluating large language models (LLMs) has created an urgent need for systematic methods to assess benchmark quality itself. We propose Benchmark^2, a comprehensive framework comprising three complementary metrics: (1) Cross-Benchmark Ranking Consistency, measuring whether a benchmark produces model rankings aligned with peer benchmarks; (2) Discriminability Score, quantifying a benchmark's ability to differentiate between models; and (3) Capability Alignment Deviation, identifying problematic instances where stronger models fail but weaker models succeed within the same model family. We conduct extensive experiments across 15 benchmarks spanning mathematics, reasoning, and knowledge domains, evaluating 11 LLMs across four model families. Our analysis reveals significant quality variations among existing benchmarks and demonstrates that selective benchmark construction based on our metrics can achieve comparable evaluation performance with substantially reduced test sets.


翻译:大型语言模型(LLM)评估基准的快速激增,催生了对系统性评估基准本身质量方法的迫切需求。我们提出了Benchmark^2,一个包含三个互补指标的综合性框架:(1)跨基准排名一致性,用于衡量一个基准产生的模型排名是否与同类基准一致;(2)区分度分数,用于量化一个基准区分不同模型的能力;(3)能力对齐偏差,用于识别同一模型家族内更强模型失败而更弱模型成功的异常实例。我们在涵盖数学、推理和知识领域的15个基准上进行了广泛的实验,评估了来自四个模型家族的11个LLM。我们的分析揭示了现有基准之间存在显著的质量差异,并证明了基于我们的指标进行选择性基准构建,能够以大幅缩减的测试集实现可比的评估性能。

0
下载
关闭预览

相关内容

大语言模型基准综述
专知会员服务
25+阅读 · 2025年8月22日
大语言模型智能体的评估与基准:综述
专知会员服务
46+阅读 · 2025年7月31日
迈向LLM时代的可泛化评估:超越基准的综述
专知会员服务
22+阅读 · 2025年4月29日
如何检测LLM内容?UCSB等最新首篇《LLM生成内容检测》综述
推荐系统(一):推荐系统基础
菜鸟的机器学习
25+阅读 · 2019年9月2日
基于模型系统的系统设计
科技导报
10+阅读 · 2019年4月25日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
推荐|上交大推出Texygen:文本生成模型的基准测试平台
NLP自然语言处理(二)——基础文本分析
乐享数据DataScientists
12+阅读 · 2017年2月7日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员