Two methodologies dominate current practices of benchmarking: rubric-based scoring evaluates items against predefined criteria, whereas comparative judgment elicits pairwise preferences between outputs. Although both methodologies are widely used, the choice between them is rarely justified. We release JudgmentBench, a benchmark of 30 real-world legal tasks, paired with 1,539 rubric scores and 1,530 pairwise preference judgments collected from practicing attorneys--including at major U.S. law firms--with substantial experience. The annotations constitute the first publicly available dataset in a high-expertise domain in which both supervision signals are elicited from the same experts on the same items. Using LLM-generated outputs at three constructed quality levels, we provide an initial empirical comparison: comparative judgments recover the intended quality ordering substantially better than rubrics under both a per-task rank-correlation metric (mean Spearman's rank correlation of 0.908 vs. 0.150, estimated difference = 0.758 [0.494, 1.021]) and a per-judgment pairwise win-rate metric (0.669 vs. 0.542, estimated difference = 0.127 [0.067, 0.186]), while requiring less than half the annotation time. The patterns hold for human annotators and LLM autograders. Beyond this initial comparison, the paired structure of the dataset supports a broader research agenda on how expert judgment should be elicited, aggregated, and used as supervision in domains without verifiable ground truth.


翻译:摘要:当前基准测评实践主要依赖两种方法论:基于评分标准的评估(根据预定义准则对项目打分)与比较判断(通过输出间的两两偏好比较)。尽管两种方法被广泛使用,但选择依据鲜有论证。我们发布 JudgmentBench——包含30个真实法律任务的基准数据集,附带由执业律师(包括美国顶级律所律师)提供的1,539项评分标准分数与1,530项两两偏好判断,所有标注者均具有丰富从业经验。这是首个在高度专业化领域公开的数据集——同一专家针对相同项目同时提供两种监督信号。通过采用大语言模型在三个质量层级生成的输出,我们开展初步实证比较:在每项任务的秩相关性指标(平均斯皮尔曼秩相关系数0.908 vs 0.150,估计差异=0.758 [0.494, 1.021])和每次判断的成对胜率指标(0.669 vs 0.542,估计差异=0.127 [0.067, 0.186])下,比较判断恢复预设质量排序的效果显著优于评分标准,且标注时间减少过半。该规律在人工标注与LLM自动评分场景中均成立。除初步比较外,数据集的配对结构为更广泛的研究议题奠定基础——在缺乏可验证真相的领域中,如何收集、聚合专家判断并作为监督信号使用。

0
下载
关闭预览

相关内容

专知会员服务
26+阅读 · 2021年9月9日
最新《对比监督学习》综述论文,20页pdf
专知会员服务
87+阅读 · 2020年11月5日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
对比自监督学习
深度学习自然语言处理
35+阅读 · 2020年7月15日
多因素问题分析时,如何确立各因素权重?
人人都是产品经理
75+阅读 · 2020年3月4日
一行命令搞定图像质量评价
计算机视觉life
12+阅读 · 2019年12月31日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
综述:深度学习时代的目标检测算法
极市平台
27+阅读 · 2018年3月17日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月26日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
2+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
专知会员服务
26+阅读 · 2021年9月9日
最新《对比监督学习》综述论文,20页pdf
专知会员服务
87+阅读 · 2020年11月5日
相关资讯
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
对比自监督学习
深度学习自然语言处理
35+阅读 · 2020年7月15日
多因素问题分析时,如何确立各因素权重?
人人都是产品经理
75+阅读 · 2020年3月4日
一行命令搞定图像质量评价
计算机视觉life
12+阅读 · 2019年12月31日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
综述:深度学习时代的目标检测算法
极市平台
27+阅读 · 2018年3月17日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员