Measuring long-run LLM outcomes (user satisfaction, expert judgment, downstream KPIs) is expensive. Teams default to cheap LLM judges, but uncalibrated proxies can invert rankings entirely. Causal Judge Evaluation (CJE) makes it affordable to aim at the right target: calibrate cheap scores against 5% oracle labels, then evaluate at scale with valid uncertainty. On 4,961 Arena prompts, CJE achieves 99% ranking accuracy at 14x lower cost. Key findings: naive confidence intervals on uncalibrated scores achieve 0% coverage (CJE: ~95%); importance-weighted estimators fail despite 90%+ effective sample size. We introduce the Coverage-Limited Efficiency (CLE) diagnostic explaining why. CJE combines mean-preserving calibration (AutoCal-R), weight stabilization (SIMCal-W), and bootstrap inference that propagates calibration uncertainty (OUA), grounded in semiparametric efficiency theory.


翻译:衡量大语言模型(LLM)的长期结果(用户满意度、专家评判、下游关键绩效指标)成本高昂。研究团队通常采用廉价的大语言模型评判者,但未经校准的代理指标可能完全颠倒排名结果。因果评判评估(CJE)使得瞄准正确目标变得经济可行:首先利用5%的黄金标准标签对廉价评分进行校准,随后通过有效的不确定性度量进行大规模评估。在4,961个Arena提示数据集上,CJE以降低14倍的成本实现了99%的排名准确率。关键发现:基于未校准评分的朴素置信区间覆盖率为0%(CJE:约95%);重要性加权估计量在有效样本量超过90%的情况下依然失效。我们提出了覆盖率受限效率(CLE)诊断指标以解释此现象。CJE融合了均值保持校准(AutoCal-R)、权重稳定化(SIMCal-W)以及能够传递校准不确定性的自助法推断(OUA),其理论基础来源于半参数效率理论。

0
下载
关闭预览

相关内容

智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
【斯坦福博士论文】大语言模型的AI辅助评估
专知会员服务
31+阅读 · 2025年3月30日
大语言模型的因果性
专知会员服务
40+阅读 · 2024年10月22日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
相关性≠因果:概率图模型和do-calculus
论智
31+阅读 · 2018年10月29日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2012年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Arxiv
0+阅读 · 1月13日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2012年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员