Large language models (LLMs) are widely used as scalable evaluators of model responses in lieu of human annotators. However, imperfect sensitivity and specificity of LLM judgments induce bias in naive evaluation scores. We propose a simple plug-in framework that corrects this bias and constructs confidence intervals accounting for uncertainty from both the test dataset and a human-evaluated calibration dataset, enabling statistically sound and practical LLM-based evaluation. Building on this framework, we introduce an adaptive calibration strategy for constructing the calibration dataset to reduce uncertainty in the estimated score. Notably, we characterize the regimes in which LLM-based evaluation within our framework produces more reliable estimates than fully human evaluation. Moreover, our framework is more robust to distribution shift between the test and calibration datasets than existing approaches.


翻译:大型语言模型(LLMs)被广泛用作模型响应的可扩展评估器,以替代人类标注者。然而,LLM判断的不完美敏感性和特异性会在原始评估分数中引入偏差。我们提出了一种简单的插件式框架来校正这种偏差,并构建置信区间以同时考虑测试数据集和人工评估校准数据集的不确定性,从而实现统计上可靠且实用的基于LLM的评估。基于此框架,我们引入了一种自适应校准策略来构建校准数据集,以降低估计分数的不确定性。值得注意的是,我们刻画了在本框架下基于LLM的评估比完全人工评估产生更可靠估计的机制。此外,与现有方法相比,我们的框架对测试数据集与校准数据集之间的分布偏移具有更强的鲁棒性。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【KDD2022】自监督超图Transformer推荐系统
专知会员服务
34+阅读 · 2022年8月1日
专知会员服务
15+阅读 · 2021年9月11日
专知会员服务
17+阅读 · 2021年7月13日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【KDD2022】自监督超图Transformer推荐系统
专知会员服务
34+阅读 · 2022年8月1日
专知会员服务
15+阅读 · 2021年9月11日
专知会员服务
17+阅读 · 2021年7月13日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员