High quality annotations are increasingly a bottleneck in the explosively growing machine learning ecosystem. Scalable evaluation methods that avoid costly annotation have therefore become an important research ambition. Many hope to use strong existing models in lieu of costly labels to provide cheap model evaluations. Unfortunately, this method of using models as judges introduces biases, such as self-preferencing, that can distort model comparisons. An emerging family of debiasing tools promises to fix these issues by using a few high quality labels to debias a large number of model judgments. In this paper, we study how far such debiasing methods, in principle, can go. Our main result shows that when the judge is no more accurate than the evaluated model, no debiasing method can decrease the required amount of ground truth labels by more than half. Our result speaks to the severe limitations of the LLM-as-a-judge paradigm at the evaluation frontier where the goal is to assess newly released models that are possibly better than the judge. Through an empirical evaluation, we demonstrate that the sample size savings achievable in practice are even more modest than what our theoretical limit suggests. Along the way, our work provides new observations about debiasing methods for model evaluation, and points out promising avenues for future work.


翻译:高质量标注在爆炸式增长的机器学习生态系统中日益成为瓶颈。因此,避免昂贵标注的可扩展评估方法已成为重要的研究目标。许多研究者希望利用现有强模型替代昂贵的人工标注,以提供低成本模型评估。然而,这种将模型作为评判者的方法会引入偏见(例如自我偏好),从而扭曲模型比较结果。新兴的去偏工具家族承诺通过少量高质量标注来校正大量模型评判结果,以解决这些问题。本文从原理层面研究了此类去偏方法能达到的极限。我们的主要结果表明:当评判者的准确率不高于被评估模型时,任何去偏方法都无法将所需真实标注量减少超过一半。这一结论揭示了LLM作为评判者范式在评估前沿场景中的严重局限性——该场景的目标是评估可能优于评判者的新发布模型。通过实证评估,我们证明实际可实现的样本量节省甚至比理论极限所暗示的更为有限。本研究过程中,我们对模型评估的去偏方法提出了新观察,并指出了未来工作的潜在方向。

0
下载
关闭预览

相关内容

【博士论文】扩展可扩展会话推荐的边界
专知会员服务
13+阅读 · 2025年8月5日
迈向LLM时代的可泛化评估:超越基准的综述
专知会员服务
22+阅读 · 2025年4月29日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
机器学习模型的“可解释性”到底有多重要?
中国科学院自动化研究所
20+阅读 · 2018年3月1日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【博士论文】扩展可扩展会话推荐的边界
专知会员服务
13+阅读 · 2025年8月5日
迈向LLM时代的可泛化评估:超越基准的综述
专知会员服务
22+阅读 · 2025年4月29日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员