High quality annotations are increasingly a bottleneck in the explosively growing machine learning ecosystem. Scalable evaluation methods that avoid costly annotation have therefore become an important research ambition. Many hope to use strong existing models in lieu of costly labels to provide cheap model evaluations. Unfortunately, this method of using models as judges introduces biases, such as self-preferencing, that can distort model comparisons. An emerging family of debiasing tools promises to fix these issues by using a few high quality labels to debias a large number of model judgments. In this paper, we study how far such debiasing methods, in principle, can go. Our main result shows that when the judge is no more accurate than the evaluated model, no debiasing method can decrease the required amount of ground truth labels by more than half. Our result speaks to the severe limitations of the LLM-as-a-judge paradigm at the evaluation frontier where the goal is to assess newly released models that are possibly better than the judge. Through an empirical evaluation, we demonstrate that the sample size savings achievable in practice are even more modest than what our theoretical limit suggests. Along the way, our work provides new observations about debiasing methods for model evaluation, and points out promising avenues for future work.


翻译:高质量标注在爆炸式增长的机器学习生态系统中日益成为瓶颈。因此,避免昂贵标注的可扩展评估方法已成为重要的研究目标。许多研究者希望利用现有强模型替代昂贵的人工标注,以提供低成本模型评估。然而,这种将模型作为评判者的方法会引入偏见(例如自我偏好),从而扭曲模型比较结果。新兴的去偏工具家族承诺通过少量高质量标注来校正大量模型评判结果,以解决这些问题。本文从原理层面研究了此类去偏方法能达到的极限。我们的主要结果表明:当评判者的准确率不高于被评估模型时,任何去偏方法都无法将所需真实标注量减少超过一半。这一结论揭示了LLM作为评判者范式在评估前沿场景中的严重局限性——该场景的目标是评估可能优于评判者的新发布模型。通过实证评估,我们证明实际可实现的样本量节省甚至比理论极限所暗示的更为有限。本研究过程中,我们对模型评估的去偏方法提出了新观察,并指出了未来工作的潜在方向。

0
下载
关闭预览

相关内容

【NeurIPS 2022】扩散模型的深度平衡方法
专知会员服务
40+阅读 · 2022年11月5日
时空数据挖掘:综述
专知
34+阅读 · 2022年6月30日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关资讯
时空数据挖掘:综述
专知
34+阅读 · 2022年6月30日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员