``LLM-as-a-judge,'' which utilizes large language models (LLMs) as evaluators, has proven effective in many evaluation tasks. However, evaluator LLMs exhibit numerical bias, a phenomenon where certain evaluation scores are generated disproportionately often, leading reduced evaluation performance. This study investigates the cause of this bias. Given that most evaluator LLMs are aligned through instruction tuning and preference tuning, and that prior research suggests alignment reduces output diversity, we hypothesize that numerical bias arises from alignment. To test this, we compare outputs from pre- and post-alignment LLMs, and observe that alignment indeed increases numerical bias. We also explore mitigation strategies for post-alignment LLMs, including temperature scaling, distribution calibration, and score range adjustment. Among these, score range adjustment is most effective in reducing bias and improving performance, though still heuristic. Our findings highlight the need for further work on optimal score range selection and more robust mitigation strategies.


翻译:“LLM 即评判者”方法利用大型语言模型作为评估器,已在众多评估任务中被证明有效。然而,评估器 LLM 表现出数值偏差现象,即某些评估分数被不成比例地频繁生成,导致评估性能下降。本研究旨在探究这种偏差的成因。鉴于大多数评估器 LLM 通过指令微调和偏好对齐进行对齐,且先前研究表明对齐会降低输出多样性,我们假设数值偏差源于对齐过程。为验证此假设,我们比较了对齐前后 LLM 的输出,观察到对齐确实加剧了数值偏差。我们还探索了对齐后 LLM 的缓解策略,包括温度缩放、分布校准和分数范围调整。其中,分数范围调整在减少偏差和提升性能方面最为有效,尽管仍属于启发式方法。我们的研究结果强调,需要在最优分数范围选择和更鲁棒的缓解策略方面开展进一步工作。

0
下载
关闭预览

相关内容

大型语言模型中隐性与显性偏见的综合研究
专知会员服务
16+阅读 · 2025年11月25日
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
大型语言模型对齐
专知会员服务
119+阅读 · 2023年9月27日
【大模型对齐】利用对齐使大型语言模型更好地推理
专知会员服务
48+阅读 · 2023年9月8日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
以BERT为例,如何优化机器学习模型性能?
专知
10+阅读 · 2019年10月3日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
如何理解模型的过拟合与欠拟合,以及如何解决?
七月在线实验室
12+阅读 · 2019年4月23日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
FCS 论坛 | 孟德宇:误差建模原理
FCS
15+阅读 · 2017年8月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
大型语言模型中隐性与显性偏见的综合研究
专知会员服务
16+阅读 · 2025年11月25日
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
大型语言模型对齐
专知会员服务
119+阅读 · 2023年9月27日
【大模型对齐】利用对齐使大型语言模型更好地推理
专知会员服务
48+阅读 · 2023年9月8日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员