我是更偏向点式还是对式？揭示基于评分准则的LLM-as-a-Judge中的位置偏差 (Am I More Pointwise or Pairwise? Revealing Position Bias in Rubric-Based LLM-as-a-Judge) - 专知论文

会员服务 ·

0

准则 · 偏差 · 排列 · 大语言模型 · 文本质量 ·

Am I More Pointwise or Pairwise? Revealing Position Bias in Rubric-Based LLM-as-a-Judge

翻译：我是更偏向点式还是对式？揭示基于评分准则的LLM-as-a-Judge中的位置偏差

Yuzheng Xu,Tosho Hirasawa,Tadashi Kozuno,Yoshitaka Ushiku

Large language models (LLMs) are now widely used to evaluate the quality of text, a field commonly referred to as LLM-as-a-judge. While prior works mainly focus on point-wise and pair-wise evaluation paradigms. Rubric-based evaluation, where LLMs select a score from multiple rubrics, has received less analysis. In this work, we show that rubric-based evaluation implicitly resembles a multi-choice setting and therefore has position bias: LLMs prefer score options appearing at specific positions in the rubric list. Through controlled experiments across multiple models and datasets, we demonstrate consistent position bias. To mitigate this bias, we propose a balanced permutation strategy that evenly distributes each score option across positions. We show that aggregating scores across balanced permutations not only reveals latent position bias, but also improves correlation between the LLM-as-a-Judge and human. Our results suggest that rubric-based LLM-as-a-Judge is not inherently point-wise and that simple permutation-based calibration can substantially improve its reliability.

翻译：大型语言模型（LLM）现已被广泛用于评估文本质量，这一领域通常被称为LLM-as-a-Judge。先前的研究主要关注点式和对式评估范式，而基于评分准则的评估——即LLM从多个评分准则中选择一个分数——则较少得到分析。在本研究中，我们表明基于评分准则的评估隐式地类似于多项选择题设置，因此存在位置偏差：LLM倾向于选择出现在评分准则列表中特定位置的分数选项。通过对多个模型和数据集的受控实验，我们证明了这种位置偏差具有一致性。为了缓解这种偏差，我们提出了一种平衡排列策略，将每个分数选项均匀地分布到不同位置。我们证明，聚合平衡排列下的分数不仅能揭示潜在的位置偏差，还能提高LLM-as-a-Judge与人类评估之间的相关性。我们的结果表明，基于评分准则的LLM-as-a-Judge本质上并非点式评估，而基于简单排列的校准可以显著提高其可靠性。

0

相关内容

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

专知会员服务

47+阅读 · 2025年7月16日

投大模型岗？50道大型语言模型（LLM）面试问题汇总

投大模型岗？50道大型语言模型（LLM）面试问题汇总

专知会员服务

24+阅读 · 2025年6月7日

【ICLR2025】LLMS能否识别您的偏好？评估LLMS中的个性化偏好遵循能力

【ICLR2025】LLMS能否识别您的偏好？评估LLMS中的个性化偏好遵循能力

专知会员服务

14+阅读 · 2025年2月14日

迈向大语言模型偏好学习的统一视角综述

迈向大语言模型偏好学习的统一视角综述

专知会员服务

24+阅读 · 2024年9月7日

LLM4Science怎么做？UIUC等最新《科学大型语言模型及其在科学发现中的应用》综述

LLM4Science怎么做？UIUC等最新《科学大型语言模型及其在科学发现中的应用》综述

专知会员服务

35+阅读 · 2024年6月23日

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

专知会员服务

63+阅读 · 2024年3月4日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

110+阅读 · 2023年12月19日

图上大模型怎么做？UIUC最新《图上大型语言模型》综述，详述LLM在图上作为预测器、编码器和对齐器的技术

图上大模型怎么做？UIUC最新《图上大型语言模型》综述，详述LLM在图上作为预测器、编码器和对齐器的技术

专知会员服务

67+阅读 · 2023年12月7日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

AINLP

31+阅读 · 2019年6月1日

PointNet系列论文解读

PointNet系列论文解读

人工智能前沿讲习班

17+阅读 · 2019年5月3日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

Word2Vec 与 GloVe 技术浅析与对比

Word2Vec 与 GloVe 技术浅析与对比

LibRec智能推荐

25+阅读 · 2017年5月15日

自然语言处理（二）机器翻译篇 (NLP: machine translation)

自然语言处理（二）机器翻译篇 (NLP: machine translation)

DeepLearning中文论坛

12+阅读 · 2015年7月1日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

第二语言韵律焦点产出、合成与评价的研究

国家自然科学基金

0+阅读 · 2015年12月31日

格点问题与振荡积分理论

国家自然科学基金

0+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

一般误差分布下若干半参数模型的复合分位数方法

国家自然科学基金

0+阅读 · 2014年12月31日

L-函数、大值特征和及相关问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

Who can we trust? LLM-as-a-jury for Comparative Assessment

Who can we trust? LLM-as-a-jury for Comparative Assessment

Arxiv

0+阅读 · 2月18日

LLM-as-Judge on a Budget

Arxiv

0+阅读 · 2月17日

Rubrics as an Attack Surface: Stealthy Preference Drift in LLM Judges

Arxiv

0+阅读 · 2月14日

Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation

Arxiv

0+阅读 · 2月7日

Evaluating Scoring Bias in LLM-as-a-Judge

Arxiv

0+阅读 · 2月3日

Evaluating LLMs When They Do Not Know the Answer: Statistical Evaluation of Mathematical Reasoning via Comparative Signals

Arxiv

0+阅读 · 2月3日

Rethinking LLM-as-a-Judge: Representation-as-a-Judge with Small Language Models via Semantic Capacity Asymmetry

Arxiv

0+阅读 · 1月30日

When Wording Steers the Evaluation: Framing Bias in LLM judges

Arxiv

0+阅读 · 1月20日

Balanced Accuracy: The Right Metric for Evaluating LLM Judges -- Explained through Youden's J statistic

Arxiv

0+阅读 · 1月19日

Lost in Benchmarks? Rethinking Large Language Model Benchmarking with Item Response Theory

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

大语言模型

相关VIP内容

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

专知会员服务

47+阅读 · 2025年7月16日

投大模型岗？50道大型语言模型（LLM）面试问题汇总

投大模型岗？50道大型语言模型（LLM）面试问题汇总

专知会员服务

24+阅读 · 2025年6月7日

【ICLR2025】LLMS能否识别您的偏好？评估LLMS中的个性化偏好遵循能力

【ICLR2025】LLMS能否识别您的偏好？评估LLMS中的个性化偏好遵循能力

专知会员服务

14+阅读 · 2025年2月14日

迈向大语言模型偏好学习的统一视角综述

迈向大语言模型偏好学习的统一视角综述

专知会员服务

24+阅读 · 2024年9月7日

LLM4Science怎么做？UIUC等最新《科学大型语言模型及其在科学发现中的应用》综述

LLM4Science怎么做？UIUC等最新《科学大型语言模型及其在科学发现中的应用》综述

专知会员服务

35+阅读 · 2024年6月23日

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

专知会员服务

63+阅读 · 2024年3月4日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

110+阅读 · 2023年12月19日

图上大模型怎么做？UIUC最新《图上大型语言模型》综述，详述LLM在图上作为预测器、编码器和对齐器的技术

图上大模型怎么做？UIUC最新《图上大型语言模型》综述，详述LLM在图上作为预测器、编码器和对齐器的技术

专知会员服务

67+阅读 · 2023年12月7日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

AINLP

31+阅读 · 2019年6月1日

PointNet系列论文解读

PointNet系列论文解读

人工智能前沿讲习班

17+阅读 · 2019年5月3日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

Word2Vec 与 GloVe 技术浅析与对比

Word2Vec 与 GloVe 技术浅析与对比

LibRec智能推荐

25+阅读 · 2017年5月15日

自然语言处理（二）机器翻译篇 (NLP: machine translation)

自然语言处理（二）机器翻译篇 (NLP: machine translation)

DeepLearning中文论坛

12+阅读 · 2015年7月1日

相关论文

Who can we trust? LLM-as-a-jury for Comparative Assessment

Who can we trust? LLM-as-a-jury for Comparative Assessment

Arxiv

0+阅读 · 2月18日

LLM-as-Judge on a Budget

Arxiv

0+阅读 · 2月17日

Rubrics as an Attack Surface: Stealthy Preference Drift in LLM Judges

Arxiv

0+阅读 · 2月14日

Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation

Arxiv

0+阅读 · 2月7日

Evaluating Scoring Bias in LLM-as-a-Judge

Arxiv

0+阅读 · 2月3日

Evaluating LLMs When They Do Not Know the Answer: Statistical Evaluation of Mathematical Reasoning via Comparative Signals

Arxiv

0+阅读 · 2月3日

Rethinking LLM-as-a-Judge: Representation-as-a-Judge with Small Language Models via Semantic Capacity Asymmetry

Arxiv

0+阅读 · 1月30日

When Wording Steers the Evaluation: Framing Bias in LLM judges

Arxiv

0+阅读 · 1月20日

Balanced Accuracy: The Right Metric for Evaluating LLM Judges -- Explained through Youden's J statistic

Arxiv

0+阅读 · 1月19日

Lost in Benchmarks? Rethinking Large Language Model Benchmarking with Item Response Theory

Arxiv

0+阅读 · 1月16日

相关基金

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

第二语言韵律焦点产出、合成与评价的研究

国家自然科学基金

0+阅读 · 2015年12月31日

格点问题与振荡积分理论

国家自然科学基金

0+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

一般误差分布下若干半参数模型的复合分位数方法

国家自然科学基金

0+阅读 · 2014年12月31日

L-函数、大值特征和及相关问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员