Recent studies have demonstrated that large language models (LLMs) exhibit significant biases in evaluation tasks, particularly in preferentially rating and favoring self-generated content. However, the extent to which this bias manifests in fact-oriented tasks, especially within retrieval-augmented generation (RAG) frameworks, where keyword extraction and factual accuracy take precedence over stylistic elements, remains unclear. Our study addresses this knowledge gap by simulating two critical phases of the RAG framework. In the first phase, LLMs evaluated human-authored and model-generated passages, emulating the \textit{pointwise reranking phase}. The second phase involves conducting pairwise reading comprehension tests to simulate the \textit{generation phase}. Contrary to previous findings indicating a self-preference in rating tasks, our results reveal no significant self-preference effect in RAG frameworks. Instead, we observe that factual accuracy significantly influences LLMs' output, even in the absence of prior knowledge. These findings are consistent among three common QA datasets (NQ, MARCO, TriviaQA Datasets) and 5 widely adopted language models (GPT-3.5, GPT-4o-mini, Gemini, LLaMA3, and Mistral). Our research contributes to the ongoing discourse on LLM biases and their implications for RAG-based system, offering insights that may inform the development of more robust and unbiased LLM systems.


翻译:近期研究表明,大语言模型(LLMs)在评估任务中表现出显著的偏见,尤其是在评分时倾向于偏爱自身生成的内容。然而,这种偏见在事实导向任务中的表现程度,尤其是在检索增强生成(RAG)框架内——其中关键词提取和事实准确性优先于风格元素——仍不明确。本研究通过模拟RAG框架的两个关键阶段来填补这一知识空白。在第一阶段,LLMs评估了人类撰写和模型生成的段落,模拟了“逐点重排序阶段”。第二阶段则通过进行成对阅读理解测试来模拟“生成阶段”。与先前发现表明评分任务中存在自我偏好的结果相反,我们的结果显示在RAG框架中未观察到显著的自我偏好效应。相反,我们观察到事实准确性显著影响LLMs的输出,即使在缺乏先验知识的情况下也是如此。这些发现在三个常见的问答数据集(NQ、MARCO、TriviaQA数据集)和五种广泛采用的语言模型(GPT-3.5、GPT-4o-mini、Gemini、LLaMA3和Mistral)中保持一致。我们的研究为关于LLM偏见及其对基于RAG的系统影响的持续讨论做出了贡献,提供了可能有助于开发更稳健、无偏见的LLM系统的见解。

0
下载
关闭预览

相关内容

VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
1+阅读 · 今天13:30
多智能体协作机制
专知会员服务
0+阅读 · 今天13:26
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
6+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
9+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
7+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
14+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
10+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
5+阅读 · 4月24日
Top
微信扫码咨询专知VIP会员