Social biases inherent in large language models (LLMs) raise significant fairness concerns. Retrieval-Augmented Generation (RAG) architectures, which retrieve external knowledge sources to enhance the generative capabilities of LLMs, remain susceptible to the same bias-related challenges. This work focuses on evaluating and understanding the social bias implications of RAG. Through extensive experiments across various retrieval corpora, LLMs, and bias evaluation datasets, encompassing more than 13 different bias types, we surprisingly observe a reduction in bias in RAG. This suggests that the inclusion of external context can help counteract stereotype-driven predictions, potentially improving fairness by diversifying the contextual grounding of the model's outputs. To better understand this phenomenon, we then explore the model's reasoning process by integrating Chain-of-Thought (CoT) prompting into RAG while assessing the faithfulness of the model's CoT. Our experiments reveal that the model's bias inclinations shift between stereotype and anti-stereotype responses as more contextual information is incorporated from the retrieved documents. Interestingly, we find that while CoT enhances accuracy, contrary to the bias reduction observed with RAG, it increases overall bias across datasets, highlighting the need for bias-aware reasoning frameworks that can mitigate this trade-off.


翻译:大型语言模型(LLMs)中固有的社会偏见引发了严重的公平性问题。检索增强生成(RAG)架构通过检索外部知识源来增强LLMs的生成能力,但仍面临相同的偏见相关挑战。本研究重点评估并理解RAG的社会偏见影响。通过对多种检索语料库、LLMs和偏见评估数据集(涵盖超过13种不同偏见类型)进行大量实验,我们意外地观察到RAG中的偏见有所减少。这表明引入外部语境有助于抵消基于刻板印象的预测,可能通过多样化模型输出的语境基础来提升公平性。为深入理解这一现象,我们随后通过将思维链(CoT)提示集成到RAG中,并评估模型CoT的忠实度,来探索模型的推理过程。实验表明,随着从检索文档中融入更多语境信息,模型的偏见倾向会在刻板印象与反刻板印象响应之间转变。有趣的是,我们发现尽管CoT提高了准确性,但与RAG观察到的偏见减少相反,它增加了跨数据集的总体偏见,这凸显了需要能够缓解这种权衡的、具有偏见感知能力的推理框架。

0
下载
关闭预览

相关内容

Deep Research(深度研究):系统性综述
专知会员服务
50+阅读 · 2025年12月3日
大型语言模型中隐性与显性偏见的综合研究
专知会员服务
16+阅读 · 2025年11月25日
大型语言模型推理增强外部知识:综述
专知会员服务
37+阅读 · 2025年6月2日
检索增强生成(RAG)与推理的协同作用:一项系统综述
专知会员服务
33+阅读 · 2025年4月27日
智能体检索增强生成:关于智能体RAG的综述
专知会员服务
89+阅读 · 2025年1月21日
检索增强生成系统中的可信度:综述
专知会员服务
43+阅读 · 2024年9月18日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
推荐系统概述
Python开发者
11+阅读 · 2018年9月27日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
BEADs: Bias Evaluation Across Domains
Arxiv
0+阅读 · 2月19日
VIP会员
相关VIP内容
Deep Research(深度研究):系统性综述
专知会员服务
50+阅读 · 2025年12月3日
大型语言模型中隐性与显性偏见的综合研究
专知会员服务
16+阅读 · 2025年11月25日
大型语言模型推理增强外部知识:综述
专知会员服务
37+阅读 · 2025年6月2日
检索增强生成(RAG)与推理的协同作用:一项系统综述
专知会员服务
33+阅读 · 2025年4月27日
智能体检索增强生成:关于智能体RAG的综述
专知会员服务
89+阅读 · 2025年1月21日
检索增强生成系统中的可信度:综述
专知会员服务
43+阅读 · 2024年9月18日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员