推理时选择性推理减少大型语言模型中的隐性社会偏见 (Inference-Time Reasoning Selectively Reduces Implicit Social Bias in Large Language Models) - 专知论文

会员服务 ·

0

联想 (Lenovo) · 统计学习 · 语言模型 · 对齐 · 统计学 ·

Inference-Time Reasoning Selectively Reduces Implicit Social Bias in Large Language Models

翻译：推理时选择性推理减少大型语言模型中的隐性社会偏见

Molly Apsel,Michael N. Jones

Drawing on constructs from psychology, prior work has identified a distinction between explicit and implicit bias in large language models (LLMs). While many LLMs undergo post-training alignment and safety procedures to avoid expressions of explicit social bias, they still exhibit significant implicit biases on indirect tasks resembling the Implicit Association Test (IAT). Recent work has further shown that inference-time reasoning can impair LLM performance on tasks that rely on implicit statistical learning. Motivated by a theoretical link between implicit associations and statistical learning in human cognition, we examine how reasoning-enabled inference affects implicit bias in LLMs. We find that enabling reasoning significantly reduces measured implicit bias on an IAT-style evaluation for some model classes across fifteen stereotype topics. This effect appears specific to social bias domains, as we observe no corresponding reduction for non-social implicit associations. As reasoning is increasingly enabled by default in deployed LLMs, these findings suggest that it can meaningfully alter fairness evaluation outcomes in some systems, while also raising questions about how alignment procedures interact with inference-time reasoning to drive variation in bias reduction across model types. More broadly, this work highlights how theory from cognitive science and psychology can complement AI evaluation research by providing methodological and interpretive frameworks that reveal new insights into model behavior.

翻译：借鉴心理学概念，先前研究已识别出大型语言模型（LLMs）中显性偏见与隐性偏见的区别。尽管许多LLMs经过训练后对齐和安全程序以避免表达显性社会偏见，但在类似于内隐联想测试（IAT）的间接任务中，它们仍表现出显著的隐性偏见。近期研究进一步表明，推理时推理会损害LLMs在依赖隐性统计学习任务上的表现。基于人类认知中隐性联想与统计学习之间的理论联系，我们研究了启用推理的推断如何影响LLMs的隐性偏见。我们发现，在涵盖十五个刻板印象主题的IAT式评估中，启用推理能显著降低某些模型类别的隐性偏见测量值。这种效应似乎特定于社会偏见领域，因为在非社会性隐性联想中我们未观察到相应减少。随着推理功能在部署的LLMs中日益成为默认设置，这些发现表明推理可能实质性改变某些系统的公平性评估结果，同时也引发了对齐程序如何与推理时推理相互作用以驱动不同模型类型偏见减少差异的疑问。更广泛而言，本研究凸显了认知科学与心理学理论如何通过提供方法论和解释框架来补充人工智能评估研究，从而揭示模型行为的新见解。

0

相关内容

联想 (Lenovo)

联想 (Lenovo)

联想集团有限公司，是中国一家总部设在北京市和美国北卡罗莱纳州罗利市的跨国科技公司，成立于1984年，由中国科学院计算技术研究所投资20万元人民币、11名科技人员创办，当时称为“中国科学院计算所新技术发展公司”。1989年，更名为“北京联想计算机集团公司”。维基百科

大语言模型的智能体化推理

大语言模型的智能体化推理

专知会员服务

32+阅读 · 1月21日

大型语言模型中隐性与显性偏见的综合研究

大型语言模型中隐性与显性偏见的综合研究

专知会员服务

16+阅读 · 2025年11月25日

大语言模型中的隐式推理：综合综述

大语言模型中的隐式推理：综合综述

专知会员服务

32+阅读 · 2025年9月4日

大型语言模型推理增强外部知识：综述

大型语言模型推理增强外部知识：综述

专知会员服务

37+阅读 · 2025年6月2日

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

专知会员服务

11+阅读 · 2025年6月1日

高效推理的集约化探索：大语言模型推理优化综述

高效推理的集约化探索：大语言模型推理优化综述

专知会员服务

32+阅读 · 2025年4月1日

停止过度思考：大型语言模型高效推理研究综述

停止过度思考：大型语言模型高效推理研究综述

专知会员服务

37+阅读 · 2025年3月21日

通过逻辑推理赋能大语言模型：综述

通过逻辑推理赋能大语言模型：综述

专知会员服务

32+阅读 · 2025年2月24日

【大模型对齐】利用对齐使大型语言模型更好地推理

【大模型对齐】利用对齐使大型语言模型更好地推理

专知会员服务

48+阅读 · 2023年9月8日

「大型语言模型推理」综述

「大型语言模型推理」综述

专知会员服务

95+阅读 · 2022年12月24日

理解人类推理的深度学习

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

开放知识图谱

28+阅读 · 2018年6月11日

【论文推荐】最新十二篇情感分析相关论文—自然语言推理框架、网络事件、多任务学习、实时情感变化检测、多因素分析、深度语境词表示

【论文推荐】最新十二篇情感分析相关论文—自然语言推理框架、网络事件、多任务学习、实时情感变化检测、多因素分析、深度语境词表示

专知

22+阅读 · 2018年5月7日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

原创 | Attention Modeling for Targeted Sentiment

原创 | Attention Modeling for Targeted Sentiment

黑龙江大学自然语言处理实验室

25+阅读 · 2017年11月5日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

面向隐私保护的地理社交网络个性化推荐方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

社会性预期优势效应的神经机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

含有隐变量的因果结构学习与统计因果推断

国家自然科学基金

21+阅读 · 2013年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

Implicit Probabilistic Reasoning Does Not Reflect Explicit Answers in Large Language Models

Arxiv

0+阅读 · 2月11日

Evaluating Social Bias in RAG Systems: When External Context Helps and Reasoning Hurts

Arxiv

0+阅读 · 2月10日

Evaluating and Enhancing the Vulnerability Reasoning Capabilities of Large Language Models

Arxiv

0+阅读 · 2月6日

Bi-directional Bias Attribution: Debiasing Large Language Models without Modifying Prompts

Arxiv

0+阅读 · 2月4日

Unveiling and Mitigating Bias in Large Language Model Recommendations: A Path to Fairness

Arxiv

0+阅读 · 1月30日

Sparks of Rationality: Do Reasoning LLMs Align with Human Judgment and Choice?

Arxiv

0+阅读 · 1月29日

KnowBias: Mitigating Social Bias in LLMs via Know-Bias Neuron Enhancement

Arxiv

0+阅读 · 1月29日

Language Models Should be Used to Surface the Unwritten Code of Science and Society

Arxiv

0+阅读 · 1月26日

Position: Language Models Should be Used to Surface the Unwritten Code of Science and Society

Arxiv

0+阅读 · 1月16日

Uncovering Political Bias in Large Language Models using Parliamentary Voting Records

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

联想 (Lenovo)

相关VIP内容

大语言模型的智能体化推理

大语言模型的智能体化推理

专知会员服务

32+阅读 · 1月21日

大型语言模型中隐性与显性偏见的综合研究

大型语言模型中隐性与显性偏见的综合研究

专知会员服务

16+阅读 · 2025年11月25日

大语言模型中的隐式推理：综合综述

大语言模型中的隐式推理：综合综述

专知会员服务

32+阅读 · 2025年9月4日

大型语言模型推理增强外部知识：综述

大型语言模型推理增强外部知识：综述

专知会员服务

37+阅读 · 2025年6月2日

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

专知会员服务

11+阅读 · 2025年6月1日

高效推理的集约化探索：大语言模型推理优化综述

高效推理的集约化探索：大语言模型推理优化综述

专知会员服务

32+阅读 · 2025年4月1日

停止过度思考：大型语言模型高效推理研究综述

停止过度思考：大型语言模型高效推理研究综述

专知会员服务

37+阅读 · 2025年3月21日

通过逻辑推理赋能大语言模型：综述

通过逻辑推理赋能大语言模型：综述

专知会员服务

32+阅读 · 2025年2月24日

【大模型对齐】利用对齐使大型语言模型更好地推理

【大模型对齐】利用对齐使大型语言模型更好地推理

专知会员服务

48+阅读 · 2023年9月8日

「大型语言模型推理」综述

「大型语言模型推理」综述

专知会员服务

95+阅读 · 2022年12月24日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

理解人类推理的深度学习

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

开放知识图谱

28+阅读 · 2018年6月11日

【论文推荐】最新十二篇情感分析相关论文—自然语言推理框架、网络事件、多任务学习、实时情感变化检测、多因素分析、深度语境词表示

【论文推荐】最新十二篇情感分析相关论文—自然语言推理框架、网络事件、多任务学习、实时情感变化检测、多因素分析、深度语境词表示

专知

22+阅读 · 2018年5月7日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

原创 | Attention Modeling for Targeted Sentiment

原创 | Attention Modeling for Targeted Sentiment

黑龙江大学自然语言处理实验室

25+阅读 · 2017年11月5日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Implicit Probabilistic Reasoning Does Not Reflect Explicit Answers in Large Language Models

Arxiv

0+阅读 · 2月11日

Evaluating Social Bias in RAG Systems: When External Context Helps and Reasoning Hurts

Arxiv

0+阅读 · 2月10日

Evaluating and Enhancing the Vulnerability Reasoning Capabilities of Large Language Models

Arxiv

0+阅读 · 2月6日

Bi-directional Bias Attribution: Debiasing Large Language Models without Modifying Prompts

Arxiv

0+阅读 · 2月4日

Unveiling and Mitigating Bias in Large Language Model Recommendations: A Path to Fairness

Arxiv

0+阅读 · 1月30日

Sparks of Rationality: Do Reasoning LLMs Align with Human Judgment and Choice?

Arxiv

0+阅读 · 1月29日

KnowBias: Mitigating Social Bias in LLMs via Know-Bias Neuron Enhancement

Arxiv

0+阅读 · 1月29日

Language Models Should be Used to Surface the Unwritten Code of Science and Society

Arxiv

0+阅读 · 1月26日

Position: Language Models Should be Used to Surface the Unwritten Code of Science and Society

Arxiv

0+阅读 · 1月16日

Uncovering Political Bias in Large Language Models using Parliamentary Voting Records

Arxiv

0+阅读 · 1月13日

相关基金

面向隐私保护的地理社交网络个性化推荐方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

社会性预期优势效应的神经机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

含有隐变量的因果结构学习与统计因果推断

国家自然科学基金

21+阅读 · 2013年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员