上下文感知反事实数据增强用于缓解语言模型中的性别偏见 (Context-Aware Counterfactual Data Augmentation for Gender Bias Mitigation in Language Models) - 专知论文

会员服务 ·

0

反事实 · 上下文 · 语料 · 语料库 · 语言模型 ·

Context-Aware Counterfactual Data Augmentation for Gender Bias Mitigation in Language Models

翻译：上下文感知反事实数据增强用于缓解语言模型中的性别偏见

Shweta Parihar,Liu Guangliang,Natalie Parde,Lu Cheng

A challenge in mitigating social bias in fine-tuned language models (LMs) is the potential reduction in language modeling capability, which can harm downstream performance. Counterfactual data augmentation (CDA), a widely used method for fine-tuning, highlights this issue by generating synthetic data that may align poorly with real-world distributions or creating overly simplistic counterfactuals that ignore the social context of altered sensitive attributes (e.g., gender) in the pretraining corpus. To address these limitations, we propose a simple yet effective context-augmented CDA method, Context-CDA, which uses large LMs to enhance the diversity and contextual relevance of the debiasing corpus. By minimizing discrepancies between the debiasing corpus and pretraining data through augmented context, this approach ensures better alignment, enhancing language modeling capability. We then employ uncertainty-based filtering to exclude generated counterfactuals considered low-quality by the target smaller LMs (i.e., LMs to be debiased), further improving the fine-tuning corpus quality. Experimental results on gender bias benchmarks demonstrate that Context-CDA effectively mitigates bias without sacrificing language modeling performance while offering insights into social biases by analyzing distribution shifts in next-token generation probabilities.

翻译：在微调语言模型（LMs）中缓解社会偏见的一个挑战是可能降低语言建模能力，从而损害下游性能。反事实数据增强（CDA）作为一种广泛使用的微调方法，突显了这一问题：它生成的合成数据可能与现实世界分布匹配不佳，或创建过于简化的反事实，忽略了预训练语料库中已更改敏感属性（如性别）的社会背景。为解决这些局限性，我们提出了一种简单而有效的上下文增强CDA方法，即Context-CDA，该方法利用大型语言模型来增强去偏见语料库的多样性和上下文相关性。通过增强上下文最小化去偏见语料库与预训练数据之间的差异，该方法确保了更好的对齐，从而提升了语言建模能力。随后，我们采用基于不确定性的过滤机制，排除目标较小语言模型（即待去偏见的LMs）认为质量较低的反事实生成内容，进一步提高了微调语料库的质量。在性别偏见基准测试上的实验结果表明，Context-CDA在有效缓解偏见的同时不牺牲语言建模性能，并通过分析下一个词生成概率的分布变化，为社会偏见提供了深入见解。

0

相关内容

反事实

大型语言模型中隐性与显性偏见的综合研究

大型语言模型中隐性与显性偏见的综合研究

专知会员服务

17+阅读 · 2025年11月25日

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

专知会员服务

24+阅读 · 2025年10月29日

【斯坦福博士论文】具备检索增强与条件计算能力的语言模型

【斯坦福博士论文】具备检索增强与条件计算能力的语言模型

专知会员服务

15+阅读 · 2025年7月4日

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

专知会员服务

11+阅读 · 2025年6月1日

使用多模态大语言模型进行深度学习的图像、文本和语音数据增强：综述

使用多模态大语言模型进行深度学习的图像、文本和语音数据增强：综述

专知会员服务

28+阅读 · 2025年2月4日

大规模语言模型的人类偏好学习综述

大规模语言模型的人类偏好学习综述

专知会员服务

42+阅读 · 2024年6月19日

【博士论文】语言模型与人类偏好对齐，148页pdf

【博士论文】语言模型与人类偏好对齐，148页pdf

专知会员服务

32+阅读 · 2024年4月21日

【NTU博士论文】异构数据上机器学习模型的反事实解释，172页pdf

【NTU博士论文】异构数据上机器学习模型的反事实解释，172页pdf

专知会员服务

30+阅读 · 2024年1月2日

UIUC-Gargi《增强型语言模型》，64页ppt与视频

UIUC-Gargi《增强型语言模型》，64页ppt与视频

专知会员服务

37+阅读 · 2023年5月12日

【AAAI2021】缓解语言模型政治偏见

专知会员服务

23+阅读 · 2021年2月6日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

泡泡机器人SLAM

34+阅读 · 2019年9月18日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

开放知识图谱

28+阅读 · 2018年6月11日

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

时空上下文感知的云服务质量预测和推荐的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向事件检测的感知数据处理方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于文本情感和异质网络分析的社会化推荐研究

国家自然科学基金

1+阅读 · 2014年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Retrieving Counterfactuals Improves Visual In-Context Learning

Arxiv

0+阅读 · 3月17日

Towards a more efficient bias detection in financial language models

Arxiv

0+阅读 · 3月9日

Gender Bias in Emotion Recognition by Large Language Models

Arxiv

0+阅读 · 3月2日

Context-Emotion Aware Therapeutic Dialogue Generation: A Multi-component Reinforcement Learning Approach to Language Models for Mental Health Support

Arxiv

0+阅读 · 2月16日

Context Shapes LLMs Retrieval-Augmented Fact-Checking Effectiveness

Arxiv

0+阅读 · 2月15日

Exploiting contextual information to improve stance detection in informal political discourse with LLMs

Arxiv

0+阅读 · 2月4日

Inference-Time Reasoning Selectively Reduces Implicit Social Bias in Large Language Models

Arxiv

0+阅读 · 2月4日

Bi-directional Bias Attribution: Debiasing Large Language Models without Modifying Prompts

Arxiv

0+阅读 · 2月4日

DeFrame: Debiasing Large Language Models Against Framing Effects

Arxiv

0+阅读 · 2月4日

Surfacing Subtle Stereotypes: A Multilingual, Debate-Oriented Evaluation of Modern LLMs

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

【CMU博士论文】迈向可扩展的开放世界三维感知

【CMU博士论文】迈向可扩展的开放世界三维感知

专知会员服务

0+阅读 · 25分钟前

前馈式三维场景建模

前馈式三维场景建模

专知会员服务

0+阅读 · 28分钟前

《反小型无人机系统的雷达高度估计相干干扰研究》60页

《反小型无人机系统的雷达高度估计相干干扰研究》60页

专知会员服务

2+阅读 · 今天9:52

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

专知会员服务

5+阅读 · 今天9:28

（中文）以机器速度作战：来自Maven特遣队主任的见解

（中文）以机器速度作战：来自Maven特遣队主任的见解

专知会员服务

8+阅读 · 今天3:42

（中文）AUKUS第二支柱中的人工智能与自主性方案

（中文）AUKUS第二支柱中的人工智能与自主性方案

专知会员服务

3+阅读 · 今天3:24

（译文）认知战：以士兵为目标，塑造战略

（译文）认知战：以士兵为目标，塑造战略

专知会员服务

2+阅读 · 今天3:12

（中文）认知战的本体论基础（2026报告）

（中文）认知战的本体论基础（2026报告）

专知会员服务

18+阅读 · 今天1:45

美空军条令（2026）：外国对内防御

美空军条令（2026）：外国对内防御

专知会员服务

3+阅读 · 今天1:32

美国与以色列如何在攻击伊朗中使用人工智能

美国与以色列如何在攻击伊朗中使用人工智能

专知会员服务

7+阅读 · 4月16日

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

专知会员服务

7+阅读 · 4月16日

《自动化战略情报管控》

《自动化战略情报管控》

专知会员服务

3+阅读 · 4月16日

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

专知会员服务

13+阅读 · 4月16日

得失评估：审视对伊朗战争的轨迹（简报）

得失评估：审视对伊朗战争的轨迹（简报）

专知会员服务

3+阅读 · 4月16日

【CMU博士论文】迈向可解释机器学习的理论基础

【CMU博士论文】迈向可解释机器学习的理论基础

专知会员服务

5+阅读 · 4月16日

相关VIP内容

大型语言模型中隐性与显性偏见的综合研究

大型语言模型中隐性与显性偏见的综合研究

专知会员服务

17+阅读 · 2025年11月25日

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

专知会员服务

24+阅读 · 2025年10月29日

【斯坦福博士论文】具备检索增强与条件计算能力的语言模型

【斯坦福博士论文】具备检索增强与条件计算能力的语言模型

专知会员服务

15+阅读 · 2025年7月4日

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

专知会员服务

11+阅读 · 2025年6月1日

使用多模态大语言模型进行深度学习的图像、文本和语音数据增强：综述

使用多模态大语言模型进行深度学习的图像、文本和语音数据增强：综述

专知会员服务

28+阅读 · 2025年2月4日

大规模语言模型的人类偏好学习综述

大规模语言模型的人类偏好学习综述

专知会员服务

42+阅读 · 2024年6月19日

【博士论文】语言模型与人类偏好对齐，148页pdf

【博士论文】语言模型与人类偏好对齐，148页pdf

专知会员服务

32+阅读 · 2024年4月21日

【NTU博士论文】异构数据上机器学习模型的反事实解释，172页pdf

【NTU博士论文】异构数据上机器学习模型的反事实解释，172页pdf

专知会员服务

30+阅读 · 2024年1月2日

UIUC-Gargi《增强型语言模型》，64页ppt与视频

UIUC-Gargi《增强型语言模型》，64页ppt与视频

专知会员服务

37+阅读 · 2023年5月12日

【AAAI2021】缓解语言模型政治偏见

专知会员服务

23+阅读 · 2021年2月6日

热门VIP内容

开通专知VIP会员享更多权益服务

前馈式三维场景建模

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

【CMU博士论文】迈向可扩展的开放世界三维感知

《反小型无人机系统的雷达高度估计相干干扰研究》60页

相关资讯

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

泡泡机器人SLAM

34+阅读 · 2019年9月18日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

开放知识图谱

28+阅读 · 2018年6月11日

相关论文

Retrieving Counterfactuals Improves Visual In-Context Learning

Arxiv

0+阅读 · 3月17日

Towards a more efficient bias detection in financial language models

Arxiv

0+阅读 · 3月9日

Gender Bias in Emotion Recognition by Large Language Models

Arxiv

0+阅读 · 3月2日

Context-Emotion Aware Therapeutic Dialogue Generation: A Multi-component Reinforcement Learning Approach to Language Models for Mental Health Support

Arxiv

0+阅读 · 2月16日

Context Shapes LLMs Retrieval-Augmented Fact-Checking Effectiveness

Arxiv

0+阅读 · 2月15日

Exploiting contextual information to improve stance detection in informal political discourse with LLMs

Arxiv

0+阅读 · 2月4日

Inference-Time Reasoning Selectively Reduces Implicit Social Bias in Large Language Models

Arxiv

0+阅读 · 2月4日

Bi-directional Bias Attribution: Debiasing Large Language Models without Modifying Prompts

Arxiv

0+阅读 · 2月4日

DeFrame: Debiasing Large Language Models Against Framing Effects

Arxiv

0+阅读 · 2月4日

Surfacing Subtle Stereotypes: A Multilingual, Debate-Oriented Evaluation of Modern LLMs

Arxiv

0+阅读 · 2月2日

相关基金

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

时空上下文感知的云服务质量预测和推荐的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向事件检测的感知数据处理方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于文本情感和异质网络分析的社会化推荐研究

国家自然科学基金

1+阅读 · 2014年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员