连接公平性与可解释性：基于输入的解释能否促进仇恨言论检测的公平性？ (Bridging Fairness and Explainability: Can Input-Based Explanations Promote Fairness in Hate Speech Detection?) - 专知论文

会员服务 ·

0

公平性 · 仇恨言论检测 · 有偏 · 可解释性 · NLP ·

Bridging Fairness and Explainability: Can Input-Based Explanations Promote Fairness in Hate Speech Detection?

翻译：连接公平性与可解释性：基于输入的解释能否促进仇恨言论检测的公平性？

Yifan Wang,Mayank Jobanputra,Ji-Ung Lee,Soyoung Oh,Isabel Valera,Vera Demberg

from arxiv, ICLR 2026

Natural language processing (NLP) models often replicate or amplify social bias from training data, raising concerns about fairness. At the same time, their black-box nature makes it difficult for users to recognize biased predictions and for developers to effectively mitigate them. While some studies suggest that input-based explanations can help detect and mitigate bias, others question their reliability in ensuring fairness. Existing research on explainability in fair NLP has been predominantly qualitative, with limited large-scale quantitative analysis. In this work, we conduct the first systematic study of the relationship between explainability and fairness in hate speech detection, focusing on both encoder- and decoder-only models. We examine three key dimensions: (1) identifying biased predictions, (2) selecting fair models, and (3) mitigating bias during model training. Our findings show that input-based explanations can effectively detect biased predictions and serve as useful supervision for reducing bias during training, but they are unreliable for selecting fair models among candidates.Our code is available at https://github.com/Ewanwong/fairness_x_explainability.

翻译：自然语言处理（NLP）模型常常复制或放大训练数据中的社会偏见，引发了关于公平性的担忧。与此同时，其黑箱特性使得用户难以识别有偏见的预测，开发者也难以有效缓解这些问题。虽然一些研究表明基于输入的解释有助于检测和缓解偏见，但其他研究对其在确保公平性方面的可靠性提出了质疑。现有关于公平NLP中可解释性的研究主要是定性的，缺乏大规模定量分析。在本研究中，我们首次对仇恨言论检测中可解释性与公平性之间的关系进行了系统研究，重点关注仅编码器和仅解码器模型。我们考察了三个关键维度：(1) 识别有偏见的预测，(2) 选择公平的模型，以及(3) 在模型训练过程中缓解偏见。我们的研究结果表明，基于输入的解释能有效检测有偏见的预测，并可作为训练过程中减少偏见的有用监督信号，但在候选模型中选择公平模型方面并不可靠。我们的代码可在 https://github.com/Ewanwong/fairness_x_explainability 获取。

0

相关内容

公平性

大型语言模型中隐性与显性偏见的综合研究

大型语言模型中隐性与显性偏见的综合研究

专知会员服务

16+阅读 · 2025年11月25日

迈向透明人工智能（AI）：可解释性语言模型综述

迈向透明人工智能（AI）：可解释性语言模型综述

专知会员服务

15+阅读 · 2025年9月29日

人工智能模型中公平性追求的综述

人工智能模型中公平性追求的综述

专知会员服务

22+阅读 · 2024年3月30日

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

专知会员服务

34+阅读 · 2024年1月26日

大型语言模型公平性

大型语言模型公平性

专知会员服务

41+阅读 · 2023年8月31日

【2023新书】机器学习可解释性导论：关于公平、问责、透明度和可解释人工智能的应用视角

【2023新书】机器学习可解释性导论：关于公平、问责、透明度和可解释人工智能的应用视角

专知会员服务

77+阅读 · 2023年4月7日

【纽约大学 Ethan Perez 博士论文】在预训练语言模型中发现和修正不良行为，217页pdf，，Finding and Fixing Undesirable Behaviors in Pretrained Language Models

【纽约大学 Ethan Perez 博士论文】在预训练语言模型中发现和修正不良行为，217页pdf，，Finding and Fixing Undesirable Behaviors in Pretrained Language Models

专知会员服务

18+阅读 · 2022年3月16日

【ICLR 2022 paper解读】将公平性注入机器学习模型，降低模型偏差，即使用于训练模型的数据集是不平衡的

【ICLR 2022 paper解读】将公平性注入机器学习模型，降低模型偏差，即使用于训练模型的数据集是不平衡的

专知会员服务

33+阅读 · 2022年3月10日

【SIGIR2020】基于知识图谱的公平感知可解释推荐，Fairness-Aware Explainable Recommendation over Knowledge Graphs

【SIGIR2020】基于知识图谱的公平感知可解释推荐，Fairness-Aware Explainable Recommendation over Knowledge Graphs

专知会员服务

47+阅读 · 2020年6月3日

【NeurIPS2019报告推荐】公平与表示学习—UIUC Sanmi Koyejo教授

【NeurIPS2019报告推荐】公平与表示学习—UIUC Sanmi Koyejo教授

专知会员服务

44+阅读 · 2019年12月24日

AACL2020最新《可解释人工智能与自然语言处理可解释性》教程，附159页ppt与视频

AACL2020最新《可解释人工智能与自然语言处理可解释性》教程，附159页ppt与视频

专知

25+阅读 · 2020年12月6日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

77+阅读 · 2019年10月20日

《机器学习与公平性》新书发布，附127页PDF下载

《机器学习与公平性》新书发布，附127页PDF下载

专知

24+阅读 · 2019年9月13日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

【入门】Twitter情感分析全面分析指南（含代码）

【入门】Twitter情感分析全面分析指南（含代码）

论智

31+阅读 · 2018年8月1日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

数据挖掘入门与实战

22+阅读 · 2018年1月6日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

求解一类公平疏散问题的高性能混合算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

负面在线评论和商家反馈对消费者个体态度和群体观点演化的影响研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于图模型冲突分析反问题理论的第三方调解策略研究

国家自然科学基金

3+阅读 · 2014年12月31日

PEACE 2.0: Grounded Explanations and Counter-Speech for Combating Hate Expressions

Arxiv

0+阅读 · 2月19日

Intra-Fairness Dynamics: The Bias Spillover Effect in Targeted LLM Alignment

Arxiv

0+阅读 · 2月18日

Unveiling the "Fairness Seesaw": Discovering and Mitigating Gender and Race Bias in Vision-Language Models

Arxiv

0+阅读 · 2月11日

Evaluating Social Bias in RAG Systems: When External Context Helps and Reasoning Hurts

Arxiv

0+阅读 · 2月10日

Understanding Fairness and Prediction Error through Subspace Decomposition and Influence Analysis

Arxiv

0+阅读 · 2月7日

Bi-directional Bias Attribution: Debiasing Large Language Models without Modifying Prompts

Arxiv

0+阅读 · 2月4日

Unveiling and Mitigating Bias in Large Language Model Recommendations: A Path to Fairness

Arxiv

0+阅读 · 1月30日

CommSense: Facilitating Bias-Aware and Reflective Navigation of Online Comments for Rational Judgment

Arxiv

0+阅读 · 1月27日

Epistemological Bias As a Means for the Automated Detection of Injustices in Text

Arxiv

0+阅读 · 1月27日

GECOBench: A Gender-Controlled Text Dataset and Benchmark for Quantifying Biases in Explanations

Arxiv

0+阅读 · 1月21日

VIP会员

文章信息

相关主题

仇恨言论检测

相关VIP内容

大型语言模型中隐性与显性偏见的综合研究

大型语言模型中隐性与显性偏见的综合研究

专知会员服务

16+阅读 · 2025年11月25日

迈向透明人工智能（AI）：可解释性语言模型综述

迈向透明人工智能（AI）：可解释性语言模型综述

专知会员服务

15+阅读 · 2025年9月29日

人工智能模型中公平性追求的综述

人工智能模型中公平性追求的综述

专知会员服务

22+阅读 · 2024年3月30日

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

专知会员服务

34+阅读 · 2024年1月26日

大型语言模型公平性

大型语言模型公平性

专知会员服务

41+阅读 · 2023年8月31日

【2023新书】机器学习可解释性导论：关于公平、问责、透明度和可解释人工智能的应用视角

【2023新书】机器学习可解释性导论：关于公平、问责、透明度和可解释人工智能的应用视角

专知会员服务

77+阅读 · 2023年4月7日

【纽约大学 Ethan Perez 博士论文】在预训练语言模型中发现和修正不良行为，217页pdf，，Finding and Fixing Undesirable Behaviors in Pretrained Language Models

【纽约大学 Ethan Perez 博士论文】在预训练语言模型中发现和修正不良行为，217页pdf，，Finding and Fixing Undesirable Behaviors in Pretrained Language Models

专知会员服务

18+阅读 · 2022年3月16日

【ICLR 2022 paper解读】将公平性注入机器学习模型，降低模型偏差，即使用于训练模型的数据集是不平衡的

【ICLR 2022 paper解读】将公平性注入机器学习模型，降低模型偏差，即使用于训练模型的数据集是不平衡的

专知会员服务

33+阅读 · 2022年3月10日

【SIGIR2020】基于知识图谱的公平感知可解释推荐，Fairness-Aware Explainable Recommendation over Knowledge Graphs

【SIGIR2020】基于知识图谱的公平感知可解释推荐，Fairness-Aware Explainable Recommendation over Knowledge Graphs

专知会员服务

47+阅读 · 2020年6月3日

【NeurIPS2019报告推荐】公平与表示学习—UIUC Sanmi Koyejo教授

【NeurIPS2019报告推荐】公平与表示学习—UIUC Sanmi Koyejo教授

专知会员服务

44+阅读 · 2019年12月24日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

AACL2020最新《可解释人工智能与自然语言处理可解释性》教程，附159页ppt与视频

AACL2020最新《可解释人工智能与自然语言处理可解释性》教程，附159页ppt与视频

专知

25+阅读 · 2020年12月6日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

77+阅读 · 2019年10月20日

《机器学习与公平性》新书发布，附127页PDF下载

《机器学习与公平性》新书发布，附127页PDF下载

专知

24+阅读 · 2019年9月13日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

【入门】Twitter情感分析全面分析指南（含代码）

【入门】Twitter情感分析全面分析指南（含代码）

论智

31+阅读 · 2018年8月1日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

数据挖掘入门与实战

22+阅读 · 2018年1月6日

相关论文

PEACE 2.0: Grounded Explanations and Counter-Speech for Combating Hate Expressions

Arxiv

0+阅读 · 2月19日

Intra-Fairness Dynamics: The Bias Spillover Effect in Targeted LLM Alignment

Arxiv

0+阅读 · 2月18日

Unveiling the "Fairness Seesaw": Discovering and Mitigating Gender and Race Bias in Vision-Language Models

Arxiv

0+阅读 · 2月11日

Evaluating Social Bias in RAG Systems: When External Context Helps and Reasoning Hurts

Arxiv

0+阅读 · 2月10日

Understanding Fairness and Prediction Error through Subspace Decomposition and Influence Analysis

Arxiv

0+阅读 · 2月7日

Bi-directional Bias Attribution: Debiasing Large Language Models without Modifying Prompts

Arxiv

0+阅读 · 2月4日

Unveiling and Mitigating Bias in Large Language Model Recommendations: A Path to Fairness

Arxiv

0+阅读 · 1月30日

CommSense: Facilitating Bias-Aware and Reflective Navigation of Online Comments for Rational Judgment

Arxiv

0+阅读 · 1月27日

Epistemological Bias As a Means for the Automated Detection of Injustices in Text

Arxiv

0+阅读 · 1月27日

GECOBench: A Gender-Controlled Text Dataset and Benchmark for Quantifying Biases in Explanations

Arxiv

0+阅读 · 1月21日

相关基金

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

求解一类公平疏散问题的高性能混合算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

负面在线评论和商家反馈对消费者个体态度和群体观点演化的影响研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于图模型冲突分析反问题理论的第三方调解策略研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员