BiasFreeBench：大语言模型响应去偏基准 (BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses) - 专知论文

会员服务 ·

0

基准 · 语言模型 · 输出 · 问答 · 概率 ·

BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses

翻译：BiasFreeBench：大语言模型响应去偏基准

Xin Xu,Xunzhi He,Churan Zhi,Ruizhe Chen,Julian McAuley,Zexue He

from arxiv, Accepted by ICLR 2026

Existing studies on bias mitigation methods for large language models (LLMs) use diverse baselines and metrics to evaluate debiasing performance, leading to inconsistent comparisons among them. Moreover, their evaluations are mostly based on the comparison between LLMs' probabilities of biased and unbiased contexts, which ignores the gap between such evaluations and real-world use cases where users interact with LLMs by reading model responses and expect fair and safe outputs rather than LLMs' probabilities. To enable consistent evaluation across debiasing methods and bridge this gap, we introduce BiasFreeBench, an empirical benchmark that comprehensively compares eight mainstream bias mitigation techniques (covering four prompting-based and four training-based methods) on two test scenarios (multi-choice QA and open-ended multi-turn QA) by reorganizing existing datasets into a unified query-response setting. We further introduce a response-level metric, Bias-Free Score, to measure the extent to which LLM responses are fair, safe, and anti-stereotypical. Debiasing performances are systematically compared and analyzed across key dimensions: the prompting vs. training paradigm, model size, and generalization of different training strategies to unseen bias types. We release our benchmark, aiming to establish a unified testbed for bias mitigation research.

翻译：现有关于大语言模型去偏方法的研究采用多样化的基线指标与评估体系，导致不同方法间的性能对比缺乏一致性。此外，这些评估大多基于模型对偏见语境与非偏见语境概率输出的比较，忽视了此类评估与实际应用场景之间的差距：在真实使用中，用户通过阅读模型响应与大语言模型进行交互，并期待获得公平安全的输出内容，而非关注模型的内部概率分布。为建立去偏方法间的统一评估标准并弥合上述差距，本研究提出BiasFreeBench——一个通过重构现有数据集至统一查询-响应框架下的实证基准，在两种测试场景（多项选择问答与开放式多轮问答）上对八种主流去偏技术（涵盖四种基于提示工程的方法与四种基于训练的方法）进行全面比较。我们进一步提出响应级度量指标“无偏分数”，用于量化大语言模型响应在公平性、安全性与反刻板印象程度方面的表现。研究从核心维度系统对比分析了去偏性能：提示范式与训练范式的差异、模型规模的影响，以及不同训练策略对未见偏见类型的泛化能力。本基准已公开发布，旨在为偏见缓解研究建立统一的测试平台。

0

相关内容

评估大语言模型在科学发现中的作用

评估大语言模型在科学发现中的作用

专知会员服务

19+阅读 · 2025年12月19日

大语言模型基准综述

大语言模型基准综述

专知会员服务

25+阅读 · 2025年8月22日

【WWW2025】释放大型语言模型在去噪推荐中的强大能力

【WWW2025】释放大型语言模型在去噪推荐中的强大能力

专知会员服务

13+阅读 · 2025年2月18日

大语言模型评估技术研究进展

大语言模型评估技术研究进展

专知会员服务

48+阅读 · 2024年7月9日

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

专知会员服务

34+阅读 · 2024年1月26日

RecInterpreter：架起大语言模型与传统推荐模型的桥梁

RecInterpreter：架起大语言模型与传统推荐模型的桥梁

专知会员服务

54+阅读 · 2023年11月9日

大型语言模型公平性

大型语言模型公平性

专知会员服务

41+阅读 · 2023年8月31日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

157+阅读 · 2023年8月8日

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

专知会员服务

20+阅读 · 2022年6月10日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

复杂纵向数据的分位回归建模及其在生物医学大数据中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

大脑影像标准化的优化模型与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

RBCorr: Response Bias Correction in Language Models

Arxiv

0+阅读 · 2月12日

InSPO: Unlocking Intrinsic Self-Reflection for LLM Preference Optimization

Arxiv

0+阅读 · 2月9日

PersoBench: Benchmarking Personalized Response Generation in Large Language Models

Arxiv

0+阅读 · 2月4日

Bi-directional Bias Attribution: Debiasing Large Language Models without Modifying Prompts

Arxiv

0+阅读 · 2月4日

DeFrame: Debiasing Large Language Models Against Framing Effects

Arxiv

0+阅读 · 2月4日

Towards Fair Large Language Model-based Recommender Systems without Costly Retraining

Arxiv

0+阅读 · 2月1日

BiasGym: Fantastic LLM Biases and How to Find (and Remove) Them

Arxiv

0+阅读 · 1月30日

Towards Fair Large Language Model-based Recommender Systems without Costly Retraining

Arxiv

0+阅读 · 1月24日

Lost in Benchmarks? Rethinking Large Language Model Benchmarking with Item Response Theory

Arxiv

0+阅读 · 1月16日

DialDefer: A Framework for Detecting and Mitigating LLM Dialogic Deference

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

相关VIP内容

评估大语言模型在科学发现中的作用

评估大语言模型在科学发现中的作用

专知会员服务

19+阅读 · 2025年12月19日

大语言模型基准综述

大语言模型基准综述

专知会员服务

25+阅读 · 2025年8月22日

【WWW2025】释放大型语言模型在去噪推荐中的强大能力

【WWW2025】释放大型语言模型在去噪推荐中的强大能力

专知会员服务

13+阅读 · 2025年2月18日

大语言模型评估技术研究进展

大语言模型评估技术研究进展

专知会员服务

48+阅读 · 2024年7月9日

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

专知会员服务

34+阅读 · 2024年1月26日

RecInterpreter：架起大语言模型与传统推荐模型的桥梁

RecInterpreter：架起大语言模型与传统推荐模型的桥梁

专知会员服务

54+阅读 · 2023年11月9日

大型语言模型公平性

大型语言模型公平性

专知会员服务

41+阅读 · 2023年8月31日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

157+阅读 · 2023年8月8日

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

专知会员服务

20+阅读 · 2022年6月10日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

RBCorr: Response Bias Correction in Language Models

Arxiv

0+阅读 · 2月12日

InSPO: Unlocking Intrinsic Self-Reflection for LLM Preference Optimization

Arxiv

0+阅读 · 2月9日

PersoBench: Benchmarking Personalized Response Generation in Large Language Models

Arxiv

0+阅读 · 2月4日

Bi-directional Bias Attribution: Debiasing Large Language Models without Modifying Prompts

Arxiv

0+阅读 · 2月4日

DeFrame: Debiasing Large Language Models Against Framing Effects

Arxiv

0+阅读 · 2月4日

Towards Fair Large Language Model-based Recommender Systems without Costly Retraining

Arxiv

0+阅读 · 2月1日

BiasGym: Fantastic LLM Biases and How to Find (and Remove) Them

Arxiv

0+阅读 · 1月30日

Towards Fair Large Language Model-based Recommender Systems without Costly Retraining

Arxiv

0+阅读 · 1月24日

Lost in Benchmarks? Rethinking Large Language Model Benchmarking with Item Response Theory

Arxiv

0+阅读 · 1月16日

DialDefer: A Framework for Detecting and Mitigating LLM Dialogic Deference

Arxiv

0+阅读 · 1月15日

相关基金

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

复杂纵向数据的分位回归建模及其在生物医学大数据中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

大脑影像标准化的优化模型与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员