Measurement of social bias in language models is typically by token probability (TP) metrics, which are broadly applicable but have been criticized for their distance from real-world language model use cases and harms. In this work, we test natural language inference (NLI) as an alternative bias metric. In extensive experiments across seven LM families, we show that NLI and TP bias evaluation behave substantially differently, with very low correlation among different NLI metrics and between NLI and TP metrics. NLI metrics are more brittle and unstable, slightly less sensitive to wording of counterstereotypical sentences, and slightly more sensitive to wording of tested stereotypes than TP approaches. Given this conflicting evidence, we conclude that neither token probability nor natural language inference is a ``better'' bias metric in all cases. We do not find sufficient evidence to justify NLI as a complete replacement for TP metrics in bias evaluation.


翻译:语言模型中社会偏见的测量通常采用词元概率(TP)度量方法,该方法具有广泛适用性,但因其与真实世界语言模型使用场景及危害的关联性较弱而受到批评。本研究测试了将自然语言推理(NLI)作为替代性偏见度量指标的可行性。通过对七个语言模型家族的广泛实验,我们发现NLI与TP偏见评估表现出显著差异:不同NLI度量之间以及NLI与TP度量之间的相关性极低。相较于TP方法,NLI度量更具脆弱性和不稳定性,对反刻板印象句式的措辞变化稍欠敏感,而对测试刻板印象的措辞变化则略显敏感。基于这些相互矛盾的证据,我们认为无论是词元概率还是自然语言推理,均非所有场景下的“更优”偏见度量指标。我们未发现足够证据支持在偏见评估中用NLI完全替代TP度量方法。

0
下载
关闭预览

相关内容

大型语言模型中隐性与显性偏见的综合研究
专知会员服务
16+阅读 · 2025年11月25日
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
【博士论文】语言模型与人类偏好对齐,148页pdf
专知会员服务
32+阅读 · 2024年4月21日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
专知会员服务
14+阅读 · 2021年1月18日
长文本表示学习概述
云栖社区
15+阅读 · 2019年5月9日
一文读懂依存句法分析
AINLP
16+阅读 · 2019年4月28日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
强化学习与文本生成
微信AI
41+阅读 · 2019年4月4日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
深度上下文词向量
微信AI
27+阅读 · 2018年9月13日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
胶囊网络(Capsule Network)在文本分类中的探索
PaperWeekly
13+阅读 · 2018年4月5日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
BEADs: Bias Evaluation Across Domains
Arxiv
0+阅读 · 2月19日
VIP会员
相关VIP内容
大型语言模型中隐性与显性偏见的综合研究
专知会员服务
16+阅读 · 2025年11月25日
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
【博士论文】语言模型与人类偏好对齐,148页pdf
专知会员服务
32+阅读 · 2024年4月21日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
专知会员服务
14+阅读 · 2021年1月18日
相关资讯
长文本表示学习概述
云栖社区
15+阅读 · 2019年5月9日
一文读懂依存句法分析
AINLP
16+阅读 · 2019年4月28日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
强化学习与文本生成
微信AI
41+阅读 · 2019年4月4日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
深度上下文词向量
微信AI
27+阅读 · 2018年9月13日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
胶囊网络(Capsule Network)在文本分类中的探索
PaperWeekly
13+阅读 · 2018年4月5日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员