文本蕴含并非优于词元概率的偏见度量指标 (Textual Entailment is not a Better Bias Metric than Token Probability) - 专知论文

会员服务 ·

0

度量 · 词元 · 概率 · 自然语言推理 · 语言模型 ·

Textual Entailment is not a Better Bias Metric than Token Probability

翻译：文本蕴含并非优于词元概率的偏见度量指标

Virginia K. Felkner,Allison Lim,Jonathan May

from arxiv, 12 pages, 1 figure. Substantial revisions following October 2025 ARR Cycle. Currently under review in January 2026 ARR Cycle

Measurement of social bias in language models is typically by token probability (TP) metrics, which are broadly applicable but have been criticized for their distance from real-world language model use cases and harms. In this work, we test natural language inference (NLI) as an alternative bias metric. In extensive experiments across seven LM families, we show that NLI and TP bias evaluation behave substantially differently, with very low correlation among different NLI metrics and between NLI and TP metrics. NLI metrics are more brittle and unstable, slightly less sensitive to wording of counterstereotypical sentences, and slightly more sensitive to wording of tested stereotypes than TP approaches. Given this conflicting evidence, we conclude that neither token probability nor natural language inference is a ``better'' bias metric in all cases. We do not find sufficient evidence to justify NLI as a complete replacement for TP metrics in bias evaluation.

翻译：语言模型中社会偏见的测量通常采用词元概率（TP）度量方法，该方法具有广泛适用性，但因其与真实世界语言模型使用场景及危害的关联性较弱而受到批评。本研究测试了将自然语言推理（NLI）作为替代性偏见度量指标的可行性。通过对七个语言模型家族的广泛实验，我们发现NLI与TP偏见评估表现出显著差异：不同NLI度量之间以及NLI与TP度量之间的相关性极低。相较于TP方法，NLI度量更具脆弱性和不稳定性，对反刻板印象句式的措辞变化稍欠敏感，而对测试刻板印象的措辞变化则略显敏感。基于这些相互矛盾的证据，我们认为无论是词元概率还是自然语言推理，均非所有场景下的“更优”偏见度量指标。我们未发现足够证据支持在偏见评估中用NLI完全替代TP度量方法。

0

相关内容

大型语言模型中隐性与显性偏见的综合研究

大型语言模型中隐性与显性偏见的综合研究

专知会员服务

16+阅读 · 2025年11月25日

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

【ETHZ博士论文】《结构化数据的概率模型与近似推断方法》

【ETHZ博士论文】《结构化数据的概率模型与近似推断方法》

专知会员服务

29+阅读 · 2024年11月23日

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

专知会员服务

24+阅读 · 2024年7月3日

【ICML2024】语用特征偏好：从人类输入中学习与奖励相关的偏好

【ICML2024】语用特征偏好：从人类输入中学习与奖励相关的偏好

专知会员服务

22+阅读 · 2024年5月25日

【博士论文】语言模型与人类偏好对齐，148页pdf

【博士论文】语言模型与人类偏好对齐，148页pdf

专知会员服务

32+阅读 · 2024年4月21日

大型语言模型公平性

大型语言模型公平性

专知会员服务

41+阅读 · 2023年8月31日

AAAI2022 | 因果推理下的词向量：降低性别偏见并保留语义信息

AAAI2022 | 因果推理下的词向量：降低性别偏见并保留语义信息

专知会员服务

24+阅读 · 2022年2月15日

【AAAI2021】长文本的上下文推理

专知会员服务

14+阅读 · 2021年1月18日

【AAAI2020论文】关注实体以更好地理解文本（Attending to Entities for Better Text Understanding）

【AAAI2020论文】关注实体以更好地理解文本（Attending to Entities for Better Text Understanding）

专知会员服务

25+阅读 · 2019年11月15日

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

AINLP

31+阅读 · 2019年6月1日

长文本表示学习概述

长文本表示学习概述

云栖社区

15+阅读 · 2019年5月9日

一文读懂依存句法分析

一文读懂依存句法分析

AINLP

16+阅读 · 2019年4月28日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

强化学习与文本生成

强化学习与文本生成

微信AI

41+阅读 · 2019年4月4日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

深度上下文词向量

深度上下文词向量

微信AI

27+阅读 · 2018年9月13日

计算文本相似度常用的四种方法

计算文本相似度常用的四种方法

论智

33+阅读 · 2018年5月18日

胶囊网络（Capsule Network）在文本分类中的探索

胶囊网络（Capsule Network）在文本分类中的探索

PaperWeekly

13+阅读 · 2018年4月5日

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

数据挖掘入门与实战

22+阅读 · 2018年1月6日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于聚合的社会化短文本信息处理与细粒度倾向性分析

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

BEADs: Bias Evaluation Across Domains

BEADs: Bias Evaluation Across Domains

Arxiv

0+阅读 · 2月19日

Implicit Probabilistic Reasoning Does Not Reflect Explicit Answers in Large Language Models

Arxiv

0+阅读 · 2月11日

Biases in the Blind Spot: Detecting What LLMs Fail to Mention

Arxiv

0+阅读 · 2月10日

Inference-Time Reasoning Selectively Reduces Implicit Social Bias in Large Language Models

Arxiv

0+阅读 · 2月4日

Bi-directional Bias Attribution: Debiasing Large Language Models without Modifying Prompts

Arxiv

0+阅读 · 2月4日

Reading Between the Tokens: Improving Preference Predictions through Mechanistic Forecasting

Arxiv

0+阅读 · 2月2日

Epistemological Bias As a Means for the Automated Detection of Injustices in Text

Arxiv

0+阅读 · 1月27日

Not Your Typical Sycophant: The Elusive Nature of Sycophancy in Large Language Models

Arxiv

0+阅读 · 1月26日

Not Your Typical Sycophant: The Elusive Nature of Sycophancy in Large Language Models

Arxiv

0+阅读 · 1月21日

Template-Based Probes Are Imperfect Lenses for Counterfactual Bias Evaluation in LLMs

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

自然语言推理

相关VIP内容

大型语言模型中隐性与显性偏见的综合研究

大型语言模型中隐性与显性偏见的综合研究

专知会员服务

16+阅读 · 2025年11月25日

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

【ETHZ博士论文】《结构化数据的概率模型与近似推断方法》

【ETHZ博士论文】《结构化数据的概率模型与近似推断方法》

专知会员服务

29+阅读 · 2024年11月23日

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

专知会员服务

24+阅读 · 2024年7月3日

【ICML2024】语用特征偏好：从人类输入中学习与奖励相关的偏好

【ICML2024】语用特征偏好：从人类输入中学习与奖励相关的偏好

专知会员服务

22+阅读 · 2024年5月25日

【博士论文】语言模型与人类偏好对齐，148页pdf

【博士论文】语言模型与人类偏好对齐，148页pdf

专知会员服务

32+阅读 · 2024年4月21日

大型语言模型公平性

大型语言模型公平性

专知会员服务

41+阅读 · 2023年8月31日

AAAI2022 | 因果推理下的词向量：降低性别偏见并保留语义信息

AAAI2022 | 因果推理下的词向量：降低性别偏见并保留语义信息

专知会员服务

24+阅读 · 2022年2月15日

【AAAI2021】长文本的上下文推理

专知会员服务

14+阅读 · 2021年1月18日

【AAAI2020论文】关注实体以更好地理解文本（Attending to Entities for Better Text Understanding）

【AAAI2020论文】关注实体以更好地理解文本（Attending to Entities for Better Text Understanding）

专知会员服务

25+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

美国防部门开始扩建金穹反导系统基础设施

《基于选择性深度神经网络分类的弹性无线通信》最新报告

《多域作战中融合网络、电子战与动能机动》

《在东欧磨砺反无人机技能》美陆军最新反无人机训练报告

相关资讯

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

AINLP

31+阅读 · 2019年6月1日

长文本表示学习概述

长文本表示学习概述

云栖社区

15+阅读 · 2019年5月9日

一文读懂依存句法分析

一文读懂依存句法分析

AINLP

16+阅读 · 2019年4月28日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

强化学习与文本生成

强化学习与文本生成

微信AI

41+阅读 · 2019年4月4日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

深度上下文词向量

深度上下文词向量

微信AI

27+阅读 · 2018年9月13日

计算文本相似度常用的四种方法

计算文本相似度常用的四种方法

论智

33+阅读 · 2018年5月18日

胶囊网络（Capsule Network）在文本分类中的探索

胶囊网络（Capsule Network）在文本分类中的探索

PaperWeekly

13+阅读 · 2018年4月5日

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

数据挖掘入门与实战

22+阅读 · 2018年1月6日

相关论文

BEADs: Bias Evaluation Across Domains

BEADs: Bias Evaluation Across Domains

Arxiv

0+阅读 · 2月19日

Implicit Probabilistic Reasoning Does Not Reflect Explicit Answers in Large Language Models

Arxiv

0+阅读 · 2月11日

Biases in the Blind Spot: Detecting What LLMs Fail to Mention

Arxiv

0+阅读 · 2月10日

Inference-Time Reasoning Selectively Reduces Implicit Social Bias in Large Language Models

Arxiv

0+阅读 · 2月4日

Bi-directional Bias Attribution: Debiasing Large Language Models without Modifying Prompts

Arxiv

0+阅读 · 2月4日

Reading Between the Tokens: Improving Preference Predictions through Mechanistic Forecasting

Arxiv

0+阅读 · 2月2日

Epistemological Bias As a Means for the Automated Detection of Injustices in Text

Arxiv

0+阅读 · 1月27日

Not Your Typical Sycophant: The Elusive Nature of Sycophancy in Large Language Models

Arxiv

0+阅读 · 1月26日

Not Your Typical Sycophant: The Elusive Nature of Sycophancy in Large Language Models

Arxiv

0+阅读 · 1月21日

Template-Based Probes Are Imperfect Lenses for Counterfactual Bias Evaluation in LLMs

Arxiv

0+阅读 · 1月14日

相关基金

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于聚合的社会化短文本信息处理与细粒度倾向性分析

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员