关系线性是幻觉的预测因子 (Relational Linearity is a Predictor of Hallucinations) - 专知论文

会员服务 ·

0

知识 · 存储 · 因子 · 合成 · 实体 ·

Relational Linearity is a Predictor of Hallucinations

翻译：关系线性是幻觉的预测因子

Yuetian Lu,Yihong Liu,Hinrich Schütze

from arxiv, 11 pages, 4 figures, 8 tables

Hallucination is a central failure mode in large language models (LLMs). We focus on hallucinations of answers to questions like: "Which instrument did Glenn Gould play?", but we ask these questions for synthetic entities that are unknown to the model. Surprisingly, we find that medium-size models like Gemma-7B-IT frequently hallucinate, i.e., they have difficulty recognizing that the hallucinated fact is not part of their knowledge. We hypothesize that an important factor in causing these hallucinations is the linearity of the relation: linear relations tend to be stored more abstractly, making it difficult for the LLM to assess its knowledge; the facts of nonlinear relations tend to be stored more directly, making knowledge assessment easier. To investigate this hypothesis, we create SyntHal, a dataset of 6000 synthetic entities for six relations. In our experiments with four models, we determine, for each relation, the hallucination rate on SyntHal and also measure its linearity, using $Δ\cos$. We find a strong correlation ($r \in [.78,.82]$) between relational linearity and hallucination rate, providing evidence for our hypothesis that the underlying storage of triples of a relation is a factor in how well a model can self-assess its knowledge. This finding has implications for how to manage hallucination behavior and suggests new research directions for improving the representation of factual knowledge in LLMs.

翻译：幻觉是大语言模型（LLM）的一种核心失效模式。我们关注对诸如“格伦·古尔德演奏什么乐器？”这类问题的回答产生的幻觉，但我们针对模型未知的合成实体提出这些问题。令人惊讶的是，我们发现中等规模的模型（如 Gemma-7B-IT）经常产生幻觉，即它们难以认识到幻觉事实并非其知识的一部分。我们假设导致这些幻觉的一个重要因素是关系的线性：线性关系倾向于以更抽象的方式存储，使得LLM难以评估其知识；而非线性关系的事实则倾向于更直接地存储，使得知识评估更为容易。为验证这一假设，我们创建了SyntHal数据集，包含六个关系的6000个合成实体。在我们对四个模型的实验中，我们为每个关系确定了其在SyntHal上的幻觉率，并使用 $Δ\cos$ 测量了其线性度。我们发现关系线性度与幻觉率之间存在强相关性（$r \in [.78,.82]$），这为我们的假设提供了证据，即关系三元组的底层存储方式是模型能否有效自我评估其知识的一个因素。这一发现对如何管理幻觉行为具有启示意义，并为改进LLM中事实知识的表示提出了新的研究方向。

0

相关内容

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

专知会员服务

23+阅读 · 2025年10月29日

大语言模型幻觉：系统综述

大语言模型幻觉：系统综述

专知会员服务

39+阅读 · 2025年10月10日

大语言模型与视觉模型中的幻觉现象理解综述

大语言模型与视觉模型中的幻觉现象理解综述

专知会员服务

21+阅读 · 2025年10月2日

大型视觉语言模型中幻觉现象的综述

大型视觉语言模型中幻觉现象的综述

专知会员服务

47+阅读 · 2024年10月24日

OpenAI Lilian Weng万字长文解读LLM幻觉：从理解到克服

OpenAI Lilian Weng万字长文解读LLM幻觉：从理解到克服

专知会员服务

37+阅读 · 2024年7月14日

《多模态大型语言模型的幻觉现象》综述

《多模态大型语言模型的幻觉现象》综述

专知会员服务

46+阅读 · 2024年4月30日

大型语言模型幻觉的综述

大型语言模型幻觉的综述

专知会员服务

39+阅读 · 2024年2月15日

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

专知会员服务

82+阅读 · 2023年11月12日

大模型的幻觉现象介绍

大模型的幻觉现象介绍

专知会员服务

66+阅读 · 2023年10月27日

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

专知会员服务

72+阅读 · 2023年9月7日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

【图灵奖得主Judea Pearl推荐新书】图模型(Graphical Models), 571页pdf，带你学习GM和因果推断

【图灵奖得主Judea Pearl推荐新书】图模型(Graphical Models), 571页pdf，带你学习GM和因果推断

专知

67+阅读 · 2019年9月26日

基于关系网络的视觉建模：有望替代卷积神经网络

基于关系网络的视觉建模：有望替代卷积神经网络

微软研究院AI头条

10+阅读 · 2019年7月12日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

相关性≠因果：概率图模型和do-calculus

相关性≠因果：概率图模型和do-calculus

论智

31+阅读 · 2018年10月29日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【因果关系】由模仿“人脑”转向“因果推理”

【因果关系】由模仿“人脑”转向“因果推理”

产业智能官

10+阅读 · 2018年7月13日

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

专知

17+阅读 · 2018年6月7日

时间卷积网络（TCN）将取代RNN成为NLP预测领域王者

时间卷积网络（TCN）将取代RNN成为NLP预测领域王者

AI前线

11+阅读 · 2018年5月14日

随机振动响应预测中的模型形式不确定性量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

时空线索在舰载机飞行员黑洞错觉中的作用机制

国家自然科学基金

2+阅读 · 2015年12月31日

视觉质量感知的脑电时空特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

楔前叶与听觉皮层间抑制连接缺陷对精神分裂症听觉加工的影响

国家自然科学基金

0+阅读 · 2015年12月31日

非线性压缩感知问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

A Geometric Analysis of Small-sized Language Model Hallucinations

Arxiv

0+阅读 · 2月17日

Don't Let It Hallucinate: Premise Verification via Retrieval-Augmented Logical Reasoning

Arxiv

0+阅读 · 2月16日

SHIELD: Suppressing Hallucinations In LVLM Encoders via Bias and Vulnerability Defense

Arxiv

0+阅读 · 2月10日

A Unified Definition of Hallucination: It's The World Model, Stupid!

Arxiv

0+阅读 · 2月3日

LUMINA: Detecting Hallucinations in RAG System with Context-Knowledge Signals

Arxiv

0+阅读 · 2月3日

Hallucination is a Consequence of Space-Optimality: A Rate-Distortion Theorem for Membership Testing

Arxiv

0+阅读 · 2月3日

PretrainRL: Alleviating Factuality Hallucination of Large Language Models at the Beginning

Arxiv

0+阅读 · 2月2日

Predictive Coding and Information Bottleneck for Hallucination Detection in Large Language Models

Arxiv

0+阅读 · 1月22日

Does Less Hallucination Mean Less Creativity? An Empirical Investigation in LLMs

Arxiv

0+阅读 · 1月21日

HALT: Hallucination Assessment via Latent Testing

Arxiv

0+阅读 · 1月20日

VIP会员

文章信息

相关主题

相关VIP内容

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

专知会员服务

23+阅读 · 2025年10月29日

大语言模型幻觉：系统综述

大语言模型幻觉：系统综述

专知会员服务

39+阅读 · 2025年10月10日

大语言模型与视觉模型中的幻觉现象理解综述

大语言模型与视觉模型中的幻觉现象理解综述

专知会员服务

21+阅读 · 2025年10月2日

大型视觉语言模型中幻觉现象的综述

大型视觉语言模型中幻觉现象的综述

专知会员服务

47+阅读 · 2024年10月24日

OpenAI Lilian Weng万字长文解读LLM幻觉：从理解到克服

OpenAI Lilian Weng万字长文解读LLM幻觉：从理解到克服

专知会员服务

37+阅读 · 2024年7月14日

《多模态大型语言模型的幻觉现象》综述

《多模态大型语言模型的幻觉现象》综述

专知会员服务

46+阅读 · 2024年4月30日

大型语言模型幻觉的综述

大型语言模型幻觉的综述

专知会员服务

39+阅读 · 2024年2月15日

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

专知会员服务

82+阅读 · 2023年11月12日

大模型的幻觉现象介绍

大模型的幻觉现象介绍

专知会员服务

66+阅读 · 2023年10月27日

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

专知会员服务

72+阅读 · 2023年9月7日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

【图灵奖得主Judea Pearl推荐新书】图模型(Graphical Models), 571页pdf，带你学习GM和因果推断

【图灵奖得主Judea Pearl推荐新书】图模型(Graphical Models), 571页pdf，带你学习GM和因果推断

专知

67+阅读 · 2019年9月26日

基于关系网络的视觉建模：有望替代卷积神经网络

基于关系网络的视觉建模：有望替代卷积神经网络

微软研究院AI头条

10+阅读 · 2019年7月12日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

相关性≠因果：概率图模型和do-calculus

相关性≠因果：概率图模型和do-calculus

论智

31+阅读 · 2018年10月29日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【因果关系】由模仿“人脑”转向“因果推理”

【因果关系】由模仿“人脑”转向“因果推理”

产业智能官

10+阅读 · 2018年7月13日

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

专知

17+阅读 · 2018年6月7日

时间卷积网络（TCN）将取代RNN成为NLP预测领域王者

时间卷积网络（TCN）将取代RNN成为NLP预测领域王者

AI前线

11+阅读 · 2018年5月14日

相关论文

A Geometric Analysis of Small-sized Language Model Hallucinations

Arxiv

0+阅读 · 2月17日

Don't Let It Hallucinate: Premise Verification via Retrieval-Augmented Logical Reasoning

Arxiv

0+阅读 · 2月16日

SHIELD: Suppressing Hallucinations In LVLM Encoders via Bias and Vulnerability Defense

Arxiv

0+阅读 · 2月10日

A Unified Definition of Hallucination: It's The World Model, Stupid!

Arxiv

0+阅读 · 2月3日

LUMINA: Detecting Hallucinations in RAG System with Context-Knowledge Signals

Arxiv

0+阅读 · 2月3日

Hallucination is a Consequence of Space-Optimality: A Rate-Distortion Theorem for Membership Testing

Arxiv

0+阅读 · 2月3日

PretrainRL: Alleviating Factuality Hallucination of Large Language Models at the Beginning

Arxiv

0+阅读 · 2月2日

Predictive Coding and Information Bottleneck for Hallucination Detection in Large Language Models

Arxiv

0+阅读 · 1月22日

Does Less Hallucination Mean Less Creativity? An Empirical Investigation in LLMs

Arxiv

0+阅读 · 1月21日

HALT: Hallucination Assessment via Latent Testing

Arxiv

0+阅读 · 1月20日

相关基金

随机振动响应预测中的模型形式不确定性量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

时空线索在舰载机飞行员黑洞错觉中的作用机制

国家自然科学基金

2+阅读 · 2015年12月31日

视觉质量感知的脑电时空特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

楔前叶与听觉皮层间抑制连接缺陷对精神分裂症听觉加工的影响

国家自然科学基金

0+阅读 · 2015年12月31日

非线性压缩感知问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员