Attention Deficits in Language Models: Causal Explanations for Procedural Hallucinations - 专知论文

会员服务 ·

0

语言模型 · 上下文 · 令牌 · 分解 · 门控 ·

Attention Deficits in Language Models: Causal Explanations for Procedural Hallucinations

翻译：语言模型中的注意力缺陷：程序性幻觉的因果解释

Ahmed Karim,Fatima Sheaib,Zein Khamis,Maggie Chlon,Jad Awada,Leon Chlon

Large language models can follow complex procedures yet fail at a seemingly trivial final step: reporting a value they themselves computed moments earlier. We study this phenomenon as \emph{procedural hallucination}: failure to execute a verifiable, prompt-grounded specification even when the correct value is present in context. In long-context binding tasks with a known single-token candidate set, we find that many errors are readout-stage routing failures. Specifically, failures decompose into Stage~2A (gating) errors, where the model does not enter answer mode, and Stage~2B (binding) errors, where it enters answer mode but selects the wrong candidate (often due to recency bias). In the hard regime, Stage~2B accounts for most errors across model families in our tasks (Table~1). On Stage~2B error trials, a linear probe on the final-layer residual stream recovers the correct value far above chance (e.g., 74\% vs.\ 2\% on Qwen2.5-3B; Table~2), indicating that the answer is encoded but not used. We formalize ``present but not used'' via available vs.\ used mutual information and pseudo-prior interventions, yielding output-computable diagnostics and information-budget certificates. Finally, an oracle checkpointing intervention that restates the true binding near the query can nearly eliminate Stage~2B failures at long distance (e.g., Qwen2.5-3B $0/400 \rightarrow 399/400$ at $k = 1024$; Table~8).

翻译：大型语言模型能够遵循复杂程序，却在看似微不足道的最终步骤上失败：报告它们片刻前自行计算出的数值。我们将此现象称为**程序性幻觉**：即使在上下文中存在正确数值的情况下，仍无法执行可验证的、基于提示的规范。在具有已知单令牌候选集的长上下文绑定任务中，我们发现许多错误属于读取阶段的路由故障。具体而言，故障可分解为阶段2A（门控）错误（模型未进入应答模式）和阶段2B（绑定）错误（模型进入应答模式但选择了错误候选，通常由近因偏差导致）。在困难机制中，阶段2B错误在我们任务中跨模型家族占据了大部分错误（表1）。在阶段2B错误试验中，对最终层残差流的线性探针恢复正确数值的准确率远超随机水平（例如Qwen2.5-3B达到74% vs. 2%；表2），表明答案已被编码但未被使用。我们通过可用与已用互信息及伪先验干预，形式化定义了“存在但未使用”现象，从而得到输出可计算的诊断指标和信息预算证明。最后，通过在查询位置附近重述真实绑定的预言检查点干预，几乎能在长距离上完全消除阶段2B故障（例如Qwen2.5-3B在$k = 1024$时实现$0/400 \rightarrow 399/400$；表8）。

0

相关内容

语言模型

扭曲还是编造？视频大语言模型幻觉研究综述

扭曲还是编造？视频大语言模型幻觉研究综述

专知会员服务

11+阅读 · 4月15日

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

大语言模型与视觉模型中的幻觉现象理解综述

大语言模型与视觉模型中的幻觉现象理解综述

专知会员服务

21+阅读 · 2025年10月2日

大型语言模型系统中提示缺陷的分类学

大型语言模型系统中提示缺陷的分类学

专知会员服务

8+阅读 · 2025年9月19日

【NeurIPS2024】从因果角度重新思考视觉-语言模型适应中的失配问题

【NeurIPS2024】从因果角度重新思考视觉-语言模型适应中的失配问题

专知会员服务

21+阅读 · 2024年10月27日

大型视觉语言模型中幻觉现象的综述

大型视觉语言模型中幻觉现象的综述

专知会员服务

47+阅读 · 2024年10月24日

《多模态大型语言模型的幻觉现象》综述

《多模态大型语言模型的幻觉现象》综述

专知会员服务

46+阅读 · 2024年4月30日

大型语言模型幻觉缓解技术的全面综述

大型语言模型幻觉缓解技术的全面综述

专知会员服务

72+阅读 · 2024年1月3日

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

专知会员服务

82+阅读 · 2023年11月12日

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

专知会员服务

72+阅读 · 2023年9月7日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

赛尔笔记 | Attention！注意力机制可解释吗？

赛尔笔记 | Attention！注意力机制可解释吗？

哈工大SCIR

23+阅读 · 2019年9月27日

注意力机制可解释吗？这篇ACL 2019论文说……

注意力机制可解释吗？这篇ACL 2019论文说……

机器之心

11+阅读 · 2019年6月16日

Attention！注意力机制模型最新综述（附下载）

Attention！注意力机制模型最新综述（附下载）

数据派THU

36+阅读 · 2019年4月14日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

Transformer-XL：释放注意力模型的潜力

Transformer-XL：释放注意力模型的潜力

谷歌开发者

31+阅读 · 2019年2月19日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

含非正态及缺失数据的结构方程模型分析

国家自然科学基金

0+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

对偶三角模-余模逻辑的语义理论与应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

Inducing Epistemological Humility in Large Language Models: A Targeted SFT Approach to Reducing Hallucination

Inducing Epistemological Humility in Large Language Models: A Targeted SFT Approach to Reducing Hallucination

Arxiv

0+阅读 · 3月18日

Detecting Contextual Hallucinations in LLMs with Frequency-Aware Attention

Arxiv

0+阅读 · 2月20日

When Models Ignore Definitions: Measuring Semantic Override Hallucinations in LLM Reasoning

When Models Ignore Definitions: Measuring Semantic Override Hallucinations in LLM Reasoning

Arxiv

0+阅读 · 2月19日

Understanding LLM Failures: A Multi-Tape Turing Machine Analysis of Systematic Errors in Language Model Reasoning

Arxiv

0+阅读 · 2月19日

A Geometric Analysis of Small-sized Language Model Hallucinations

Arxiv

0+阅读 · 2月16日

Residual Decoding: Mitigating Hallucinations in Large Vision-Language Models via History-Aware Residual Guidance

Arxiv

0+阅读 · 2月10日

SAKED: Mitigating Hallucination in Large Vision-Language Models via Stability-Aware Knowledge Enhanced Decoding

Arxiv

0+阅读 · 2月10日

CausalTAD: Injecting Causal Knowledge into Large Language Models for Tabular Anomaly Detection

Arxiv

0+阅读 · 2月8日

TruthPrInt: Mitigating Large Vision-Language Models Object Hallucination Via Latent Truthful-Guided Pre-Intervention

Arxiv

0+阅读 · 2月8日

Contextual Drag: How Errors in the Context Affect LLM Reasoning

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

10+阅读 · 4月21日

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

11+阅读 · 4月21日

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

7+阅读 · 4月21日

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

8+阅读 · 4月21日

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

10+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

8+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

5+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

5+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

8+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

8+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

12+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

6+阅读 · 4月20日

相关VIP内容

扭曲还是编造？视频大语言模型幻觉研究综述

扭曲还是编造？视频大语言模型幻觉研究综述

专知会员服务

11+阅读 · 4月15日

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

大语言模型与视觉模型中的幻觉现象理解综述

大语言模型与视觉模型中的幻觉现象理解综述

专知会员服务

21+阅读 · 2025年10月2日

大型语言模型系统中提示缺陷的分类学

大型语言模型系统中提示缺陷的分类学

专知会员服务

8+阅读 · 2025年9月19日

【NeurIPS2024】从因果角度重新思考视觉-语言模型适应中的失配问题

【NeurIPS2024】从因果角度重新思考视觉-语言模型适应中的失配问题

专知会员服务

21+阅读 · 2024年10月27日

大型视觉语言模型中幻觉现象的综述

大型视觉语言模型中幻觉现象的综述

专知会员服务

47+阅读 · 2024年10月24日

《多模态大型语言模型的幻觉现象》综述

《多模态大型语言模型的幻觉现象》综述

专知会员服务

46+阅读 · 2024年4月30日

大型语言模型幻觉缓解技术的全面综述

大型语言模型幻觉缓解技术的全面综述

专知会员服务

72+阅读 · 2024年1月3日

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

专知会员服务

82+阅读 · 2023年11月12日

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

专知会员服务

72+阅读 · 2023年9月7日

热门VIP内容

开通专知VIP会员享更多权益服务

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

《美陆军条例：陆军指挥政策（2026版）》

《军用自主人工智能系统的治理与安全》

相关资讯

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

赛尔笔记 | Attention！注意力机制可解释吗？

赛尔笔记 | Attention！注意力机制可解释吗？

哈工大SCIR

23+阅读 · 2019年9月27日

注意力机制可解释吗？这篇ACL 2019论文说……

注意力机制可解释吗？这篇ACL 2019论文说……

机器之心

11+阅读 · 2019年6月16日

Attention！注意力机制模型最新综述（附下载）

Attention！注意力机制模型最新综述（附下载）

数据派THU

36+阅读 · 2019年4月14日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

Transformer-XL：释放注意力模型的潜力

Transformer-XL：释放注意力模型的潜力

谷歌开发者

31+阅读 · 2019年2月19日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Inducing Epistemological Humility in Large Language Models: A Targeted SFT Approach to Reducing Hallucination

Inducing Epistemological Humility in Large Language Models: A Targeted SFT Approach to Reducing Hallucination

Arxiv

0+阅读 · 3月18日

Detecting Contextual Hallucinations in LLMs with Frequency-Aware Attention

Arxiv

0+阅读 · 2月20日

When Models Ignore Definitions: Measuring Semantic Override Hallucinations in LLM Reasoning

When Models Ignore Definitions: Measuring Semantic Override Hallucinations in LLM Reasoning

Arxiv

0+阅读 · 2月19日

Understanding LLM Failures: A Multi-Tape Turing Machine Analysis of Systematic Errors in Language Model Reasoning

Arxiv

0+阅读 · 2月19日

A Geometric Analysis of Small-sized Language Model Hallucinations

Arxiv

0+阅读 · 2月16日

Residual Decoding: Mitigating Hallucinations in Large Vision-Language Models via History-Aware Residual Guidance

Arxiv

0+阅读 · 2月10日

SAKED: Mitigating Hallucination in Large Vision-Language Models via Stability-Aware Knowledge Enhanced Decoding

Arxiv

0+阅读 · 2月10日

CausalTAD: Injecting Causal Knowledge into Large Language Models for Tabular Anomaly Detection

Arxiv

0+阅读 · 2月8日

TruthPrInt: Mitigating Large Vision-Language Models Object Hallucination Via Latent Truthful-Guided Pre-Intervention

Arxiv

0+阅读 · 2月8日

Contextual Drag: How Errors in the Context Affect LLM Reasoning

Arxiv

0+阅读 · 2月4日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

含非正态及缺失数据的结构方程模型分析

国家自然科学基金

0+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

对偶三角模-余模逻辑的语义理论与应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员