Prior works have shown that fine-tuning on new knowledge can induce factual hallucinations in large language models (LLMs), leading to incorrect outputs when evaluated on previously known information. However, the specific manifestations of such hallucination and its underlying mechanisms remain insufficiently understood. Our work addresses this gap by designing a controlled dataset \textit{Biography-Reasoning}, and conducting a fine-grained analysis across multiple knowledge types and two task types, including knowledge question answering (QA) and knowledge reasoning tasks. We find that hallucinations not only severely affect tasks involving newly introduced knowledge, but also propagate to other evaluation tasks. Moreover, when fine-tuning on a dataset in which a specific knowledge type consists entirely of new knowledge, LLMs exhibit elevated hallucination tendencies. This suggests that the degree of unfamiliarity within a particular knowledge type, rather than the overall proportion of new knowledge, is a stronger driver of hallucinations. Through interpretability analysis, we show that learning new knowledge weakens the model's attention to key entities in the input question, leading to an over-reliance on surrounding context and a higher risk of hallucination. Conversely, reintroducing a small amount of known knowledge during the later stages of training restores attention to key entities and substantially mitigates hallucination behavior. Finally, we demonstrate that disrupted attention patterns can propagate across lexically similar contexts, facilitating the spread of hallucinations beyond the original task.


翻译:先前的研究表明,对新知识进行微调可能诱发大语言模型(LLMs)产生事实性幻觉,导致模型在评估已知信息时输出错误结果。然而,此类幻觉的具体表现形式及其内在机制仍未得到充分理解。本研究通过构建受控数据集 \textit{Biography-Reasoning},并在多种知识类型和两类任务(包括知识问答(QA)和知识推理任务)上进行细粒度分析,以填补这一研究空白。我们发现,幻觉不仅严重影响涉及新引入知识的任务,还会传播到其他评估任务中。此外,当在某一特定知识类型完全由新知识构成的数据集上进行微调时,LLMs 表现出更高的幻觉倾向。这表明,特定知识类型内部的陌生程度,而非新知识的整体比例,是引发幻觉的更主要驱动因素。通过可解释性分析,我们发现学习新知识会削弱模型对输入问题中关键实体的注意力,导致模型过度依赖上下文语境,从而增加幻觉风险。相反,在训练后期重新引入少量已知知识,能够恢复对关键实体的注意力,并显著减轻幻觉行为。最后,我们证明被破坏的注意力模式能够在词汇相似的语境间传播,从而促进幻觉超越原始任务范围进行扩散。

0
下载
关闭预览

相关内容

CLIP通用提示学习的简要概述
专知会员服务
16+阅读 · 2025年3月13日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
AAAI 2022 | ProtGNN:自解释图神经网络
专知会员服务
40+阅读 · 2022年2月28日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
CLIP通用提示学习的简要概述
专知会员服务
16+阅读 · 2025年3月13日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
AAAI 2022 | ProtGNN:自解释图神经网络
专知会员服务
40+阅读 · 2022年2月28日
相关资讯
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员