Large Language Models have revolutionized information processing, yet their reliability is severely compromised by faithfulness hallucinations. While current approaches attempt to mitigate this issue through node-level adjustments or coarse suppression, they often overlook the distributed nature of neural information, leading to imprecise interventions. Recognizing that hallucinations propagate through specific forward transmission pathways like an infection, we aim to surgically block this flow using precise structural analysis. To leverage this, we propose Lancet, a novel framework that achieves precise neural intervention by leveraging structural entropy and hallucination difference ratios. Lancet first locates hallucination-prone neurons via gradient-driven contrastive analysis, then maps their propagation pathways by minimizing structural entropy, and finally implements a hierarchical intervention strategy that preserves general model capabilities. Comprehensive evaluations across hallucination benchmark datasets demonstrate that Lancet significantly outperforms state-of-the-art methods, validating the effectiveness of our surgical approach to neural intervention.


翻译:大语言模型已彻底改变信息处理方式,但其可靠性因忠实性幻觉问题而受到严重损害。现有方法试图通过节点级调整或粗粒度抑制来缓解此问题,但往往忽视了神经信息的分布式特性,导致干预不够精确。认识到幻觉会像感染一样通过特定的前向传播路径扩散,我们旨在通过精确的结构分析来手术式阻断这种信息流。为此,我们提出LANCET,一种利用结构熵与幻觉差异比实现精确神经干预的新型框架。LANCET首先通过梯度驱动的对比分析定位易产生幻觉的神经元,随后通过最小化结构熵映射其传播路径,最终实施一种分层干预策略以保持模型的通用能力。在多个幻觉基准数据集上的综合评估表明,LANCET显著优于现有最先进方法,验证了我们手术式神经干预方法的有效性。

0
下载
关闭预览

相关内容

【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化
专知会员服务
22+阅读 · 2024年10月23日
【AAAI2023】基于Dirichlet元模型的事后不确定性学习
专知会员服务
16+阅读 · 2022年12月16日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员