神经信仰：通过内部表征对齐评估大语言模型自我解释的忠实性 (NeuroFaith: Evaluating LLM Self-Explanation Faithfulness via Internal Representation Alignment) - 专知论文

会员服务 ·

0

语言模型 · 表征对齐 · 对齐 · 大语言模型 · 分析 ·

NeuroFaith: Evaluating LLM Self-Explanation Faithfulness via Internal Representation Alignment

翻译：神经信仰：通过内部表征对齐评估大语言模型自我解释的忠实性

Milan Bhan,Jean-Noel Vittaut,Nicolas Chesneau,Sarath Chandar,Marie-Jeanne Lesot

Large Language Models (LLMs) can generate plausible free text self-explanations to justify their answers. However, these natural language explanations may not accurately reflect the model's actual reasoning process, pinpointing a lack of faithfulness. Existing faithfulness evaluation methods rely primarily on behavioral tests or computational block analysis without examining the semantic content of internal neural representations. This paper proposes NeuroFaith, a flexible framework that measures the faithfulness of LLM free text self-explanation by identifying key concepts within explanations and mechanistically testing whether these concepts actually influence the model's predictions. We show the versatility of NeuroFaith across 2-hop reasoning and classification tasks. Additionally, we develop a linear faithfulness probe based on NeuroFaith to detect unfaithful self-explanations from representation space and improve faithfulness through steering. NeuroFaith provides a principled approach to evaluating and enhancing the faithfulness of LLM free text self-explanations, addressing critical needs for trustworthy AI systems.

翻译：大语言模型能够生成看似合理的自由文本自我解释来为其答案提供依据。然而，这些自然语言解释可能无法准确反映模型的实际推理过程，这表明其缺乏忠实性。现有的忠实性评估方法主要依赖于行为测试或计算块分析，而未考察内部神经表征的语义内容。本文提出神经信仰，这是一个灵活的框架，通过识别解释中的关键概念，并机制性地测试这些概念是否实际影响模型的预测，来衡量大语言模型自由文本自我解释的忠实性。我们展示了神经信仰在双跳推理和分类任务中的通用性。此外，我们基于神经信仰开发了一种线性忠实性探针，用于从表征空间中检测不忠实的自我解释，并通过引导来提高忠实性。神经信仰为评估和增强大语言模型自由文本自我解释的忠实性提供了一种原则性方法，满足了可信人工智能系统的关键需求。

0

相关内容

语言模型

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

专知会员服务

14+阅读 · 2月14日

稀疏自编码器综述：解释大语言模型的内部机制

稀疏自编码器综述：解释大语言模型的内部机制

专知会员服务

17+阅读 · 2025年12月27日

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

专知会员服务

17+阅读 · 2025年12月10日

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

专知会员服务

33+阅读 · 2025年9月16日

【阿姆斯特丹博士论文】以实体为中心的神经模型用于自然语言处理

【阿姆斯特丹博士论文】以实体为中心的神经模型用于自然语言处理

专知会员服务

20+阅读 · 2024年7月19日

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

专知会员服务

34+阅读 · 2024年1月26日

RecInterpreter：架起大语言模型与传统推荐模型的桥梁

RecInterpreter：架起大语言模型与传统推荐模型的桥梁

专知会员服务

54+阅读 · 2023年11月9日

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

专知会员服务

98+阅读 · 2023年9月11日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

157+阅读 · 2023年8月8日

《自然》：机器视觉行为理解与脑神经有内在关联？上交卢策吾团队构建映射模型

《自然》：机器视觉行为理解与脑神经有内在关联？上交卢策吾团队构建映射模型

专知会员服务

18+阅读 · 2022年4月17日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

专知

13+阅读 · 2022年8月11日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

深度神经网络可解释性方法汇总，附Tensorflow代码实现

深度神经网络可解释性方法汇总，附Tensorflow代码实现

新智元

34+阅读 · 2019年11月7日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

大讲堂 | 神经关系抽取模型

大讲堂 | 神经关系抽取模型

AI研习社

24+阅读 · 2018年9月11日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

基于同步EEG-fMRI多模态神经影像融合的谎言神经机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

内感受性与焦虑的相互作用及其神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Quantifying and Mitigating Socially Desirable Responding in LLMs: A Desirability-Matched Graded Forced-Choice Psychometric Study

Quantifying and Mitigating Socially Desirable Responding in LLMs: A Desirability-Matched Graded Forced-Choice Psychometric Study

Arxiv

0+阅读 · 2月19日

The Sufficiency-Conciseness Trade-off in LLM Self-Explanation from an Information Bottleneck Perspective

Arxiv

0+阅读 · 2月15日

Are LLM Evaluators Really Narcissists? Sanity Checking Self-Preference Evaluations

Arxiv

0+阅读 · 2月12日

LLM Reasoning Predicts When Models Are Right: Evidence from Coding Classroom Discourse

Arxiv

0+阅读 · 2月10日

Internal Flow Signatures for Self-Checking and Refinement in LLMs

Arxiv

0+阅读 · 2月2日

Rethinking LLM-as-a-Judge: Representation-as-a-Judge with Small Language Models via Semantic Capacity Asymmetry

Arxiv

0+阅读 · 1月30日

A Survey of LLM Alignment: Instruction Understanding, Intention Reasoning, and Reliable Generation

Arxiv

0+阅读 · 1月29日

Identifying and Transferring Reasoning-Critical Neurons: Improving LLM Inference Reliability via Activation Steering

Arxiv

0+阅读 · 1月27日

Replicating Human Motivated Reasoning Studies with LLMs

Arxiv

0+阅读 · 1月22日

On LLMs' Internal Representation of Code Correctness

Arxiv

0+阅读 · 1月21日

VIP会员

文章信息

相关主题

大语言模型

最新内容

美国与以色列如何在攻击伊朗中使用人工智能

美国与以色列如何在攻击伊朗中使用人工智能

专知会员服务

4+阅读 · 4月16日

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

专知会员服务

4+阅读 · 4月16日

《自动化战略情报管控》

《自动化战略情报管控》

专知会员服务

2+阅读 · 4月16日

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

专知会员服务

7+阅读 · 4月16日

得失评估：审视对伊朗战争的轨迹（简报）

得失评估：审视对伊朗战争的轨迹（简报）

专知会员服务

2+阅读 · 4月16日

【CMU博士论文】迈向可解释机器学习的理论基础

【CMU博士论文】迈向可解释机器学习的理论基础

专知会员服务

2+阅读 · 4月16日

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

专知会员服务

2+阅读 · 4月16日

无人机视觉语言导航：研究进展、挑战与技术路线图

无人机视觉语言导航：研究进展、挑战与技术路线图

专知会员服务

2+阅读 · 4月16日

《基于强化学习的反无人机蜂群拦截优先级排序》

《基于强化学习的反无人机蜂群拦截优先级排序》

专知会员服务

9+阅读 · 4月16日

乌克兰反无人机方案“天穹哨兵”解析：一款人工智能驱动的近程防空系统

乌克兰反无人机方案“天穹哨兵”解析：一款人工智能驱动的近程防空系统

专知会员服务

4+阅读 · 4月16日

美军2026条令《指挥官装甲装备维护技能测试计划》

美军2026条令《指挥官装甲装备维护技能测试计划》

专知会员服务

6+阅读 · 4月16日

《俄罗斯构建服务于人工智能驱动自主性的主权无人机生态系统》（2026报告）

《俄罗斯构建服务于人工智能驱动自主性的主权无人机生态系统》（2026报告）

专知会员服务

7+阅读 · 4月16日

2026年俄罗斯新型喷气动力无人机Geran-5的技术规格

2026年俄罗斯新型喷气动力无人机Geran-5的技术规格

专知会员服务

4+阅读 · 4月16日

基于数据优化的人机协同与机器人僚机

基于数据优化的人机协同与机器人僚机

专知会员服务

7+阅读 · 4月16日

美太空军发布两份聚焦2040年规划的文件：《2040年未来作战环境》和《2040年目标部队》（附文件）

美太空军发布两份聚焦2040年规划的文件：《2040年未来作战环境》和《2040年目标部队》（附文件）

专知会员服务

15+阅读 · 4月16日

相关VIP内容

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

专知会员服务

14+阅读 · 2月14日

稀疏自编码器综述：解释大语言模型的内部机制

稀疏自编码器综述：解释大语言模型的内部机制

专知会员服务

17+阅读 · 2025年12月27日

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

专知会员服务

17+阅读 · 2025年12月10日

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

专知会员服务

33+阅读 · 2025年9月16日

【阿姆斯特丹博士论文】以实体为中心的神经模型用于自然语言处理

【阿姆斯特丹博士论文】以实体为中心的神经模型用于自然语言处理

专知会员服务

20+阅读 · 2024年7月19日

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

专知会员服务

34+阅读 · 2024年1月26日

RecInterpreter：架起大语言模型与传统推荐模型的桥梁

RecInterpreter：架起大语言模型与传统推荐模型的桥梁

专知会员服务

54+阅读 · 2023年11月9日

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

专知会员服务

98+阅读 · 2023年9月11日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

157+阅读 · 2023年8月8日

《自然》：机器视觉行为理解与脑神经有内在关联？上交卢策吾团队构建映射模型

《自然》：机器视觉行为理解与脑神经有内在关联？上交卢策吾团队构建映射模型

专知会员服务

18+阅读 · 2022年4月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

美国与以色列如何在攻击伊朗中使用人工智能

《自动化战略情报管控》

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

专知

13+阅读 · 2022年8月11日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

深度神经网络可解释性方法汇总，附Tensorflow代码实现

深度神经网络可解释性方法汇总，附Tensorflow代码实现

新智元

34+阅读 · 2019年11月7日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

大讲堂 | 神经关系抽取模型

大讲堂 | 神经关系抽取模型

AI研习社

24+阅读 · 2018年9月11日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Quantifying and Mitigating Socially Desirable Responding in LLMs: A Desirability-Matched Graded Forced-Choice Psychometric Study

Quantifying and Mitigating Socially Desirable Responding in LLMs: A Desirability-Matched Graded Forced-Choice Psychometric Study

Arxiv

0+阅读 · 2月19日

The Sufficiency-Conciseness Trade-off in LLM Self-Explanation from an Information Bottleneck Perspective

Arxiv

0+阅读 · 2月15日

Are LLM Evaluators Really Narcissists? Sanity Checking Self-Preference Evaluations

Arxiv

0+阅读 · 2月12日

LLM Reasoning Predicts When Models Are Right: Evidence from Coding Classroom Discourse

Arxiv

0+阅读 · 2月10日

Internal Flow Signatures for Self-Checking and Refinement in LLMs

Arxiv

0+阅读 · 2月2日

Rethinking LLM-as-a-Judge: Representation-as-a-Judge with Small Language Models via Semantic Capacity Asymmetry

Arxiv

0+阅读 · 1月30日

A Survey of LLM Alignment: Instruction Understanding, Intention Reasoning, and Reliable Generation

Arxiv

0+阅读 · 1月29日

Identifying and Transferring Reasoning-Critical Neurons: Improving LLM Inference Reliability via Activation Steering

Arxiv

0+阅读 · 1月27日

Replicating Human Motivated Reasoning Studies with LLMs

Arxiv

0+阅读 · 1月22日

On LLMs' Internal Representation of Code Correctness

Arxiv

0+阅读 · 1月21日

相关基金

基于同步EEG-fMRI多模态神经影像融合的谎言神经机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

内感受性与焦虑的相互作用及其神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员