We propose a large language model explainability technique for obtaining faithful natural language explanations by grounding the explanations in a reasoning process. When converted to a sequence of tokens, the outputs of the reasoning process can become part of the model context and later be decoded to natural language as the model produces either the final answer or the explanation. To improve the faithfulness of the explanations, we propose to use a joint predict-explain approach, in which the answers and explanations are inferred directly from the reasoning sequence, without the explanations being dependent on the answers and vice versa. We demonstrate the plausibility of the proposed technique by achieving a high alignment between answers and explanations in several problem domains, observing that language models often simply copy the partial decisions from the reasoning sequence into the final answers or explanations. Furthermore, we show that the proposed use of reasoning can also improve the quality of the answers.


翻译:我们提出了一种大语言模型可解释性技术,通过将解释建立在推理过程的基础上,从而获得忠实可信的自然语言解释。当推理过程的输出被转换为词元序列时,它可以成为模型上下文的一部分,随后在模型生成最终答案或解释时被解码为自然语言。为了提高解释的忠实性,我们提出了一种联合预测-解释方法,其中答案和解释直接从推理序列中推断得出,且解释不依赖于答案,反之亦然。我们在多个问题领域中实现了答案与解释之间的高度一致性,观察到语言模型通常只是简单地将推理序列中的部分决策复制到最终答案或解释中,从而证明了所提技术的合理性。此外,我们还表明,所提出的推理方法的使用也能提高答案的质量。

0
下载
关闭预览

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
面向大型语言模型推理的可信研究综述
专知会员服务
22+阅读 · 2025年9月6日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
专知会员服务
81+阅读 · 2021年5月30日
【机器推理可解释性】Machine Reasoning Explainability
专知会员服务
35+阅读 · 2020年9月3日
最新《可解释人工智能》概述,50页ppt
专知
12+阅读 · 2021年3月17日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
从语言学到深度学习NLP,一文概述自然语言处理
人工智能学家
13+阅读 · 2018年1月28日
Natural 自然语言处理(NLP)「全解析」
人工智能学家
14+阅读 · 2017年9月23日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
18+阅读 · 2023年9月2日
Arxiv
10+阅读 · 2023年5月4日
Arxiv
83+阅读 · 2023年3月26日
VIP会员
最新内容
世界动作模型: 具身AI的下一个前沿
专知会员服务
0+阅读 · 今天12:28
全球十大防空反导系统:列表、射程与用途
专知会员服务
10+阅读 · 今天3:53
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员