Despite significant progress in post-hoc explanation methods for neural networks, many remain heuristic and lack provable guarantees. A key approach for obtaining explanations with provable guarantees is by identifying a cardinally-minimal subset of input features which by itself is provably sufficient to determine the prediction. However, for standard neural networks, this task is often computationally infeasible, as it demands a worst-case exponential number of verification queries in the number of input features, each of which is NP-hard. In this work, we show that for Neural Additive Models (NAMs), a recent and more interpretable neural network family, we can efficiently generate explanations with such guarantees. We present a new model-specific algorithm for NAMs that generates provably cardinally-minimal explanations using only a logarithmic number of verification queries in the number of input features, after a parallelized preprocessing step with logarithmic runtime in the required precision is applied to each small univariate NAM component. Our algorithm not only makes the task of obtaining cardinally-minimal explanations feasible, but even outperforms existing algorithms designed to find the relaxed variant of subset-minimal explanations - which may be larger and less informative but easier to compute - despite our algorithm solving a much more difficult task. Our experiments demonstrate that, compared to previous algorithms, our approach provides provably smaller explanations than existing works and substantially reduces the computation time. Moreover, we show that our generated provable explanations offer benefits that are unattainable by standard sampling-based techniques typically used to interpret NAMs.


翻译:尽管事后解释神经网络的方法取得了显著进展,但许多方法仍是启发式的,缺乏可证明的保证。获得具有可证明保证的解释的关键方法是识别输入特征的一个基数最小子集,该子集本身可证明足以确定预测结果。然而,对于标准神经网络,这项任务通常在计算上不可行,因为它需要验证查询的数量在最坏情况下随输入特征数量呈指数增长,而每个查询本身是NP难的。在这项工作中,我们证明对于神经加法模型(NAMs)——一种近期提出的、更具可解释性的神经网络家族——我们可以高效地生成具有此类保证的解释。我们提出了一种针对NAMs的新颖模型特定算法,该算法仅需对输入特征数量进行对数级别的验证查询,即可生成可证明的基数最小解释,前提是对每个小型单变量NAM组件应用一个并行预处理步骤,该步骤的运行时间在所需精度上呈对数级别。我们的算法不仅使得获得基数最小解释的任务变得可行,甚至优于现有旨在寻找子集最小解释(一种可能更大、信息量更少但更易计算的松弛变体)的算法——尽管我们的算法解决的是一个困难得多的任务。实验表明,与先前算法相比,我们的方法提供了比现有工作可证明更小的解释,并大幅减少了计算时间。此外,我们证明我们生成的可证明解释提供了标准基于采样的技术(通常用于解释NAMs)无法实现的优势。

0
下载
关闭预览

相关内容

在数学和计算机科学之中,算法(Algorithm)为一个计算的具体步骤,常用于计算、数据处理和自动推理。精确而言,算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。 来自维基百科: 算法
可解释人工智能的基础
专知会员服务
32+阅读 · 2025年10月26日
【CMU博士论文】功能组件作为神经模型可解释性的范式
专知会员服务
20+阅读 · 2025年2月3日
自解释神经网络的全面综述
专知会员服务
19+阅读 · 2025年1月28日
卷积神经网络的可解释性研究综述
专知会员服务
90+阅读 · 2023年6月5日
机器学习的可解释性
专知会员服务
69+阅读 · 2020年12月18日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
神经网络可解释性最新进展
专知
18+阅读 · 2018年3月10日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Arxiv
0+阅读 · 1月31日
Arxiv
0+阅读 · 1月27日
VIP会员
相关VIP内容
可解释人工智能的基础
专知会员服务
32+阅读 · 2025年10月26日
【CMU博士论文】功能组件作为神经模型可解释性的范式
专知会员服务
20+阅读 · 2025年2月3日
自解释神经网络的全面综述
专知会员服务
19+阅读 · 2025年1月28日
卷积神经网络的可解释性研究综述
专知会员服务
90+阅读 · 2023年6月5日
机器学习的可解释性
专知会员服务
69+阅读 · 2020年12月18日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员