Trust and ethical concerns due to the widespread deployment of opaque machine learning (ML) models motivating the need for reliable model explanations. Post-hoc model-agnostic explanation methods addresses this challenge by learning a surrogate model that approximates the behavior of the deployed black-box ML model in the locality of a sample of interest. In post-hoc scenarios, neither the underlying model parameters nor the training are available, and hence, this local neighborhood must be constructed by generating perturbed inputs in the neighborhood of the sample of interest, and its corresponding model predictions. We propose \emph{Expected Active Gain for Local Explanations} (\texttt{EAGLE}), a post-hoc model-agnostic explanation framework that formulates perturbation selection as an information-theoretic active learning problem. By adaptively sampling perturbations that maximize the expected information gain, \texttt{EAGLE} efficiently learns a linear surrogate explainable model while producing feature importance scores along with the uncertainty/confidence estimates. Theoretically, we establish that cumulative information gain scales as $\mathcal{O}(d \log t)$, where $d$ is the feature dimension and $t$ represents the number of samples, and that the sample complexity grows linearly with $d$ and logarithmically with the confidence parameter $1/δ$. Empirical results on tabular and image datasets corroborate our theoretical findings and demonstrate that \texttt{EAGLE} improves explanation reproducibility across runs, achieves higher neighborhood stability, and improves perturbation sample quality as compared to state-of-the-art baselines such as Tilia, US-LIME, GLIME and BayesLIME.


翻译:由于不透明机器学习模型的广泛部署所引发的信任与伦理问题,推动了对可靠模型解释的需求。事后模型无关解释方法通过学习一个替代模型来应对这一挑战,该模型在感兴趣样本的局部区域内近似已部署黑盒机器学习模型的行为。在事后场景中,既无法获取底层模型参数,也无法获得训练数据,因此必须通过在感兴趣样本的邻域内生成扰动输入及其对应的模型预测来构建此局部邻域。我们提出了 \emph{面向局部解释的期望主动增益} (\texttt{EAGLE}),这是一个事后模型无关的解释框架,它将扰动选择表述为一个信息论主动学习问题。通过自适应地采样能最大化期望信息增益的扰动,\texttt{EAGLE} 高效地学习一个线性替代可解释模型,同时生成特征重要性分数以及不确定性/置信度估计。理论上,我们证明了累积信息增益的规模为 $\mathcal{O}(d \log t)$,其中 $d$ 是特征维度,$t$ 代表样本数量,并且样本复杂度随 $d$ 线性增长,随置信参数 $1/δ$ 对数增长。在表格和图像数据集上的实证结果证实了我们的理论发现,并表明与 Tilia、US-LIME、GLIME 和 BayesLIME 等最先进的基线方法相比,\texttt{EAGLE} 提高了不同运行间解释的可复现性,获得了更高的邻域稳定性,并改善了扰动样本的质量。

0
下载
关闭预览

相关内容

【CMU博士论文】数据驱动决策中的激励、信息与不确定性
【CMU博士论文】使用数据不确定解释的可信学习
专知会员服务
30+阅读 · 2024年11月2日
【NeurIPS2022】可解释机器学习的安全性:一种最大偏差方法
机器学习的可解释性
专知会员服务
179+阅读 · 2020年8月27日
深度学习模型不确定性方法对比
PaperWeekly
20+阅读 · 2020年2月10日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(16份)
专知会员服务
6+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
12+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
2+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
2+阅读 · 4月12日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员