Explainable artificial intelligence promises to yield insights into relevant features, thereby enabling humans to examine and scrutinize machine learning models or even facilitating scientific discovery. Considering the widespread technique of Shapley values, we find that purely data-driven operationalization of multivariate feature importance is unsuitable for such purposes. Even for simple problems with two features, spurious associations due to collider bias and suppression arise from considering one feature only in the observational context of the other, which can lead to misinterpretations. Causal knowledge about the data-generating process is required to identify and correct such misleading feature attributions. We propose cc-Shapley (causal context Shapley), an interventional modification of conventional observational Shapley values leveraging knowledge of the data's causal structure, thereby analyzing the relevance of a feature in the causal context of the remaining features. We show theoretically that this eradicates spurious association induced by collider bias. We compare the behavior of Shapley and cc-Shapley values on various, synthetic, and real-world datasets. We observe nullification or reversal of associations compared to univariate feature importance when moving from observational to cc-Shapley.


翻译:可解释人工智能旨在揭示相关特征,从而让人类能够检验和审视机器学习模型,甚至促进科学发现。针对广泛使用的Shapley值技术,我们发现纯粹基于数据驱动的多元特征重要性操作方法并不适用于这些目的。即使在仅包含两个特征的简单问题中,由于仅在一个特征的观测语境中考虑另一个特征,也会因碰撞偏倚和抑制效应而产生虚假关联,这可能导致误解。识别和纠正此类误导性特征归因需要关于数据生成过程的因果知识。我们提出cc-Shapley(因果语境Shapley),这是对传统观测性Shapley值的一种干预性修正方法,它利用数据因果结构的知识,从而在其余特征的因果语境中分析特征的相关性。我们从理论上证明这消除了由碰撞偏倚引起的虚假关联。我们在各种合成和真实数据集上比较了Shapley值和cc-Shapley值的行为。我们观察到,从观测性Shapley值转向cc-Shapley值时,相较于单变量特征重要性,关联会出现抵消或反转现象。

0
下载
关闭预览

相关内容

CC:Computer Communications。 Explanation:计算机通信。 Publisher:Elsevier。 SIT: http://dblp.uni-trier.de/db/journals/comcom/
【剑桥博士论文】多智能体学习中的神经多样性
专知会员服务
21+阅读 · 2025年8月22日
上海交大最新《多轮对话理解》综述论文,20页pdf
专知会员服务
31+阅读 · 2021年10月12日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
3+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
10+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
7+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
8+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
6+阅读 · 5月29日
相关VIP内容
【剑桥博士论文】多智能体学习中的神经多样性
专知会员服务
21+阅读 · 2025年8月22日
上海交大最新《多轮对话理解》综述论文,20页pdf
专知会员服务
31+阅读 · 2021年10月12日
相关基金
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员