Explainable artificial intelligence promises to yield insights into relevant features, thereby enabling humans to examine and scrutinize machine learning models or even facilitating scientific discovery. Considering the widespread technique of Shapley values, we find that purely data-driven operationalization of multivariate feature importance is unsuitable for such purposes. Even for simple problems with two features, spurious associations due to collider bias and suppression arise from considering one feature only in the observational context of the other, which can lead to misinterpretations. Causal knowledge about the data-generating process is required to identify and correct such misleading feature attributions. We propose cc-Shapley (causal context Shapley), an interventional modification of conventional observational Shapley values leveraging knowledge of the data's causal structure, thereby analyzing the relevance of a feature in the causal context of the remaining features. We show theoretically that this eradicates spurious association induced by collider bias. We compare the behavior of Shapley and cc-Shapley values on various, synthetic, and real-world datasets. We observe nullification or reversal of associations compared to univariate feature importance when moving from observational to cc-Shapley.


翻译:可解释人工智能有望揭示相关特征,从而使人类能够检查和审视机器学习模型,甚至促进科学发现。考虑到广泛应用的夏普利值技术,我们发现纯粹数据驱动的多变量特征重要性操作化方法不适用于此类目的。即使对于仅包含两个特征的简单问题,仅在一个特征的观测背景下考虑另一个特征时,会因碰撞偏差和抑制效应产生虚假关联,这可能导致错误解读。需要关于数据生成过程的因果知识来识别并纠正此类误导性特征归因。我们提出cc-Shapley(因果上下文夏普利值),这是一种对传统观测夏普利值进行干预性修正的方法,利用数据的因果结构知识,在剩余特征的因果背景下分析特征的相关性。理论证明,这消除了由碰撞偏差引起的虚假关联。我们对比了夏普利值与cc-Shapley在多种合成数据集和真实世界数据集上的行为。观察到从观测夏普利值转向cc-Shapley时,与单变量特征重要性相比,关联性出现失效或逆转。

0
下载
关闭预览

相关内容

CC:Computer Communications。 Explanation:计算机通信。 Publisher:Elsevier。 SIT: http://dblp.uni-trier.de/db/journals/comcom/
【剑桥博士论文】多智能体学习中的神经多样性
专知会员服务
21+阅读 · 2025年8月22日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
一文看懂常用特征工程方法
AI研习社
17+阅读 · 2018年5月2日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
6+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关VIP内容
【剑桥博士论文】多智能体学习中的神经多样性
专知会员服务
21+阅读 · 2025年8月22日
相关基金
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员