Feature importance (FI) measures are widely used to assess the contributions of predictors to an outcome, but they may target different notions of relevance. When predictors are correlated, traditional statistical FI methods are often tailored for feature selection and correlation can therefore be treated as conditional redundancy. By contrast, for model interpretation, FI is more naturally defined through marginal predictive relevance. In this context, we show that most existing approaches target identical population functionals under squared-error loss and exhibit correlation-induced bias. To address this limitation, we introduce Disentangled Feature Importance (DFI), a nonparametric generalization of the classical $R^2$ decomposition via canonical entropic optimal transport (EOT). DFI transforms correlated features into independent latent features using an EOT coupling for general covariate laws, including mixed and discrete settings. Importance scores are computed in this disentangled space and attributed back through the transition kernel's sensitivity. Under arbitrary feature dependencies, DFI provides a principled decomposition of latent importance scores that sum to the total predictive variability for latent additive models and to interaction-weighted functional ANOVA variances more generally. We develop semiparametric theory for DFI. Under the EOT formulation, we establish root-$n$ consistency and asymptotic normality for nondegenerate importance estimators in the latent space and the original feature space. Notably, our estimators achieve second-order estimation error, which vanishes if both regression function and EOT kernel estimation errors are $o_{\mathbb{P}}(n^{-1/4})$. By design, DFI avoids the computational burden of repeated submodel refitting and the challenges of conditional covariate distribution estimation, thereby achieving computational efficiency.


翻译:特征重要性度量被广泛用于评估预测变量对结果的贡献,但不同的度量可能针对不同的相关性概念。当预测变量相关时,传统的统计特征重要性方法通常为特征选择而设计,相关性因此可被视为条件冗余。相比之下,对于模型解释,特征重要性更自然地通过边际预测相关性来定义。在此背景下,我们证明在平方误差损失下,大多数现有方法针对相同的总体泛函,并表现出相关性诱导的偏差。为克服这一局限,我们引入了**解耦特征重要性**,这是一种通过典型熵最优传输对经典$R^2$分解进行的非参数推广。DFI利用EOT耦合将相关特征转换为独立的潜在特征,适用于包括混合和离散情形在内的一般协变量分布。重要性分数在此解耦空间中计算,并通过转移核的敏感性进行归因。在任意特征依赖关系下,DFI为潜在重要性分数提供了原则性分解:对于潜在加性模型,其分数之和等于总预测变异性;更一般地,其和等于交互加权函数方差分析方差。我们发展了DFI的半参数理论。在EOT框架下,我们证明了潜在空间和原始特征空间中非退化重要性估计量的$\sqrt{n}$相合性与渐近正态性。值得注意的是,我们的估计量实现了二阶估计误差,若回归函数和EOT核的估计误差均为$o_{\mathbb{P}}(n^{-1/4})$,则该误差消失。通过设计,DFI避免了重复子模型重拟合的计算负担与条件协变量分布估计的挑战,从而实现了计算效率。

0
下载
关闭预览

相关内容

清华最新《解耦表征学习》综述
专知会员服务
71+阅读 · 2023年2月23日
专知会员服务
54+阅读 · 2021年7月30日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
360+阅读 · 2020年2月15日
手把手教你用Python实现自动特征工程
量子位
12+阅读 · 2018年9月3日
【干货合集】一文读懂特征工程
七月在线实验室
13+阅读 · 2018年8月2日
一文看懂常用特征工程方法
AI研习社
17+阅读 · 2018年5月2日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
1+阅读 · 今天15:19
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
3+阅读 · 今天15:13
软件定义多域战术网络:基础与未来方向(综述)
水下战战术决策中的气象与海洋预报(50页报告)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 今天14:45
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
相关资讯
手把手教你用Python实现自动特征工程
量子位
12+阅读 · 2018年9月3日
【干货合集】一文读懂特征工程
七月在线实验室
13+阅读 · 2018年8月2日
一文看懂常用特征工程方法
AI研习社
17+阅读 · 2018年5月2日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员