When predictors are statistically dependent, the appropriate definition of feature importance depends on the operational goal. Conditional-incremental measures are well-suited for feature selection, acquisition, and compression, where shared predictive information is treated as redundancy. For post-hoc interpretation, however, the goal is often to attribute predictive signals across correlated measurement channels. We introduce Disentangled Feature Importance (DFI), a population-level attribution framework for this setting. DFI maps covariates to an independent latent representation under a specified entropic optimal transport geometry, computes latent importance, and attributes it back to the original covariates through barycentric sensitivities. We show that broad conditional-incremental FI functionals target conditional incremental predictive value under squared-error loss, and therefore answer a different question from attribution of shared predictive signal under dependence. Under fixed transport cost, reference law, and regularization level, DFI defines a well-specified family of estimands. Latent scores admit a functional ANOVA interpretation, and in the Gaussian linear case, the attributed DFI recovers the classical $R^2$ decomposition for correlated regressors. We derive influence-function-based inference under nuisance-rate and smoothness conditions, and show in simulations and an HIV-1 neutralization-resistance analysis that DFI yields stable, interpretable, uncertainty-quantified attributions of shared predictive signal.


翻译:当预测变量存在统计依赖时,特征重要性的恰当定义取决于操作目标。条件增量测度适用于特征选择、获取和压缩,其中共享预测信息被视为冗余。然而,对于事后解释,目标通常是在相关测量通道间归因预测信号。我们针对此场景提出一种总体层面归因框架——解缠特征重要性(DFI)。DFI在指定熵最优传输几何下将协变量映射至独立潜在表示,计算潜在重要性,并通过重心灵敏度将其归因回原始协变量。我们证明,在平方误差损失下,广义条件增量FI泛函刻画的正是条件增量预测值,因此其回答的问题与依赖条件下共享预测信号归因不同。在固定传输成本、参考定律和正则化水平下,DFI定义了一个良定义的估计量族。潜在得分可进行泛函ANOVA解释;在高斯线性情形下,归因所得DFI恢复相关回归变量的经典$R^2$分解。我们在干扰率和平滑性条件下推导出基于影响函数的推断,并通过模拟实验和HIV-1中和耐药性分析表明,DFI能对共享预测信号提供稳定、可解释且带不确定性量化的归因结果。

0
下载
关闭预览

相关内容

清华最新《解耦表征学习》综述
专知会员服务
71+阅读 · 2023年2月23日
专知会员服务
19+阅读 · 2021年9月19日
【NeurIPS2020-FB】学习具有可解码信息瓶颈的最优表示
专知会员服务
23+阅读 · 2020年10月13日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
360+阅读 · 2020年2月15日
【干货合集】一文读懂特征工程
七月在线实验室
13+阅读 · 2018年8月2日
一文看懂常用特征工程方法
AI研习社
17+阅读 · 2018年5月2日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
特定目标情感分析——神经网络这是要逆天么
计算机研究与发展
14+阅读 · 2017年9月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关资讯
【干货合集】一文读懂特征工程
七月在线实验室
13+阅读 · 2018年8月2日
一文看懂常用特征工程方法
AI研习社
17+阅读 · 2018年5月2日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
特定目标情感分析——神经网络这是要逆天么
计算机研究与发展
14+阅读 · 2017年9月5日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员