广义线性模型中的变量重要性——基于Shapley值的统一视角 (Variable Importance in Generalized Linear Models -- A Unifying View Using Shapley Values) - 专知论文

会员服务 ·

0

线性模型 · 广义 · 广义线性模型 · 拟合 · 度量 ·

Variable Importance in Generalized Linear Models -- A Unifying View Using Shapley Values

翻译：广义线性模型中的变量重要性——基于Shapley值的统一视角

Sinan Acemoglu,Christian Kleiber,Jörg Urban

from arxiv, 33 pages, 3 figures

Variable importance in regression analyses is of considerable interest in a variety of fields. There is no unique method for assessing variable importance. However, a substantial share of the available literature employs Shapley values, either explicitly or implicitly, to decompose a suitable goodness-of-fit measure, in the linear regression model typically the classical $R^2$. Beyond linear regression, there is no generally accepted goodness-of-fit measure, only a variety of pseudo-$R^2$s. We formulate and discuss the desirable properties of goodness-of-fit measures that enable Shapley values to be interpreted in terms of relative, and even absolute, importance. We suggest to use a pseudo-$R^2$ based on the Kullback-Leibler divergence, the Kullback-Leibler $R^2$, which has a convenient form for generalized linear models and permits to unify and extend previous work on variable importance for linear and nonlinear models. Several examples are presented, using data from public health and insurance.

翻译：回归分析中的变量重要性在众多领域具有重要研究价值。目前尚不存在评估变量重要性的唯一方法。然而，现有文献中相当一部分研究（无论是显式或隐式地）采用Shapley值来分解适当的拟合优度度量指标——在线性回归模型中通常使用经典的$R^2$。对于线性回归之外的模型，目前尚无公认的拟合优度度量标准，仅存在多种伪$R^2$指标。本文系统阐述并讨论了使Shapley值能够解释相对重要性乃至绝对重要性的拟合优度度量指标应具备的理想性质。我们建议采用基于Kullback-Leibler散度的伪$R^2$指标——Kullback-Leibler $R^2$，该指标在广义线性模型中具有简洁的表达形式，能够统一并拓展先前关于线性和非线性模型变量重要性的研究工作。本文通过公共卫生和保险领域的实际数据展示了若干应用案例。

0

相关内容

线性模型

对于给定d个属性描述的示例x=（x1，x2，......，xd）,通过属性的线性组合来进行预测。一般的写法如下： f(x)=w'x+b,因此，线性模型具有很好的解释性（understandability，comprehensibility），参数w代表每个属性在回归过程中的重要程度。

深度学习中泛化的量化、理解与改进

深度学习中泛化的量化、理解与改进

专知会员服务

17+阅读 · 2025年9月13日

【2023新书】用SHAP解释机器学习模型:Python示例和Shapley值理论指南，216页pdf

【2023新书】用SHAP解释机器学习模型:Python示例和Shapley值理论指南，216页pdf

专知会员服务

83+阅读 · 2023年8月31日

【普林斯顿博士论文】潜变量下的机器学习与优化，239页pdf

【普林斯顿博士论文】潜变量下的机器学习与优化，239页pdf

专知会员服务

39+阅读 · 2023年8月1日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

基于决策树模型重用的分布变化流数据学习

专知会员服务

24+阅读 · 2021年1月30日

《深度潜变量模型的编码视角》博士论文，154页pdf阐述深度潜变量模型(DLVM)中的统计推理与编码的关系

《深度潜变量模型的编码视角》博士论文，154页pdf阐述深度潜变量模型(DLVM)中的统计推理与编码的关系

专知会员服务

22+阅读 · 2021年1月21日

首篇《深度学习不确定性量化: 技术、应用与挑战》2020综述论文，61页pdf582篇文献

专知会员服务

106+阅读 · 2020年11月16日

可视化特征属性基线的影响，Visualizing the Impact of Feature Attribution Baselines

可视化特征属性基线的影响，Visualizing the Impact of Feature Attribution Baselines

专知会员服务

10+阅读 · 2020年1月16日

【变分推断课件】Lectures on Variational Inference：Statistical Analysis of Variational Approximations（附带pdf）

【变分推断课件】Lectures on Variational Inference：Statistical Analysis of Variational Approximations（附带pdf）

专知会员服务

16+阅读 · 2019年11月30日

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与非官方习题解答

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与非官方习题解答

专知

35+阅读 · 2021年4月17日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

多因素问题分析时，如何确立各因素权重？

多因素问题分析时，如何确立各因素权重？

人人都是产品经理

75+阅读 · 2020年3月4日

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与习题解答，139页pdf

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与习题解答，139页pdf

专知

13+阅读 · 2020年2月9日

一文看懂线性回归（3个优缺点+8种方法评测）

一文看懂线性回归（3个优缺点+8种方法评测）

AINLP

19+阅读 · 2019年10月16日

一文读懂线性回归、岭回归和Lasso回归

一文读懂线性回归、岭回归和Lasso回归

CSDN

34+阅读 · 2019年10月13日

【机器学习】一文读懂线性回归、岭回归和Lasso回归

【机器学习】一文读懂线性回归、岭回归和Lasso回归

AINLP

20+阅读 · 2019年10月12日

【干货】机器学习中的五种回归模型及其优缺点

【干货】机器学习中的五种回归模型及其优缺点

专知

21+阅读 · 2018年3月29日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

量化约束满足问题相变现象研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于周期数据的广义保形拟插值的理论及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

相依重尾随机变量和的渐近性及其在更新风险模型中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

基于狄利克雷过程的潜变量模型贝叶斯半参数分析

国家自然科学基金

2+阅读 · 2014年12月31日

高维稀疏统计模型中的变量选择与检验

国家自然科学基金

1+阅读 · 2014年12月31日

含有隐变量的因果结构学习与统计因果推断

国家自然科学基金

21+阅读 · 2013年12月31日

shapr: Explaining Machine Learning Models with Conditional Shapley Values in R and Python

Arxiv

0+阅读 · 2月2日

Importance Weighted Variational Inference without the Reparameterization Trick

Arxiv

0+阅读 · 2月1日

An Odd Estimator for Shapley Values

Arxiv

0+阅读 · 2月1日

ExplainerPFN: Towards tabular foundation models for model-free zero-shot feature importance estimations

Arxiv

0+阅读 · 1月30日

CLE-SH: Comprehensive Literal Explanation package for SHapley values by statistical validity

Arxiv

0+阅读 · 1月30日

Two-stage Estimation of Latent Variable Regression Models: A General, Root-N Consistent Solution

Arxiv

0+阅读 · 1月24日

Possibilistic Instrumental Variable Regression

Arxiv

0+阅读 · 1月21日

Shapley Value on Uncertain Data

Arxiv

0+阅读 · 1月20日

The Importance of Parameters in Ranking Functions

Arxiv

0+阅读 · 1月9日

Statistical Inference for Covariate-Adjusted and Interpretable Generalized Factor Model with Application to Testing Fairness

Arxiv

0+阅读 · 1月9日

VIP会员

文章信息

相关主题

广义线性模型

相关VIP内容

深度学习中泛化的量化、理解与改进

深度学习中泛化的量化、理解与改进

专知会员服务

17+阅读 · 2025年9月13日

【2023新书】用SHAP解释机器学习模型:Python示例和Shapley值理论指南，216页pdf

【2023新书】用SHAP解释机器学习模型:Python示例和Shapley值理论指南，216页pdf

专知会员服务

83+阅读 · 2023年8月31日

【普林斯顿博士论文】潜变量下的机器学习与优化，239页pdf

【普林斯顿博士论文】潜变量下的机器学习与优化，239页pdf

专知会员服务

39+阅读 · 2023年8月1日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

基于决策树模型重用的分布变化流数据学习

专知会员服务

24+阅读 · 2021年1月30日

《深度潜变量模型的编码视角》博士论文，154页pdf阐述深度潜变量模型(DLVM)中的统计推理与编码的关系

《深度潜变量模型的编码视角》博士论文，154页pdf阐述深度潜变量模型(DLVM)中的统计推理与编码的关系

专知会员服务

22+阅读 · 2021年1月21日

首篇《深度学习不确定性量化: 技术、应用与挑战》2020综述论文，61页pdf582篇文献

专知会员服务

106+阅读 · 2020年11月16日

可视化特征属性基线的影响，Visualizing the Impact of Feature Attribution Baselines

可视化特征属性基线的影响，Visualizing the Impact of Feature Attribution Baselines

专知会员服务

10+阅读 · 2020年1月16日

【变分推断课件】Lectures on Variational Inference：Statistical Analysis of Variational Approximations（附带pdf）

【变分推断课件】Lectures on Variational Inference：Statistical Analysis of Variational Approximations（附带pdf）

专知会员服务

16+阅读 · 2019年11月30日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与非官方习题解答

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与非官方习题解答

专知

35+阅读 · 2021年4月17日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

多因素问题分析时，如何确立各因素权重？

多因素问题分析时，如何确立各因素权重？

人人都是产品经理

75+阅读 · 2020年3月4日

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与习题解答，139页pdf

经典书「统计学习要素（The Elements of Statistical Learning）」笔记与习题解答，139页pdf

专知

13+阅读 · 2020年2月9日

一文看懂线性回归（3个优缺点+8种方法评测）

一文看懂线性回归（3个优缺点+8种方法评测）

AINLP

19+阅读 · 2019年10月16日

一文读懂线性回归、岭回归和Lasso回归

一文读懂线性回归、岭回归和Lasso回归

CSDN

34+阅读 · 2019年10月13日

【机器学习】一文读懂线性回归、岭回归和Lasso回归

【机器学习】一文读懂线性回归、岭回归和Lasso回归

AINLP

20+阅读 · 2019年10月12日

【干货】机器学习中的五种回归模型及其优缺点

【干货】机器学习中的五种回归模型及其优缺点

专知

21+阅读 · 2018年3月29日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

相关论文

shapr: Explaining Machine Learning Models with Conditional Shapley Values in R and Python

Arxiv

0+阅读 · 2月2日

Importance Weighted Variational Inference without the Reparameterization Trick

Arxiv

0+阅读 · 2月1日

An Odd Estimator for Shapley Values

Arxiv

0+阅读 · 2月1日

ExplainerPFN: Towards tabular foundation models for model-free zero-shot feature importance estimations

Arxiv

0+阅读 · 1月30日

CLE-SH: Comprehensive Literal Explanation package for SHapley values by statistical validity

Arxiv

0+阅读 · 1月30日

Two-stage Estimation of Latent Variable Regression Models: A General, Root-N Consistent Solution

Arxiv

0+阅读 · 1月24日

Possibilistic Instrumental Variable Regression

Arxiv

0+阅读 · 1月21日

Shapley Value on Uncertain Data

Arxiv

0+阅读 · 1月20日

The Importance of Parameters in Ranking Functions

Arxiv

0+阅读 · 1月9日

Statistical Inference for Covariate-Adjusted and Interpretable Generalized Factor Model with Application to Testing Fairness

Arxiv

0+阅读 · 1月9日

相关基金

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

量化约束满足问题相变现象研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于周期数据的广义保形拟插值的理论及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

相依重尾随机变量和的渐近性及其在更新风险模型中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

基于狄利克雷过程的潜变量模型贝叶斯半参数分析

国家自然科学基金

2+阅读 · 2014年12月31日

高维稀疏统计模型中的变量选择与检验

国家自然科学基金

1+阅读 · 2014年12月31日

含有隐变量的因果结构学习与统计因果推断

国家自然科学基金

21+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员