Correcting Variable Importance Scored by Random Forests - 专知论文

会员服务 ·

0

相关性 · 随机森林 · 分析 · 模型解释 · 模型选择 ·

Correcting Variable Importance Scored by Random Forests

翻译：修正随机森林的变量重要性评分

Guancheng Zhou,Haiping Xu,Jason Liu,Donghui Yan

from arxiv, 22 pages, 10 figures

Variable importance produced by Random Forests (RF) is used widely in statistical data analysis, and has played an important role in a variety of tasks such as assisting model interpretation, model selection and diagnosis, and cost-bounded learning etc. However, the calculation of variable importance in RF does not take into account of the correlations among variables, and variables that are correlated to many other variables tend to receive a lower importance index or being completely masked (i.e., with an importance index near zero) by other strongly correlated variables. To prevent influence from unwanted correlated variables in calculating variable importance, we propose to group variables by their conditional correlations (conditional on the response variable). We explore two computationally efficient options, with one grouping variables individually, and then separates the variable of interest from all correlated variables, while the other uses clustering to group variables according to their pair-wise conditional correlations. Our experiments show that both lead to sensible corrections to the importance of variables.

翻译：随机森林（RF）产生的变量重要性在统计数据分析中广泛应用，并在辅助模型解释、模型选择与诊断、成本受限学习等多种任务中发挥重要作用。然而，RF中变量重要性的计算未考虑变量间的相关性，与其他多个变量相关的变量往往会获得较低的重要性指数，或完全被其他强相关变量掩盖（即重要性指数接近零）。为避免计算变量重要性时受到不相关相关变量的影响，我们提出根据变量间的条件相关性（以响应变量为条件）对变量进行分组。我们探索了两种计算高效的方案：一种是将变量逐一分组，并将目标变量与所有相关变量分离；另一种是利用聚类方法，根据变量对之间的条件相关性进行分组。实验表明，这两种方法都能对变量重要性进行合理的修正。

0

相关内容

相关性

【CMU博士论文】分布偏移下的不确定性量化，226页pdf

【CMU博士论文】分布偏移下的不确定性量化，226页pdf

专知会员服务

31+阅读 · 2023年9月30日

【普林斯顿博士论文】潜变量下的机器学习与优化，239页pdf

【普林斯顿博士论文】潜变量下的机器学习与优化，239页pdf

专知会员服务

39+阅读 · 2023年8月1日

清华等最新《因果强化学习》综述，29页pdf详述因果强化学习方法与评价

清华等最新《因果强化学习》综述，29页pdf详述因果强化学习方法与评价

专知会员服务

102+阅读 · 2023年2月13日

《随机森林排列特征在离子迁移光谱特征选择中的重要性》2022最新美国陆军研究实验室24页论文

《随机森林排列特征在离子迁移光谱特征选择中的重要性》2022最新美国陆军研究实验室24页论文

专知会员服务

20+阅读 · 2022年10月28日

因果如何用于推荐？中科大最新WWW2022《因果推荐: 进展与未来方向》教程，附123页ppt

因果如何用于推荐？中科大最新WWW2022《因果推荐: 进展与未来方向》教程，附123页ppt

专知会员服务

108+阅读 · 2022年4月28日

基于决策树模型重用的分布变化流数据学习

专知会员服务

24+阅读 · 2021年1月30日

【瑞典林大博士论文】基于高斯马尔可夫随机场的可扩展贝叶斯空间分析，66页pdf

【瑞典林大博士论文】基于高斯马尔可夫随机场的可扩展贝叶斯空间分析，66页pdf

专知会员服务

46+阅读 · 2020年9月19日

随机特征核近似综述: 算法与理论，Random Features for Kernel Approximation: A Survey in Algorithms, Theory, and Beyond

随机特征核近似综述: 算法与理论，Random Features for Kernel Approximation: A Survey in Algorithms, Theory, and Beyond

专知会员服务

33+阅读 · 2020年4月26日

【论文推荐WWW2020-UIUC】修正排序系统中的选择偏差：Correcting for Selection Bias in Learning-to-rank Systems

【论文推荐WWW2020-UIUC】修正排序系统中的选择偏差：Correcting for Selection Bias in Learning-to-rank Systems

专知会员服务

32+阅读 · 2020年2月1日

【变分推断课件】Lectures on Variational Inference：Statistical Analysis of Variational Approximations（附带pdf）

【变分推断课件】Lectures on Variational Inference：Statistical Analysis of Variational Approximations（附带pdf）

专知会员服务

16+阅读 · 2019年11月30日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

异常检测怎么做，试试孤立随机森林算法（附代码）

异常检测怎么做，试试孤立随机森林算法（附代码）

机器之心

16+阅读 · 2020年3月15日

多因素问题分析时，如何确立各因素权重？

多因素问题分析时，如何确立各因素权重？

人人都是产品经理

75+阅读 · 2020年3月4日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

推荐：一文读懂随机森林的解释和实现（附python代码）

推荐：一文读懂随机森林的解释和实现（附python代码）

数据分析

38+阅读 · 2018年12月4日

异常检测的阈值，你怎么选？给你整理好了...

异常检测的阈值，你怎么选？给你整理好了...

机器学习算法与Python学习

10+阅读 · 2018年9月19日

使用随机森林分类器预测森林火灾规模

使用随机森林分类器预测森林火灾规模

论智

13+阅读 · 2018年5月15日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

随机图和随机环境中的接触过程、选举模型、排他过程

国家自然科学基金

0+阅读 · 2015年12月31日

几类随机种群模型的几乎必然持久性研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机Kolmogorov型系统及其数值解的渐近性质分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于枯枝落叶层水分原位测定方法创新的森林土壤水分迁移模型检验与评价

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于背包式MLS与UAV遥感协同的单木-林分尺度森林地上生物量精细反演

国家自然科学基金

1+阅读 · 2014年12月31日

基于多尺度分析的森林群落木本植物种-面积关系区域分异及其影响因素研究

国家自然科学基金

0+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

高维稀疏统计模型中的变量选择与检验

国家自然科学基金

1+阅读 · 2014年12月31日

Statistical Advantages of Oblique Randomized Decision Trees and Forests

Arxiv

0+阅读 · 6月16日

Conditional Local Importance by Quantile Expectations

Arxiv

0+阅读 · 6月15日

Provable Recovery of Locally Important Signed Features and Interactions from Random Forest

Arxiv

0+阅读 · 6月10日

Honesty in Causal Forests: When It Helps and When It Hurts

Arxiv

0+阅读 · 6月2日

Local MDI+: Local Feature Importances for Tree-Based Models

Arxiv

0+阅读 · 5月27日

Decision-Path Patterns as Tree Reliability Signals: Path-based Adaptive Weighting for Random Forest Classification

Arxiv

0+阅读 · 5月27日

Consistency of Honest Decision Trees and Random Forests

Arxiv

0+阅读 · 5月20日

Principled Federated Random Forests for Heterogeneous Data

Arxiv

0+阅读 · 5月7日

Efficient Log-Rank Updates for Random Survival Forests

Arxiv

0+阅读 · 4月21日

Regularized estimation for highly multivariate spatial Gaussian random fields

Arxiv

0+阅读 · 4月8日

VIP会员

文章信息

相关主题

最新内容

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

1+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

1+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

2+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

2+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

3+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

6+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

6+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

3+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

4+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

4+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

4+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

3+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

7+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

6+阅读 · 6月16日

相关VIP内容

【CMU博士论文】分布偏移下的不确定性量化，226页pdf

【CMU博士论文】分布偏移下的不确定性量化，226页pdf

专知会员服务

31+阅读 · 2023年9月30日

【普林斯顿博士论文】潜变量下的机器学习与优化，239页pdf

【普林斯顿博士论文】潜变量下的机器学习与优化，239页pdf

专知会员服务

39+阅读 · 2023年8月1日

清华等最新《因果强化学习》综述，29页pdf详述因果强化学习方法与评价

清华等最新《因果强化学习》综述，29页pdf详述因果强化学习方法与评价

专知会员服务

102+阅读 · 2023年2月13日

《随机森林排列特征在离子迁移光谱特征选择中的重要性》2022最新美国陆军研究实验室24页论文

《随机森林排列特征在离子迁移光谱特征选择中的重要性》2022最新美国陆军研究实验室24页论文

专知会员服务

20+阅读 · 2022年10月28日

因果如何用于推荐？中科大最新WWW2022《因果推荐: 进展与未来方向》教程，附123页ppt

因果如何用于推荐？中科大最新WWW2022《因果推荐: 进展与未来方向》教程，附123页ppt

专知会员服务

108+阅读 · 2022年4月28日

基于决策树模型重用的分布变化流数据学习

专知会员服务

24+阅读 · 2021年1月30日

【瑞典林大博士论文】基于高斯马尔可夫随机场的可扩展贝叶斯空间分析，66页pdf

【瑞典林大博士论文】基于高斯马尔可夫随机场的可扩展贝叶斯空间分析，66页pdf

专知会员服务

46+阅读 · 2020年9月19日

随机特征核近似综述: 算法与理论，Random Features for Kernel Approximation: A Survey in Algorithms, Theory, and Beyond

随机特征核近似综述: 算法与理论，Random Features for Kernel Approximation: A Survey in Algorithms, Theory, and Beyond

专知会员服务

33+阅读 · 2020年4月26日

【论文推荐WWW2020-UIUC】修正排序系统中的选择偏差：Correcting for Selection Bias in Learning-to-rank Systems

【论文推荐WWW2020-UIUC】修正排序系统中的选择偏差：Correcting for Selection Bias in Learning-to-rank Systems

专知会员服务

32+阅读 · 2020年2月1日

【变分推断课件】Lectures on Variational Inference：Statistical Analysis of Variational Approximations（附带pdf）

【变分推断课件】Lectures on Variational Inference：Statistical Analysis of Variational Approximations（附带pdf）

专知会员服务

16+阅读 · 2019年11月30日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

相关资讯

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

异常检测怎么做，试试孤立随机森林算法（附代码）

异常检测怎么做，试试孤立随机森林算法（附代码）

机器之心

16+阅读 · 2020年3月15日

多因素问题分析时，如何确立各因素权重？

多因素问题分析时，如何确立各因素权重？

人人都是产品经理

75+阅读 · 2020年3月4日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

推荐：一文读懂随机森林的解释和实现（附python代码）

推荐：一文读懂随机森林的解释和实现（附python代码）

数据分析

38+阅读 · 2018年12月4日

异常检测的阈值，你怎么选？给你整理好了...

异常检测的阈值，你怎么选？给你整理好了...

机器学习算法与Python学习

10+阅读 · 2018年9月19日

使用随机森林分类器预测森林火灾规模

使用随机森林分类器预测森林火灾规模

论智

13+阅读 · 2018年5月15日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

相关论文

Statistical Advantages of Oblique Randomized Decision Trees and Forests

Arxiv

0+阅读 · 6月16日

Conditional Local Importance by Quantile Expectations

Arxiv

0+阅读 · 6月15日

Provable Recovery of Locally Important Signed Features and Interactions from Random Forest

Arxiv

0+阅读 · 6月10日

Honesty in Causal Forests: When It Helps and When It Hurts

Arxiv

0+阅读 · 6月2日

Local MDI+: Local Feature Importances for Tree-Based Models

Arxiv

0+阅读 · 5月27日

Decision-Path Patterns as Tree Reliability Signals: Path-based Adaptive Weighting for Random Forest Classification

Arxiv

0+阅读 · 5月27日

Consistency of Honest Decision Trees and Random Forests

Arxiv

0+阅读 · 5月20日

Principled Federated Random Forests for Heterogeneous Data

Arxiv

0+阅读 · 5月7日

Efficient Log-Rank Updates for Random Survival Forests

Arxiv

0+阅读 · 4月21日

Regularized estimation for highly multivariate spatial Gaussian random fields

Arxiv

0+阅读 · 4月8日

相关基金

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

随机图和随机环境中的接触过程、选举模型、排他过程

国家自然科学基金

0+阅读 · 2015年12月31日

几类随机种群模型的几乎必然持久性研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机Kolmogorov型系统及其数值解的渐近性质分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于枯枝落叶层水分原位测定方法创新的森林土壤水分迁移模型检验与评价

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于背包式MLS与UAV遥感协同的单木-林分尺度森林地上生物量精细反演

国家自然科学基金

1+阅读 · 2014年12月31日

基于多尺度分析的森林群落木本植物种-面积关系区域分异及其影响因素研究

国家自然科学基金

0+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

高维稀疏统计模型中的变量选择与检验

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员