The global uniform aggregation of random forests leaves conditional bias along the decision boundary uncorrected. To correct this locally, we propose exploiting the structural pattern of each tree's decision path. At inference, a random forest reaches its prediction through the root-to-leaf path the sample traverses in each tree, so path-level reliability offers a finer granularity than tree-level weighting can access. We show that reliability varies meaningfully across path patterns in the boundary region identified by the forest itself, and that using this signal yields a statistically significant accuracy improvement over RF on 36 binary classification benchmarks (Wilcoxon p < 0.0001). We further devise a way to measure the sufficiency of residual information in the fitted RF's decision boundary, providing an estimate of the expected gain before the method is applied; on the qualifying group identified this way, the method delivers a mean +0.99 pp accuracy improvement with strict wins on every dataset (7/0/0). Class-recall regression -- the typical failure mode of RF correction methods -- is measured: zero minority-recall regressions and a single majority-recall regression at the 0.2 pp threshold, indicating that the correction operates in the direction of bias reduction rather than class trade-off. Our work suggests that the structural information of decision paths, previously overlooked in random forest research, can contribute to RF performance improvement.


翻译:随机森林的全局均匀聚合方式无法修正决策边界上存在的条件偏差。为此,我们提出利用每棵树决策路径的结构模式进行局部修正。在推理阶段,随机森林通过样本在每棵树中从根节点到叶节点的路径达成预测,因此路径级可靠性比树级权重能提供更精细的粒度。我们证明,在森林自身识别的边界区域内,不同路径模式的可靠性存在显著差异,且利用该信号可在36个二分类基准测试中较随机森林获得统计显著的精度提升(Wilcoxon检验p<0.0001)。我们进一步设计了一种方法,用于衡量已拟合随机森林决策边界中残余信息的充分性,从而在方法应用前预估预期收益:在以此方式识别的合格组中,该方法平均提升0.99个百分点精度,且在每个数据集上均实现严格胜出(7胜0平0负)。对类别召回率回归——随机森林修正方法的典型失效模式——进行了测量:在0.2个百分点阈值下,未出现少数类召回率回归,仅出现单次多数类召回率回归,表明该修正沿着偏差减少而非类别权衡的方向运行。我们的研究表明,此前在随机森林研究中被忽视的决策路径结构信息,能够有效提升随机森林性能。

0
下载
关闭预览

相关内容

随机森林 指的是利用多棵树对样本进行训练并预测的一种分类器。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
《主观概率约束下寻找可行系统及其军事应用》69页
专知会员服务
29+阅读 · 2025年9月27日
改进型深度确定性策略梯度的无人机路径规划
专知会员服务
15+阅读 · 2025年5月1日
《军事危机模拟中语言模型自由决策不一致性度量》
专知会员服务
22+阅读 · 2024年10月29日
《基于信念的决策建模计算框架》141页
专知会员服务
71+阅读 · 2024年4月27日
专知会员服务
26+阅读 · 2021年7月17日
专知会员服务
24+阅读 · 2021年1月30日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
使用随机森林分类器预测森林火灾规模
论智
13+阅读 · 2018年5月15日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员