Random forests construct each tree with a different, randomised representation of the feature space. Their uniform voting cannot correct errors in regions where trees with incorrect representations probabilistically outnumber correct ones, even when the ensemble collectively holds enough correct information -- a reducible error that this paper addresses. We propose using the structural pattern of each tree's decision path as a per-sample reliability signal to identify and differentially weight the more reliable trees. At inference, a random forest reaches its prediction through the root-to-leaf path the sample traverses in each tree, so path-level reliability offers a finer granularity than tree-level weighting can access. We show that this reliability varies meaningfully across path patterns in the boundary region identified by the forest itself, and that using this signal yields a statistically significant accuracy improvement over RF on 36 binary classification benchmarks (Wilcoxon p < 0.0001). We further devise a way to quantify the reducible error accessible to the method from the fitted RF alone; this estimate correlates strongly with per-dataset gain (Pearson r = +0.840, p < 0.0001), and on the qualifying group it identifies, the method delivers a mean +0.99 pp accuracy improvement with strict wins on every dataset (7/0/0). Class-recall regression -- the typical failure mode of RF correction methods -- is measured: zero minority-recall regressions and a single majority-recall regression at the 0.2 pp threshold, indicating that the correction operates in the direction of bias reduction rather than class trade-off. Our work suggests that the structural information of decision paths, previously overlooked in random forest research, can contribute to RF performance improvement.


翻译:随机森林通过为每棵树构建特征空间的不同随机表示来实现分类。当具有错误表示的树在概率上多于正确表示的树时,即使集成整体拥有足够的正确信息,其均匀投票也无法纠正这些区域的错误——这是本文旨在解决的可减少误差。我们提出将每棵树决策路径的结构模式作为每个样本的可靠性信号,以识别并差异化加权更可靠的树。在推理阶段,随机森林通过样本在每棵树中遍历的根到叶路径做出预测,因此路径级可靠性提供了比树级加权更细的粒度。我们证明,在森林自身识别的边界区域中,这种可靠性在不同路径模式间存在显著差异,且利用该信号能在36个二分类基准测试上实现相较于RF的统计显著精度提升(Wilcoxon p < 0.0001)。我们进一步设计了一种方法,仅从拟合的RF出发即可量化该方法可访问的可减少误差;该估计值与数据集的增益高度相关(Pearson r = +0.840, p < 0.0001),且在其识别的符合条件组中,该方法实现了平均+0.99个百分点的精度提升,并在所有数据集上获得严格优胜(7/0/0)。对类别召回率回归——RF校正方法的典型失效模式——进行了测量:在0.2个百分点阈值下,未出现少数类召回率回归,仅出现单次多数类召回率回归,表明校正操作朝着减少偏差而非类别权衡的方向进行。我们的研究表明,先前在随机森林研究中被忽视的决策路径结构信息,有助于提升RF性能。

0
下载
关闭预览

相关内容

随机森林 指的是利用多棵树对样本进行训练并预测的一种分类器。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
决策智能中的时间序列预测大模型
专知会员服务
34+阅读 · 1月7日
《基于信念的决策建模计算框架》141页
专知会员服务
71+阅读 · 2024年4月27日
【ETHZ博士论文】分布不确定性下的决策,234页pdf
专知会员服务
49+阅读 · 2024年4月5日
专知会员服务
26+阅读 · 2021年7月17日
专知会员服务
24+阅读 · 2021年1月30日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
使用随机森林分类器预测森林火灾规模
论智
13+阅读 · 2018年5月15日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员