Random forests are widely used prediction procedures, yet are typically described algorithmically rather than as statistical designs acting on a fixed set of covariates. We develop a finite-sample, design-based formulation of random forests in which each tree is an explicit randomized conditional regression function. This perspective yields an exact variance identity for the forest predictor that separates finite-aggregation variability from a structural dependence term that persists even under infinite aggregation. We further decompose both single-tree dispersion and inter-tree covariance using the laws of total variance and covariance, isolating two fundamental design mechanisms-reuse of training observations and alignment of data-adaptive partitions. These mechanisms induce a strict covariance floor, demonstrating that predictive variability cannot be eliminated by increasing the number of trees alone. The resulting framework clarifies how resampling, feature-level randomization, and split selection govern resolution, tree variability, and dependence, and establishes random forests as explicit finite-sample statistical designs whose behavior is determined by their underlying randomized construction.


翻译:随机森林是广泛使用的预测方法,但通常以算法形式描述,而非作为作用于固定协变量集的统计设计。我们提出了一种有限样本、基于设计的随机森林表述,其中每棵树均为显式的随机化条件回归函数。该视角为森林预测器导出了一个精确的方差恒等式,将有限聚合变异性与即使在无限聚合下仍持续存在的结构性依赖项分离开来。我们进一步利用全方差定律和全协方差定律分解了单棵树离散度与树间协方差,分离出两个基本设计机制——训练观测值的重复利用与数据自适应划分的对齐。这些机制产生了严格的协方差下限,证明仅通过增加树的数量无法消除预测变异性。该框架阐明了重抽样、特征级随机化与分割选择如何控制分辨率、树变异性及依赖性,并将随机森林确立为显式的有限样本统计设计,其行为由其潜在的随机化构造决定。

0
下载
关闭预览

相关内容

【经典书】随机矩阵理论与无线网络,186和pdf
专知会员服务
52+阅读 · 2021年12月21日
【干货书】面向工程师的随机过程,448页pdf
专知会员服务
80+阅读 · 2021年11月3日
【干货书】贝叶斯推断随机过程,449页pdf
专知
30+阅读 · 2020年8月27日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
17+阅读 · 2019年1月24日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
统计学常用数据类型
论智
19+阅读 · 2018年7月6日
酒鬼漫步的数学——随机过程 | 张天蓉专栏
知识分子
10+阅读 · 2017年8月13日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月15日
VIP会员
相关资讯
【干货书】贝叶斯推断随机过程,449页pdf
专知
30+阅读 · 2020年8月27日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
17+阅读 · 2019年1月24日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
统计学常用数据类型
论智
19+阅读 · 2018年7月6日
酒鬼漫步的数学——随机过程 | 张天蓉专栏
知识分子
10+阅读 · 2017年8月13日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员