Random Forests (RF) are among the most powerful and widely used predictive models for centralized tabular data, yet few methods exist to adapt them to the federated learning setting. Unlike most federated learning approaches, the piecewise-constant nature of RF prevents exact gradient-based optimization. As a result, existing federated RF implementations rely on unprincipled heuristics: for instance, aggregating decision trees trained independently on clients fails to optimize the global impurity criterion, even under simple distribution shifts. We propose FedForest, a new federated RF algorithm for horizontally partitioned data that naturally accommodates diverse forms of client data heterogeneity, from covariate shift to more complex outcome shift mechanisms. We prove that our splitting procedure, based on aggregating carefully chosen client statistics, closely approximates the split selected by a centralized algorithm. Moreover, FedForest allows splits on client indicators, enabling a non-parametric form of personalization that is absent from prior federated random forest methods. Empirically, we demonstrate that the resulting federated forests closely match centralized performance across heterogeneous benchmarks while remaining communication-efficient.


翻译:随机森林(RF)是用于集中式表格数据最强大且广泛使用的预测模型之一,但目前仅有少数方法将其适配到联邦学习场景。与大多数联邦学习方法不同,RF的逐段常数特性使其无法直接进行基于梯度的优化。因此,现有的联邦RF实现依赖于缺乏原理依据的启发式方法:例如,简单聚合各客户端独立训练的决策树,即使存在简单的分布偏移,也无法优化全局不纯度准则。本文提出FedForest——一种适用于水平分割数据的新型联邦RF算法,该算法能够自然适应多种形式的客户端数据异质性,从协变量偏移到更复杂的结果偏移机制。我们证明,基于聚合精心选取的客户端统计量的分裂过程,能够紧密逼近集中式算法选出的分裂点。此外,FedForest允许在客户端指示变量上进行分裂,从而实现了先前联邦随机森林方法缺失的非参数个性化形式。实验表明,所生成的联邦森林在异质基准测试中与集中式性能高度匹配,同时保持通信高效性。

0
下载
关闭预览

相关内容

随机森林 指的是利用多棵树对样本进行训练并预测的一种分类器。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【MIT博士论文】联邦学习实用方法,143页pdf
专知会员服务
66+阅读 · 2022年9月24日
专知会员服务
25+阅读 · 2021年7月31日
【WWW2021】大规模智能手机数据的异质联邦学习
专知会员服务
43+阅读 · 2021年3月8日
最新《联邦学习Federated Learning》报告,Federated Learning
专知会员服务
92+阅读 · 2020年12月2日
数据分析师应该知道的16种回归方法:泊松回归
数萃大数据
35+阅读 · 2018年9月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
【MIT博士论文】联邦学习实用方法,143页pdf
专知会员服务
66+阅读 · 2022年9月24日
专知会员服务
25+阅读 · 2021年7月31日
【WWW2021】大规模智能手机数据的异质联邦学习
专知会员服务
43+阅读 · 2021年3月8日
最新《联邦学习Federated Learning》报告,Federated Learning
专知会员服务
92+阅读 · 2020年12月2日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员