Principled Federated Random Forests for Heterogeneous Data - 专知论文

会员服务 ·

0

随机森林 · Principle · Learning · Nature · 联邦学习 ·

Principled Federated Random Forests for Heterogeneous Data

翻译：面向异质数据的原理性联邦随机森林方法

Rémi Khellaf,Erwan Scornet,Aurélien Bellet,Julie Josse

Random Forests (RF) are among the most powerful and widely used predictive models for centralized tabular data, yet few methods exist to adapt them to the federated learning setting. Unlike most federated learning approaches, the piecewise-constant nature of RF prevents exact gradient-based optimization. As a result, existing federated RF implementations rely on unprincipled heuristics: for instance, aggregating decision trees trained independently on clients fails to optimize the global impurity criterion, even under simple distribution shifts. We propose FedForest, a new federated RF algorithm for horizontally partitioned data that naturally accommodates diverse forms of client data heterogeneity, from covariate shift to more complex outcome shift mechanisms. We prove that our splitting procedure, based on aggregating carefully chosen client statistics, closely approximates the split selected by a centralized algorithm. Moreover, FedForest allows splits on client indicators, enabling a non-parametric form of personalization that is absent from prior federated random forest methods. Empirically, we demonstrate that the resulting federated forests closely match centralized performance across heterogeneous benchmarks while remaining communication-efficient.

翻译：随机森林（RF）是用于集中式表格数据最强大且广泛使用的预测模型之一，但目前仅有少数方法将其适配到联邦学习场景。与大多数联邦学习方法不同，RF的逐段常数特性使其无法直接进行基于梯度的优化。因此，现有的联邦RF实现依赖于缺乏原理依据的启发式方法：例如，简单聚合各客户端独立训练的决策树，即使存在简单的分布偏移，也无法优化全局不纯度准则。本文提出FedForest——一种适用于水平分割数据的新型联邦RF算法，该算法能够自然适应多种形式的客户端数据异质性，从协变量偏移到更复杂的结果偏移机制。我们证明，基于聚合精心选取的客户端统计量的分裂过程，能够紧密逼近集中式算法选出的分裂点。此外，FedForest允许在客户端指示变量上进行分裂，从而实现了先前联邦随机森林方法缺失的非参数个性化形式。实验表明，所生成的联邦森林在异质基准测试中与集中式性能高度匹配，同时保持通信高效性。

0

相关内容

随机森林

随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【CMU博士论文】异构网络中可扩展且值得信赖的学习方法，147页pdf

【CMU博士论文】异构网络中可扩展且值得信赖的学习方法，147页pdf

专知会员服务

25+阅读 · 2023年8月27日

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知会员服务

43+阅读 · 2022年12月1日

【MIT博士论文】联邦学习实用方法，143页pdf

【MIT博士论文】联邦学习实用方法，143页pdf

专知会员服务

66+阅读 · 2022年9月24日

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

专知会员服务

29+阅读 · 2022年4月28日

【ICML2021】随机傅立叶特征的量化算法

专知会员服务

25+阅读 · 2021年7月31日

【WWW2021】大规模智能手机数据的异质联邦学习

【WWW2021】大规模智能手机数据的异质联邦学习

专知会员服务

43+阅读 · 2021年3月8日

最新《联邦学习Federated Learning》报告，Federated Learning

最新《联邦学习Federated Learning》报告，Federated Learning

专知会员服务

92+阅读 · 2020年12月2日

随机特征核近似综述: 算法与理论，Random Features for Kernel Approximation: A Survey in Algorithms, Theory, and Beyond

随机特征核近似综述: 算法与理论，Random Features for Kernel Approximation: A Survey in Algorithms, Theory, and Beyond

专知会员服务

33+阅读 · 2020年4月26日

【论文推荐】联邦学习的个性化技术综述，Survey of Personalization Techniques for Federated Learning

【论文推荐】联邦学习的个性化技术综述，Survey of Personalization Techniques for Federated Learning

专知会员服务

79+阅读 · 2020年3月19日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知

11+阅读 · 2022年12月1日

【2022新书】联邦学习：方法和应用的综合概述，531页pdf

【2022新书】联邦学习：方法和应用的综合概述，531页pdf

专知

28+阅读 · 2022年7月14日

最新《联邦学习Federated Learning》报告，47页ppt

最新《联邦学习Federated Learning》报告，47页ppt

专知

48+阅读 · 2020年12月2日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

异常检测怎么做，试试孤立随机森林算法（附代码）

异常检测怎么做，试试孤立随机森林算法（附代码）

机器之心

16+阅读 · 2020年3月15日

周志华团队：深度森林挑战多标签学习，9大数据集超越传统方法

周志华团队：深度森林挑战多标签学习，9大数据集超越传统方法

新智元

18+阅读 · 2019年11月20日

推荐：一文读懂随机森林的解释和实现（附python代码）

推荐：一文读懂随机森林的解释和实现（附python代码）

数据分析

38+阅读 · 2018年12月4日

数据分析师应该知道的16种回归方法：泊松回归

数据分析师应该知道的16种回归方法：泊松回归

数萃大数据

35+阅读 · 2018年9月13日

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

极市平台

16+阅读 · 2018年1月20日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

几类随机种群模型的几乎必然持久性研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机Kolmogorov型系统及其数值解的渐近性质分析

国家自然科学基金

0+阅读 · 2015年12月31日

有限范围随机最优控制系统的数值方法与均场倒向随机系统的最优控制问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于异构信息网络的地理共享数据个性化检索研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

排序集抽样下随机删失数据的非参数估计

国家自然科学基金

1+阅读 · 2014年12月31日

随机方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

随机Helmholtz型问题的数值方法

国家自然科学基金

0+阅读 · 2014年12月31日

HeteRo-Select: Informativeness as the Participation Driver in Heterogeneous Federated Learning

Arxiv

0+阅读 · 6月15日

Quantized Stochastic Primal-Dual Methods for Distributed Optimization under Relaxed Global Geometry

Arxiv

0+阅读 · 6月9日

Correcting Variable Importance Scored by Random Forests

Arxiv

0+阅读 · 6月9日

From Data Heterogeneity to Convergence: A Data-Centric Review of Federated Learning

Arxiv

0+阅读 · 6月9日

Robustly estimating heterogeneity in factorial data using Rashomon Partitions

Arxiv

0+阅读 · 6月5日

Adaptive Conditional Forest Sampling for Spectral Risk Optimisation under Decision-Dependent Uncertainty

Arxiv

0+阅读 · 6月4日

ForestHG-Trace: Traceable Long-Horizon Ecological Reasoning over Large-Scale Forest Scenes

Arxiv

0+阅读 · 6月1日

Local MDI+: Local Feature Importances for Tree-Based Models

Arxiv

0+阅读 · 5月27日

Theory of Optimal Learning Rate Schedules and Scaling Laws for a Random Feature Model

Arxiv

0+阅读 · 5月8日

Efficient Log-Rank Updates for Random Survival Forests

Arxiv

0+阅读 · 4月21日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

7+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

6+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

8+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

9+阅读 · 6月22日

相关VIP内容

【CMU博士论文】异构网络中可扩展且值得信赖的学习方法，147页pdf

【CMU博士论文】异构网络中可扩展且值得信赖的学习方法，147页pdf

专知会员服务

25+阅读 · 2023年8月27日

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知会员服务

43+阅读 · 2022年12月1日

【MIT博士论文】联邦学习实用方法，143页pdf

【MIT博士论文】联邦学习实用方法，143页pdf

专知会员服务

66+阅读 · 2022年9月24日

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

专知会员服务

29+阅读 · 2022年4月28日

【ICML2021】随机傅立叶特征的量化算法

专知会员服务

25+阅读 · 2021年7月31日

【WWW2021】大规模智能手机数据的异质联邦学习

【WWW2021】大规模智能手机数据的异质联邦学习

专知会员服务

43+阅读 · 2021年3月8日

最新《联邦学习Federated Learning》报告，Federated Learning

最新《联邦学习Federated Learning》报告，Federated Learning

专知会员服务

92+阅读 · 2020年12月2日

随机特征核近似综述: 算法与理论，Random Features for Kernel Approximation: A Survey in Algorithms, Theory, and Beyond

随机特征核近似综述: 算法与理论，Random Features for Kernel Approximation: A Survey in Algorithms, Theory, and Beyond

专知会员服务

33+阅读 · 2020年4月26日

【论文推荐】联邦学习的个性化技术综述，Survey of Personalization Techniques for Federated Learning

【论文推荐】联邦学习的个性化技术综述，Survey of Personalization Techniques for Federated Learning

专知会员服务

79+阅读 · 2020年3月19日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知

11+阅读 · 2022年12月1日

【2022新书】联邦学习：方法和应用的综合概述，531页pdf

【2022新书】联邦学习：方法和应用的综合概述，531页pdf

专知

28+阅读 · 2022年7月14日

最新《联邦学习Federated Learning》报告，47页ppt

最新《联邦学习Federated Learning》报告，47页ppt

专知

48+阅读 · 2020年12月2日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

异常检测怎么做，试试孤立随机森林算法（附代码）

异常检测怎么做，试试孤立随机森林算法（附代码）

机器之心

16+阅读 · 2020年3月15日

周志华团队：深度森林挑战多标签学习，9大数据集超越传统方法

周志华团队：深度森林挑战多标签学习，9大数据集超越传统方法

新智元

18+阅读 · 2019年11月20日

推荐：一文读懂随机森林的解释和实现（附python代码）

推荐：一文读懂随机森林的解释和实现（附python代码）

数据分析

38+阅读 · 2018年12月4日

数据分析师应该知道的16种回归方法：泊松回归

数据分析师应该知道的16种回归方法：泊松回归

数萃大数据

35+阅读 · 2018年9月13日

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

极市平台

16+阅读 · 2018年1月20日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

相关论文

HeteRo-Select: Informativeness as the Participation Driver in Heterogeneous Federated Learning

Arxiv

0+阅读 · 6月15日

Quantized Stochastic Primal-Dual Methods for Distributed Optimization under Relaxed Global Geometry

Arxiv

0+阅读 · 6月9日

Correcting Variable Importance Scored by Random Forests

Arxiv

0+阅读 · 6月9日

From Data Heterogeneity to Convergence: A Data-Centric Review of Federated Learning

Arxiv

0+阅读 · 6月9日

Robustly estimating heterogeneity in factorial data using Rashomon Partitions

Arxiv

0+阅读 · 6月5日

Adaptive Conditional Forest Sampling for Spectral Risk Optimisation under Decision-Dependent Uncertainty

Arxiv

0+阅读 · 6月4日

ForestHG-Trace: Traceable Long-Horizon Ecological Reasoning over Large-Scale Forest Scenes

Arxiv

0+阅读 · 6月1日

Local MDI+: Local Feature Importances for Tree-Based Models

Arxiv

0+阅读 · 5月27日

Theory of Optimal Learning Rate Schedules and Scaling Laws for a Random Feature Model

Arxiv

0+阅读 · 5月8日

Efficient Log-Rank Updates for Random Survival Forests

Arxiv

0+阅读 · 4月21日

相关基金

几类随机种群模型的几乎必然持久性研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机Kolmogorov型系统及其数值解的渐近性质分析

国家自然科学基金

0+阅读 · 2015年12月31日

有限范围随机最优控制系统的数值方法与均场倒向随机系统的最优控制问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于异构信息网络的地理共享数据个性化检索研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

排序集抽样下随机删失数据的非参数估计

国家自然科学基金

1+阅读 · 2014年12月31日

随机方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

随机Helmholtz型问题的数值方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员