Federated Learning (FL) enables multiple parties to collaboratively train machine learning models without sharing raw data. However, before training, data must be preprocessed to address missing values, inconsistent formats, and heterogeneous feature scales. This preprocessing stage is critical for model performance but is largely overlooked in FL research. In practical FL systems, privacy constraints prohibit centralizing raw data, while communication efficiency introduces further challenges for distributed preprocessing. We introduce FedPS, a unified framework for federated data preprocessing based on aggregated statistics. FedPS leverages data-sketching techniques to efficiently summarize local datasets while preserving essential statistical information. Building on these summaries, we design federated algorithms for feature scaling, encoding, discretization, and missing-value imputation, and extend preprocessing-related models such as k-Means, k-Nearest Neighbors, and Bayesian Linear Regression to both horizontal and vertical FL settings. FedPS provides flexible, communication-efficient, and consistent preprocessing pipelines for practical FL deployments.


翻译:联邦学习(Federated Learning, FL)允许多方在不共享原始数据的情况下协作训练机器学习模型。然而,在训练之前,必须对数据进行预处理以处理缺失值、不一致的格式和异构的特征尺度。这一预处理阶段对模型性能至关重要,但在联邦学习研究中很大程度上被忽视。在实际的联邦学习系统中,隐私约束禁止集中原始数据,而通信效率则为分布式预处理带来了进一步的挑战。我们提出了FedPS,一个基于聚合统计的统一联邦数据预处理框架。FedPS利用数据素描技术高效地汇总本地数据集,同时保留必要的统计信息。基于这些汇总,我们设计了用于特征缩放、编码、离散化和缺失值插补的联邦算法,并将k-Means、k-最近邻和贝叶斯线性回归等与预处理相关的模型扩展到横向和纵向联邦学习设置中。FedPS为实际的联邦学习部署提供了灵活、通信高效且一致的预处理流程。

0
下载
关闭预览

相关内容

联邦图学习的全面数据中心化综述
专知会员服务
23+阅读 · 2025年7月23日
【剑桥大学博士论文】联邦自监督学习,141页pdf
专知会员服务
19+阅读 · 2024年6月15日
【2022新书】联邦学习:方法和应用的综合概述
专知会员服务
149+阅读 · 2022年7月14日
亚马逊最新《联邦学习》简明综述
专知会员服务
85+阅读 · 2022年2月6日
【WWW2021】大规模智能手机数据的异质联邦学习
专知会员服务
43+阅读 · 2021年3月8日
最新《联邦学习Federated Learning》报告,Federated Learning
专知会员服务
92+阅读 · 2020年12月2日
联邦学习研究综述
专知
11+阅读 · 2021年12月25日
【资源】联邦学习相关文献资源大列表
专知
10+阅读 · 2020年2月25日
联邦学习或将助力IoT走出“数据孤岛”?
中国计算机学会
20+阅读 · 2019年3月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员