Federated learning enables institutions to train predictive models collaboratively without sharing raw data, addressing privacy and regulatory constraints. In the standard horizontal setting, clients hold disjoint cohorts of individuals and collaborate to learn a shared predictor. Most existing methods, however, assume that all clients measure the same features. We study the more realistic setting of covariate mismatch, where each client observes a different subset of features, which typically arises in multicenter collaborations with no prior agreement on data collection. We formalize learning a linear prediction under client-wise MCAR patterns and develop two modular approaches tailored to the dimensional regime and communication budget. In the low-dimensional setting, we propose a plug-in estimator that approximates the oracle linear predictor by aggregating sufficient statistics to estimate the covariance and cross-moment terms. In higher dimensions, we study an impute-then-regress strategy: (i) impute missing covariates using any exchangeability-preserving imputation procedure, and (ii) fit a ridge-regularized linear model on the completed data. We provide asymptotic and finite-sample learning rates for our predictors, explicitly characterizing their behaviour with the global dimension, the client-specific feature partition, and the distribution of samples across sites.


翻译:联邦学习使机构能够在无需共享原始数据的情况下协作训练预测模型,从而解决隐私和监管约束。在标准的横向设置中,客户端持有不相交的个体队列,并协作学习共享预测器。然而,现有方法大多假设所有客户端测量相同的特征。我们研究更现实的协变量不匹配设置,其中每个客户端观测到不同的特征子集,这通常出现在事先未就数据收集达成协议的多中心协作中。我们在客户端层面的完全随机缺失模式下形式化线性预测学习,并针对维度机制和通信预算开发了两种模块化方法。在低维设置中,我们提出一种插件估计器,通过聚合充分统计量来估计协方差和交叉矩项,从而近似最优线性预测器。在更高维度中,我们研究一种先填补后回归的策略:(i) 使用任何保持可交换性的填补程序填补缺失协变量,(ii) 在完整数据上拟合岭正则化线性模型。我们为预测器提供了渐近和有限样本学习率,明确刻画了其与全局维度、客户端特定特征划分以及跨站点样本分布的关系。

0
下载
关闭预览

相关内容

【CMU博士论文】校准不确定性量化的方法及其效用解析
专知会员服务
22+阅读 · 2025年9月1日
联邦学习中的成员推断攻击与防御:综述
专知会员服务
17+阅读 · 2024年12月15日
《联邦学习中的对抗性攻击》48页论文
专知会员服务
40+阅读 · 2023年11月1日
6G中联邦学习的应用、挑战和机遇
专知会员服务
52+阅读 · 2022年3月14日
最新《联邦学习Federated Learning》报告,Federated Learning
专知会员服务
92+阅读 · 2020年12月2日
联邦学习研究综述
专知
11+阅读 · 2021年12月25日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
论文笔记之attention mechanism专题1:SA-Net(CVPR 2018)
统计学习与视觉计算组
16+阅读 · 2018年4月5日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
Arxiv
0+阅读 · 1月20日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员