One important direction of Federated Foundation Models (FedFMs) is leveraging data from small client models to enhance the performance of a large server-side foundation model. Existing methods based on model level or representation level knowledge transfer either require expensive local training or incur high communication costs and introduce unavoidable privacy risks. We reformulate this problem as a reinforcement learning style evaluation process and propose FedGRPO, a privacy preserving framework comprising two modules. The first module performs competence-based expert selection by building a lightweight confidence graph from auxiliary data to identify the most suitable clients for each question. The second module leverages the "Group Relative" concept from the Group Relative Policy Optimization (GRPO) framework by packaging each question together with its solution rationale into candidate policies, dispatching these policies to a selected subset of expert clients, and aggregating solely the resulting scalar reward signals via a federated group-relative loss function. By exchanging reward values instead of data or model updates, FedGRPO reduces privacy risk and communication overhead while enabling parallel evaluation across heterogeneous devices. Empirical results on diverse domain tasks demonstrate that FedGRPO achieves superior downstream accuracy and communication efficiency compared to conventional FedFMs baselines.


翻译:联邦基础模型(FedFMs)的一个重要方向是利用来自小型客户端模型的数据来提升大型服务器端基础模型的性能。现有基于模型级或表示级知识迁移的方法,要么需要昂贵的本地训练,要么导致高昂的通信成本并引入不可避免的隐私风险。我们将此问题重新表述为一个强化学习式的评估过程,并提出 FedGRPO——一个包含两个模块的隐私保护框架。第一个模块执行基于能力的专家选择,通过从辅助数据构建轻量级置信度图,为每个问题识别最合适的客户端。第二个模块借鉴了群体相对策略优化(GRPO)框架中的“群体相对”思想,将每个问题与其解答原理打包成候选策略,将这些策略分发给选定的专家客户端子集,并通过一个联邦群体相对损失函数仅聚合最终得到的标量奖励信号。通过交换奖励值而非数据或模型更新,FedGRPO 在降低隐私风险和通信开销的同时,实现了跨异构设备的并行评估。在多个领域任务上的实证结果表明,与传统的 FedFMs 基线方法相比,FedGRPO 在获得更优的下游任务准确率的同时,也实现了更高的通信效率。

0
下载
关闭预览

相关内容

【CMU博士论文】通信高效且差分隐私的优化方法
专知会员服务
15+阅读 · 2025年8月2日
模型联邦网络构建及示范应用
专知会员服务
11+阅读 · 2025年7月31日
「联邦学习模型安全与隐私」研究进展
专知会员服务
69+阅读 · 2022年9月24日
移动边缘网络中联邦学习效率优化综述
专知会员服务
49+阅读 · 2022年7月9日
【WWW2021】大规模智能手机数据的异质联邦学习
专知会员服务
43+阅读 · 2021年3月8日
最新《联邦学习Federated Learning》报告,Federated Learning
专知会员服务
92+阅读 · 2020年12月2日
专知会员服务
127+阅读 · 2020年8月7日
「联邦学习隐私保护 」最新2022研究综述
专知
16+阅读 · 2022年4月1日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
联邦学习安全与隐私保护研究综述
专知
12+阅读 · 2020年8月7日
【资源】联邦学习相关文献资源大列表
专知
10+阅读 · 2020年2月25日
联邦学习或将助力IoT走出“数据孤岛”?
中国计算机学会
20+阅读 · 2019年3月16日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员