In data-sensitive domains such as healthcare, cross-silo federated learning (CFL) allows organizations to collaboratively train AI models without sharing raw data. However, practical CFL deployments are inherently coopetitive, in which organizations cooperate during model training while competing in downstream markets. In such settings, training contributions, including data volume, quality, and diversity, can improve the global model yet inadvertently strengthen rivals. This dilemma is amplified by non-IID data, which leads to asymmetric learning gains and undermines sustained participation. While existing competition-aware CFL and incentive-design approaches reward organizations based on marginal training contributions, they fail to account for the costs of strengthening competitors. In this paper, we introduce CoCoGen+, a coopetition-compatible data generation and incentivization framework that jointly models non-IID data and inter-organizational competition while endogenizing GenAI-based synthetic data generation as a strategic decision. Specifically, CoCoGen+ formulates each training round as a weighted potential game, where organizations strategically decide how much synthetic data to generate by balancing learning performance gains against computational costs and competition-caused utility losses. We then provide a tractable equilibrium characterization and derive implementable generation strategies to maximize social welfare. To promote long-term collaboration, we integrate a payoff redistribution-based incentive mechanism to compensate organizations for their contributions and competition-caused utility degradation. Experiments on varying learning tasks validate the feasibility of CoCoGen+. The results show how non-IID data, competition intensity, and incentives shape organizational strategies and social welfare, while CoCoGen+ outperforms baselines in efficiency.


翻译:在医疗保健等数据敏感领域,跨孤岛联邦学习(CFL)使组织能够在无需共享原始数据的情况下协作训练AI模型。然而,实际部署的CFL本质上是竞合性的,组织在模型训练阶段合作,却在下游市场相互竞争。在此类场景中,数据数量、质量和多样性等训练贡献虽然能改善全局模型,却可能无意间增强竞争对手的实力。非独立同分布(non-IID)数据进一步放大了这一困境,导致非对称学习收益并削弱持续参与意愿。虽现有竞争感知型CFL和激励机制设计方法基于边际训练贡献对组织进行补偿,却未能考虑强化竞争对手所带来的成本。本文提出CoCoGen+,一个兼容竞合关系的数据生成与激励框架,该框架联合建模非IID数据与组织间竞争,并将基于GenAI的合成数据生成内生化作为战略性决策。具体而言,CoCoGen+将每轮训练建模为加权势博弈,组织通过权衡学习性能提升、计算成本与竞争导致的效用损失,策略性地决定合成数据生成量。我们进一步给出可处理的均衡特征刻画,并导出可实施的生成策略以最大化社会福利。为促进长期协作,我们集成基于收益再分配的激励机制,以补偿组织因贡献和竞争导致的效用损失。在多种学习任务上的实验验证了CoCoGen+的可行性,结果表明非IID数据、竞争强度与激励机制如何塑造组织策略及社会福利,同时CoCoGen+在效率上优于基线方法。

0
下载
关闭预览

相关内容

【MIT博士论文】联邦学习实用方法,143页pdf
专知会员服务
66+阅读 · 2022年9月24日
移动边缘网络中联邦学习效率优化综述
专知会员服务
50+阅读 · 2022年7月9日
最新《联邦学习Federated Learning》报告,Federated Learning
专知会员服务
92+阅读 · 2020年12月2日
联邦学习研究综述
专知
11+阅读 · 2021年12月25日
基于深度学习的数据融合方法研究综述
专知
37+阅读 · 2020年12月10日
联邦学习安全与隐私保护研究综述
专知
12+阅读 · 2020年8月7日
联邦学习或将助力IoT走出“数据孤岛”?
中国计算机学会
20+阅读 · 2019年3月16日
国家自然科学基金
338+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
338+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员