Federated Learning (FL) enables collaborative model training among multiple parties without centralizing raw data. There are two main paradigms in FL: Horizontal FL (HFL), where all participants share the same feature space but hold different samples, and Vertical FL (VFL), where parties possess complementary features for the same set of samples. A prerequisite for VFL training is privacy-preserving entity alignment (PPEA), which establishes a common index of samples across parties (alignment) without revealing which samples are shared between them. Conventional private set intersection (PSI) achieves alignment but leaks intersection membership, exposing sensitive relationships between datasets. The standard private set union (PSU) mitigates this risk by aligning on the union of identifiers rather than the intersection. However, existing approaches are often limited to two parties or lack support for typo-tolerant matching. In this paper, we introduce the Sherpa.ai multi-party PSU protocol for VFL, a PPEA method that hides intersection membership and enables both exact and noisy matching. The protocol generalizes two-party approaches to multiple parties with low communication overhead and offers two variants: an order-preserving version for exact alignment and an unordered version tolerant to typographical and formatting discrepancies. We prove correctness and privacy, analyze communication and computational (exponentiation) complexity, and formalize a universal index mapping from local records to a shared index space. This multi-party PSU offers a scalable, mathematically grounded protocol for PPEA in real-world VFL deployments, such as multi-institutional healthcare disease detection, collaborative risk modeling between banks and insurers, and cross-domain fraud detection between telecommunications and financial institutions, while preserving intersection privacy.


翻译:联邦学习(FL)支持多方在不集中原始数据的前提下开展协作模型训练。FL包含两种主要范式:水平联邦学习(HFL)中所有参与方共享相同特征空间但持有不同样本,垂直联邦学习(VFL)中各方对同一组样本拥有互补特征。VFL训练的前提是隐私保护实体对齐(PPEA),该方法可在不揭示各方共享样本的前提下建立跨参与方的样本公共索引(对齐)。传统隐私集合求交(PSI)虽能实现对齐,但会泄露交集成员信息,暴露数据集之间的敏感关系。标准的隐私集合求并(PSU)通过基于标识符并集(而非交集)进行对齐来规避此风险。然而,现有方法往往局限于两方协作或缺乏对容忍拼写错误匹配的支持。本文提出面向VFL的Sherpa.ai多方PSU协议——一种能够隐藏交集成员信息并支持精确匹配与噪声匹配的PPEA方法。该协议将两方方法推广至多方场景且通信开销较低,提供两种变体:用于精确对齐的保序版本和可容忍拼写错误与格式差异的无序版本。我们证明了该协议的正确性与隐私性,分析其通信复杂度与计算(模幂运算)复杂度,并形式化实现了从本地记录到共享索引空间的通用索引映射。这种多方PSU为实际VFL部署(如多机构联合疾病检测、银行与保险机构间的协作风险建模、电信与金融领域的跨域欺诈检测)提供了一种可扩展且数学基础严谨的PPEA协议,同时保障了交集隐私。

0
下载
关闭预览

相关内容

【剑桥大学博士论文】联邦自监督学习,141页pdf
专知会员服务
19+阅读 · 2024年6月15日
「联邦学习隐私保护 」最新2022研究综述
专知会员服务
117+阅读 · 2022年4月1日
专知会员服务
36+阅读 · 2021年7月9日
最新《联邦学习Federated Learning》报告,Federated Learning
专知会员服务
92+阅读 · 2020年12月2日
「联邦学习隐私保护 」最新2022研究综述
专知
16+阅读 · 2022年4月1日
联邦学习安全与隐私保护研究综述
专知
12+阅读 · 2020年8月7日
【学界】虚拟对抗训练:一种新颖的半监督学习正则化方法
GAN生成式对抗网络
10+阅读 · 2019年6月9日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
1+阅读 · 今天16:54
Agentic RL:框架、实践与长程智能体训练
专知会员服务
1+阅读 · 今天16:52
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员