Collaborative analysis of decentralized confidential datasets is important, but direct sharing of original datasets is often restricted by privacy and institutional constraints. Data collaboration (DC) analysis transforms each dataset into privacy-preserving intermediate representations via party-specific obfuscation functions and integrates them into common collaboration representations using an anchor dataset. However, many existing DC analysis methods rely on linear transformations for data obfuscation and integration, which may increase reconstruction risk. Although nonlinear dimensionality reduction can mitigate this risk, conventional linear integration methods cannot accurately align intermediate representations produced by nonlinear transformations. Moreover, existing integration methods mainly minimize discrepancies among parties and do not explicitly incorporate geometric or target-variable information useful for downstream analysis. To overcome these limitations, we first formulate linear kernel integration (LKI) as a linear integration method and then kernelize it to obtain nonlinear kernel integration (NKI). NKI admits a globally optimal solution via kernel ridge regression and an eigenvalue problem. We also introduce graph regularization and a centering constraint so that the target representation can capture geometric and target-variable information useful for downstream analysis. Experiments on image classification tasks demonstrate that NKI improves classification accuracy over existing linear integration methods under nonlinear dimensionality reduction, with further gains from target-variable-aware graph regularization and centering. The results also show that dimensionality reduction choices substantially affect both classification accuracy and reconstruction risk.


翻译:去中心化保密数据集的协同分析具有重要意义,但直接共享原始数据集常受限于隐私和机构政策约束。数据协同分析通过各参与方特有的混淆函数将每个数据集转换为保护隐私的中间表示,并利用锚定数据集将其集成为公共协同表示。然而,现有数据协同分析方法多依赖线性变换进行数据混淆与集成,这可能增加重构风险。尽管非线性降维可缓解此风险,但传统线性集成方法无法准确对齐非线性变换生成的中间表示。此外,现有集成方法主要致力于最小化各方间的差异,并未显式纳入对后续分析有益的几何或目标变量信息。为克服这些局限,我们首先将线性核集成(LKI)公式化为线性集成方法,再通过核化技术得到非线性核集成(NKI)方法。NKI通过核岭回归与特征值问题获得全局最优解。我们还引入图正则化与中心化约束,使目标表示能捕获对下游分析有益的几何与目标变量信息。在图像分类任务上的实验表明,在非线性降维条件下,NKI相比现有线性集成方法提升了分类准确率,而引入目标变量感知的图正则化与中心化后性能进一步提升。结果同时显示,降维方案的选择对分类准确率与重构风险均有显著影响。

0
下载
关闭预览

相关内容

Integration:Integration, the VLSI Journal。 Explanation:集成,VLSI杂志。 Publisher:Elsevier。 SIT:http://dblp.uni-trier.de/db/journals/integration/
干货书《数据融合:理论、方法和应用》289页
专知会员服务
131+阅读 · 2023年4月2日
面向关系型数据与知识图谱的数据集成技术综述
专知会员服务
53+阅读 · 2022年12月30日
专知会员服务
125+阅读 · 2021年7月22日
专知会员服务
16+阅读 · 2021年7月7日
专知会员服务
51+阅读 · 2021年4月9日
专知会员服务
27+阅读 · 2021年2月2日
基于深度学习的数据融合方法研究综述
专知会员服务
147+阅读 · 2020年12月10日
基于深度学习的数据融合方法研究综述
专知
37+阅读 · 2020年12月10日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
【深度学习】深度学习的核心:掌握训练数据的方法
产业智能官
12+阅读 · 2018年1月14日
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
综述——隐私保护集合交集计算技术研究
计算机研究与发展
22+阅读 · 2017年10月24日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月27日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
5+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员