Nonlinear Data Integration via Kernel Methods for Data Collaboration Analysis

Collaborative analysis of decentralized confidential datasets is important, but direct sharing of original datasets is often restricted by privacy and institutional constraints. Data collaboration (DC) analysis transforms each dataset into privacy-preserving intermediate representations via party-specific obfuscation functions and integrates them into common collaboration representations using an anchor dataset. However, many existing DC analysis methods rely on linear transformations for data obfuscation and integration, which may increase reconstruction risk. Although nonlinear dimensionality reduction can mitigate this risk, conventional linear integration methods cannot accurately align intermediate representations produced by nonlinear transformations. Moreover, existing integration methods mainly minimize discrepancies among parties and do not explicitly incorporate geometric or target-variable information useful for downstream analysis. To overcome these limitations, we first formulate linear kernel integration (LKI) as a linear integration method and then kernelize it to obtain nonlinear kernel integration (NKI). NKI admits a globally optimal solution via kernel ridge regression and an eigenvalue problem. We also introduce graph regularization and a centering constraint so that the target representation can capture geometric and target-variable information useful for downstream analysis. Experiments on image classification tasks demonstrate that NKI improves classification accuracy over existing linear integration methods under nonlinear dimensionality reduction, with further gains from target-variable-aware graph regularization and centering. The results also show that dimensionality reduction choices substantially affect both classification accuracy and reconstruction risk.

翻译：去中心化保密数据集的协同分析具有重要意义，但直接共享原始数据集常受限于隐私和机构政策约束。数据协同分析通过各参与方特有的混淆函数将每个数据集转换为保护隐私的中间表示，并利用锚定数据集将其集成为公共协同表示。然而，现有数据协同分析方法多依赖线性变换进行数据混淆与集成，这可能增加重构风险。尽管非线性降维可缓解此风险，但传统线性集成方法无法准确对齐非线性变换生成的中间表示。此外，现有集成方法主要致力于最小化各方间的差异，并未显式纳入对后续分析有益的几何或目标变量信息。为克服这些局限，我们首先将线性核集成（LKI）公式化为线性集成方法，再通过核化技术得到非线性核集成（NKI）方法。NKI通过核岭回归与特征值问题获得全局最优解。我们还引入图正则化与中心化约束，使目标表示能捕获对下游分析有益的几何与目标变量信息。在图像分类任务上的实验表明，在非线性降维条件下，NKI相比现有线性集成方法提升了分类准确率，而引入目标变量感知的图正则化与中心化后性能进一步提升。结果同时显示，降维方案的选择对分类准确率与重构风险均有显著影响。