Synthetic data have gained increasing attention across various domains, with a growing emphasis on their performance in downstream prediction tasks. However, most existing synthesis strategies focus on maintaining statistical information. Although some studies address prediction performance guarantees, their single-stage synthesis designs make it challenging to balance the privacy requirements that necessitate significant perturbations and the prediction performance that is sensitive to such perturbations. We propose a two-stage synthesis strategy. In the first stage, we introduce a synthesis-then-hybrid strategy, which involves a synthesis operation to generate pure synthetic data, followed by a hybrid operation that fuses the synthetic data with the original data. In the second stage, we present a kernel ridge regression (KRR)-based synthesis strategy, where a KRR model is first trained on the original data and then used to generate synthetic outputs based on the synthetic inputs produced in the first stage. By leveraging the theoretical strengths of KRR and the covariant distribution retention achieved in the first stage, our proposed two-stage synthesis strategy enables a statistics-driven restricted privacy--prediction trade-off and guarantee optimal prediction performance. We validate our approach and demonstrate its characteristics of being statistics-driven and restricted in achieving the privacy--prediction trade-off both theoretically and numerically. Additionally, we showcase its generalizability through applications to a marketing problem and five real-world datasets.


翻译:合成数据在各个领域日益受到关注,其在下游预测任务中的性能愈发受到重视。然而,现有的大多数合成策略主要侧重于保持统计信息。尽管部分研究涉及预测性能保证,但其单阶段合成设计难以平衡需要显著扰动的隐私要求与对此类扰动敏感的预测性能。我们提出一种两阶段合成策略。在第一阶段,我们引入“合成-混合”策略,该策略首先通过合成操作生成纯合成数据,随后通过混合操作将合成数据与原始数据融合。在第二阶段,我们提出一种基于核岭回归(KRR)的合成策略:首先在原始数据上训练KRR模型,然后利用该模型基于第一阶段生成的合成输入来生成合成输出。通过结合KRR的理论优势与第一阶段实现的协变分布保持特性,我们提出的两阶段合成策略能够实现基于统计的受限隐私-预测权衡,并保证最优预测性能。我们从理论和数值上验证了所提方法,并证明了其在实现隐私-预测权衡时具有基于统计和受限的特性。此外,我们通过一个营销问题及五个真实数据集的案例应用展示了该方法的泛化能力。

0
下载
关闭预览

相关内容

《利用合成数据生成加强军事决策支持》
专知会员服务
42+阅读 · 2024年12月30日
《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
谷歌最新《大语言模型合成数据的最佳实践和经验教训》
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
基于深度学习的数据融合方法研究综述
专知
37+阅读 · 2020年12月10日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
综述——隐私保护集合交集计算技术研究
计算机研究与发展
22+阅读 · 2017年10月24日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员