Synthetic data generation is increasingly used in applications involving privacy preservation, data sharing, and data scarcity. In many situations, preserving the dependence structure of the original data is of central interest. In this work, we propose a lightweight postprocessing methodology for synthetic tabular data based on the Orthogonal Procrustes problem. Starting from an already generated synthetic dataset, our approach constructs the closest dataset that restores the Pearson correlation structure of the original data. On the theoretical side, we show that preserving Pearson correlation is equivalent to the action of linear orthogonal maps in the centered-data subspace, and then deploy the Orthogonal Procrustes problem. However, in order for this to hold, we first establish a result ensuring that applying the Orthogonal Procrustes step remains in the aforementioned subspace under suitable assumptions. Applications to several datasets and synthetic data generators illustrate the effectiveness of the proposed approach. In particular, the numerical experiments indicate that the correlation structure can be restored while largely preserving the individual feature distributions, the geometry of the data, and the performance of downstream classification tasks.


翻译:合成数据生成在涉及隐私保护、数据共享和数据稀缺的应用中日益普及。在许多情境下,保持原始数据的依赖结构至关重要。本文提出一种基于正交Procrustes问题的轻量级后处理方法,适用于合成表格数据。从已生成的合成数据集出发,我们构建了最接近原始数据且能恢复其Pearson相关结构的数据集。理论层面,我们证明了保持Pearson相关性与中心化数据子空间中的线性正交映射作用等价,进而引入了正交Procrustes问题。然而,为确保此结论成立,我们首先建立了一个结果,确保在适当假设下应用正交Procrustes步骤仍能保持在上述子空间内。在多个数据集和合成数据生成器上的应用验证了该方法的有效性。特别地,数值实验表明,该方法能够在很大程度上保持个体特征分布、数据几何结构及下游分类任务性能的同时,恢复相关结构。

0
下载
关闭预览

相关内容

从图像去噪到成像逆问题的正则化:综述
专知会员服务
14+阅读 · 2025年9月4日
《探索军事决策支持系统中合成数据的保真度》
专知会员服务
40+阅读 · 2025年2月28日
《利用合成数据生成加强军事决策支持》
专知会员服务
43+阅读 · 2024年12月30日
【MIT博士论文】合成数据的视觉表示学习
专知会员服务
27+阅读 · 2024年8月25日
谷歌最新《大语言模型合成数据的最佳实践和经验教训》
最新《生成式数据增强的统一框架》综述,85页pdf
专知会员服务
65+阅读 · 2023年10月8日
基于深度学习的数据融合方法研究综述
专知
37+阅读 · 2020年12月10日
最新《图嵌入组合优化》综述论文,40页pdf
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
相关性≠因果:概率图模型和do-calculus
论智
31+阅读 · 2018年10月29日
综述——隐私保护集合交集计算技术研究
计算机研究与发展
22+阅读 · 2017年10月24日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月4日
Arxiv
0+阅读 · 5月14日
Arxiv
0+阅读 · 5月6日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员