Should I use Synthetic Data for That? An Analysis of the Suitability of Synthetic Data for Data Sharing and Augmentation - 专知论文

会员服务 ·

0

合成 · 合成数据 · 分析 · 形式化 · 数据集 ·

Should I use Synthetic Data for That? An Analysis of the Suitability of Synthetic Data for Data Sharing and Augmentation

翻译：合成数据适用于此吗？——关于合成数据在数据共享与增强中适用性的分析

Bogdan Kulynych,Theresa Stadler,Jean Louis Raisaro,Carmela Troncoso

from arxiv, BK and TS contributed equally

Recent advances in generative modelling have led many to see synthetic data as the go-to solution for a range of problems around data access, scarcity, and under-representation. In this paper, we study three prominent use cases: (1) Sharing synthetic data as a proxy for proprietary datasets to enable statistical analyses while protecting privacy, (2) Augmenting machine learning training sets with synthetic data to improve model performance, and (3) Augmenting datasets with synthetic data to reduce variance in statistical estimation. For each use case, we formalise the problem setting and study, through formal analysis and case studies, under which conditions synthetic data can achieve its intended objectives. We identify fundamental and practical limits that constrain when synthetic data can serve as an effective solution for a particular problem. Our analysis reveals that due to these limits many existing or envisioned use cases of synthetic data are a poor problem fit. Our formalisations and classification of synthetic data use cases enable decision makers to assess whether synthetic data is a suitable approach for their specific data availability problem.

翻译：生成建模的最新进展使许多人将合成数据视为解决数据访问、稀缺性和代表性不足等一系列问题的首选方案。本文研究了三个主要应用场景：(1) 将合成数据作为专有数据集的代理进行共享，在保护隐私的同时支持统计分析；(2) 利用合成数据扩充机器学习训练集以提升模型性能；(3) 通过合成数据增强数据集以降低统计估计的方差。针对每个应用场景，我们通过形式化分析和案例研究，明确了问题设定并探讨了合成数据在何种条件下能够实现其预期目标。我们揭示了制约合成数据在特定问题中能否成为有效解决方案的基础性限制与实践性局限。分析表明，由于这些限制，许多现有或设想中的合成数据应用场景与实际问题并不匹配。本研究对合成数据应用场景的形式化描述与分类，能够帮助决策者评估合成数据是否适合解决其特定的数据可用性问题。

0

相关内容

【新书】合成数据与生成式人工智能

【新书】合成数据与生成式人工智能

专知会员服务

48+阅读 · 2025年2月9日

《利用合成数据生成加强军事决策支持》

《利用合成数据生成加强军事决策支持》

专知会员服务

43+阅读 · 2024年12月30日

大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

专知会员服务

32+阅读 · 2024年12月10日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

44+阅读 · 2024年10月19日

【MIT博士论文】合成数据的视觉表示学习

【MIT博士论文】合成数据的视觉表示学习

专知会员服务

27+阅读 · 2024年8月25日

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

专知会员服务

66+阅读 · 2024年4月17日

最新《生成式数据增强的统一框架》综述，85页pdf

最新《生成式数据增强的统一框架》综述，85页pdf

专知会员服务

66+阅读 · 2023年10月8日

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

专知会员服务

69+阅读 · 2023年10月5日

【AI与军事】《有限数据下的深度学习：一种合成方法》最新53页技术报告

【AI与军事】《有限数据下的深度学习：一种合成方法》最新53页技术报告

专知会员服务

89+阅读 · 2022年7月5日

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知会员服务

105+阅读 · 2022年2月10日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

【2022新书】机器学习的实用模拟与合成，428页pdf

【2022新书】机器学习的实用模拟与合成，428页pdf

专知

18+阅读 · 2022年8月10日

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

【实用书】数据科学和机器学习:数学和统计方法，533页pdf，Python手把手带你掌握机器学习

【实用书】数据科学和机器学习:数学和统计方法，533页pdf，Python手把手带你掌握机器学习

专知

20+阅读 · 2022年5月28日

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知

10+阅读 · 2022年2月10日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知

37+阅读 · 2020年12月10日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

专知

26+阅读 · 2019年2月19日

数据增强：数据有限时如何使用深度学习？（续）

数据增强：数据有限时如何使用深度学习？（续）

AI研习社

14+阅读 · 2018年5月6日

关于数据挖掘，有几本书推荐给你......

关于数据挖掘，有几本书推荐给你......

图灵教育

16+阅读 · 2017年10月11日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

17+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

面向DS证据理论的关联信息融合研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

面向地理模型集成与运行的数据适配方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于相关性的大数据分类理论与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下融合多源信息的推荐系统关键问题研究

国家自然科学基金

6+阅读 · 2014年12月31日

面向大数据的粒计算理论与方法

国家自然科学基金

4+阅读 · 2014年12月31日

ReTabSyn: Realistic Tabular Data Synthesis via Reinforcement Learning

Arxiv

0+阅读 · 3月11日

Harnessing Synthetic Data from Generative AI for Statistical Inference

Arxiv

0+阅读 · 3月5日

Measuring Privacy vs. Fidelity in Synthetic Social Media Datasets

Arxiv

0+阅读 · 3月5日

Do We Need All the Synthetic Data? Targeted Image Augmentation via Diffusion Models

Arxiv

0+阅读 · 3月4日

Measuring Privacy vs. Fidelity in Synthetic Social Media Datasets

Arxiv

0+阅读 · 3月4日

A Scoping Review of Synthetic Data Generation by Language Models in Biomedical Research and Application: Data Utility and Quality Perspectives

Arxiv

0+阅读 · 2月17日

A Survey on Generative Modeling with Limited Data, Few Shots, and Zero Shot

Arxiv

0+阅读 · 2月14日

What Is Wrong with Synthetic Data for Scene Text Recognition? A Strong Synthetic Engine with Diverse Simulations and Self-Evolution

Arxiv

0+阅读 · 2月6日

Synthesizing Realistic Test Data without Breaking Privacy

Arxiv

0+阅读 · 2月5日

Rethinking Anonymity Claims in Synthetic Data Generation: A Model-Centric Privacy Attack Perspective

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

3+阅读 · 今天14:49

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

1+阅读 · 今天14:25

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

2+阅读 · 今天13:57

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

2+阅读 · 今天13:27

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

11+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

10+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

8+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

6+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

8+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

9+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

8+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

10+阅读 · 7月20日

相关VIP内容

【新书】合成数据与生成式人工智能

【新书】合成数据与生成式人工智能

专知会员服务

48+阅读 · 2025年2月9日

《利用合成数据生成加强军事决策支持》

《利用合成数据生成加强军事决策支持》

专知会员服务

43+阅读 · 2024年12月30日

大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

专知会员服务

32+阅读 · 2024年12月10日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

44+阅读 · 2024年10月19日

【MIT博士论文】合成数据的视觉表示学习

【MIT博士论文】合成数据的视觉表示学习

专知会员服务

27+阅读 · 2024年8月25日

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

专知会员服务

66+阅读 · 2024年4月17日

最新《生成式数据增强的统一框架》综述，85页pdf

最新《生成式数据增强的统一框架》综述，85页pdf

专知会员服务

66+阅读 · 2023年10月8日

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

专知会员服务

69+阅读 · 2023年10月5日

【AI与军事】《有限数据下的深度学习：一种合成方法》最新53页技术报告

【AI与军事】《有限数据下的深度学习：一种合成方法》最新53页技术报告

专知会员服务

89+阅读 · 2022年7月5日

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知会员服务

105+阅读 · 2022年2月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

对抗环境下超视距目标打击的情报支援

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

【2022新书】机器学习的实用模拟与合成，428页pdf

【2022新书】机器学习的实用模拟与合成，428页pdf

专知

18+阅读 · 2022年8月10日

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

【实用书】数据科学和机器学习:数学和统计方法，533页pdf，Python手把手带你掌握机器学习

【实用书】数据科学和机器学习:数学和统计方法，533页pdf，Python手把手带你掌握机器学习

专知

20+阅读 · 2022年5月28日

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知

10+阅读 · 2022年2月10日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知

37+阅读 · 2020年12月10日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

专知

26+阅读 · 2019年2月19日

数据增强：数据有限时如何使用深度学习？（续）

数据增强：数据有限时如何使用深度学习？（续）

AI研习社

14+阅读 · 2018年5月6日

关于数据挖掘，有几本书推荐给你......

关于数据挖掘，有几本书推荐给你......

图灵教育

16+阅读 · 2017年10月11日

相关论文

ReTabSyn: Realistic Tabular Data Synthesis via Reinforcement Learning

Arxiv

0+阅读 · 3月11日

Harnessing Synthetic Data from Generative AI for Statistical Inference

Arxiv

0+阅读 · 3月5日

Measuring Privacy vs. Fidelity in Synthetic Social Media Datasets

Arxiv

0+阅读 · 3月5日

Do We Need All the Synthetic Data? Targeted Image Augmentation via Diffusion Models

Arxiv

0+阅读 · 3月4日

Measuring Privacy vs. Fidelity in Synthetic Social Media Datasets

Arxiv

0+阅读 · 3月4日

A Scoping Review of Synthetic Data Generation by Language Models in Biomedical Research and Application: Data Utility and Quality Perspectives

Arxiv

0+阅读 · 2月17日

A Survey on Generative Modeling with Limited Data, Few Shots, and Zero Shot

Arxiv

0+阅读 · 2月14日

What Is Wrong with Synthetic Data for Scene Text Recognition? A Strong Synthetic Engine with Diverse Simulations and Self-Evolution

Arxiv

0+阅读 · 2月6日

Synthesizing Realistic Test Data without Breaking Privacy

Arxiv

0+阅读 · 2月5日

Rethinking Anonymity Claims in Synthetic Data Generation: A Model-Centric Privacy Attack Perspective

Arxiv

0+阅读 · 1月30日

相关基金

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

17+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

面向DS证据理论的关联信息融合研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

面向地理模型集成与运行的数据适配方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于相关性的大数据分类理论与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下融合多源信息的推荐系统关键问题研究

国家自然科学基金

6+阅读 · 2014年12月31日

面向大数据的粒计算理论与方法

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员