The use of synthetic data to deidentify data and to improve predictive models is well-attested to. The augmentation of datasets using synthetically generated data is an alluring proposition: in the best case, it generates realistic data \textit{in silico} at a fraction of the cost of authentic data which may be found \textit{in vivo} or \textit{in vitro}. This poses novel epistemic challenges. We contend that synthetic data augmentation is best understood as a novel way of accounting for prior knowledge. In this manuscript, we propose a definition of synthetic distributions and analyze how synthetic data augmentation interplays with standard accounts of maximum likelihood and Bayesian estimation. We observe that the marginal Fisher information contributed by synthetic data processes is subject to fundamental bounds, and enumerate obstacles to the use of synthetic data augmentation to aid in inferential tasks. We then articulate a Bayesian formulation of the way that synthetic data augmentation can be coherently understood, but argue that naive approaches to the specification of the prior are epistemically unjustifiable. This suggests that enhanced scrutiny must be placed on identifying justifiable priors to warrant the use and inclusion of data drawn from specific synthetic distributions. While our analysis shows the challenges and limitations of using synthetic data augmentation to improve upon traditional statistical model reasoning, it does suggest that augmentation is the principal approach analysts using outcome reasoning (i.e. using train/test splits to justify the analysis) can constrain an otherwise high-dimensional model space, providing an alternative to trying to encode the constraints into the potentially complex architecture of the algorithm.


翻译:使用合成数据进行数据脱敏和提升预测模型的有效性已得到充分证实。通过合成生成的数据集进行扩增是一种极具吸引力的方案:在最佳情况下,它能以极低成本生成与真实数据(如体内或体外数据)相似的计算机模拟数据。这带来了新的认识论挑战。我们认为,合成数据扩增应被理解为一种整合先验知识的新方法。本文提出了合成分布的定义,并分析了合成数据扩增如何与标准极大似然估计和贝叶斯估计相互作用。我们观察到,合成数据过程提供的边际Fisher信息受制于基本界限,并列举了利用合成数据扩增辅助推断任务所面临的障碍。随后,我们阐述了合成数据扩增可被连贯理解的贝叶斯公式,但指出先验设定的朴素方法在认识论上缺乏合理性。这表明必须加强对可辩护先验的审查,以证明使用特定合成分布生成的数据的合理性。尽管我们的分析揭示了使用合成数据扩增改进传统统计模型推理的挑战与限制,但结果表明,对于采用结果推理(即通过训练/测试分割验证分析)的分析者而言,扩增是约束高维模型空间的主要手段,为将约束编码至算法可能复杂的架构提供了替代方案。

0
下载
关闭预览

相关内容

《利用合成数据生成加强军事决策支持》
专知会员服务
43+阅读 · 2024年12月30日
《大语言模型的数据合成与增强综述》
专知会员服务
44+阅读 · 2024年10月19日
谷歌最新《大语言模型合成数据的最佳实践和经验教训》
最新《生成式数据增强的统一框架》综述,85页pdf
专知会员服务
66+阅读 · 2023年10月8日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
专家报告 | 融合数据先验知识的智能图像增强
中国图象图形学报
16+阅读 · 2020年5月25日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
VIP会员
相关主题
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 20分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 22分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
2+阅读 · 34分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 54分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员