Synthetic data generation for a longitudinal cohort study -- Evaluation, method extension and reproduction of published data analysis results - 专知论文

会员服务 ·

0

Analysis · Extensibility · Use Case · 统计量 · 原点 ·

2023 年 5 月 12 日

Synthetic data generation for a longitudinal cohort study -- Evaluation, method extension and reproduction of published data analysis results

翻译：纵向队列研究中合成数据的生成——评估、方法扩展与已发表数据分析结果的复现

Lisa Kühnel,Julian Schneider,Ines Perrar,Tim Adams,Fabian Prasser,Ute Nöthlings,Holger Fröhlich,Juliane Fluck

Access to individual-level health data is essential for gaining new insights and advancing science. In particular, modern methods based on artificial intelligence rely on the availability of and access to large datasets. In the health sector, access to individual-level data is often challenging due to privacy concerns. A promising alternative is the generation of fully synthetic data, i.e. data generated through a randomised process that have similar statistical properties as the original data, but do not have a one-to-one correspondence with the original individual-level records. In this study, we use a state-of-the-art synthetic data generation method and perform in-depth quality analyses of the generated data for a specific use case in the field of nutrition. We demonstrate the need for careful analyses of synthetic data that go beyond descriptive statistics and provide valuable insights into how to realise the full potential of synthetic datasets. By extending the methods, but also by thoroughly analysing the effects of sampling from a trained model, we are able to largely reproduce significant real-world analysis results in the chosen use case.

翻译：获取个体层面的健康数据对于获得新见解和推动科学进步至关重要。特别是基于人工智能的现代方法依赖于大规模数据集的可用性与可访问性。在健康领域，由于隐私问题，获取个体层面数据往往面临挑战。一种有前景的替代方案是生成完全合成数据，即通过随机化过程生成的数据，这些数据具有与原始数据相似的统计特性，但与原始个体记录之间不存在一一对应关系。本研究采用目前最先进的合成数据生成方法，针对营养学领域的一个具体用例，对生成数据进行了深入的质量分析。我们论证了需要对合成数据开展超越描述性统计的审慎分析，并为如何充分发挥合成数据集潜力提供了宝贵见解。通过扩展方法以及对基于已训练模型进行采样所产生的效果的深入分析，我们得以在选定用例中较大幅度地复现了真实的实际数据分析结果。

0

相关内容

Analysis

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知会员服务

105+阅读 · 2022年2月10日

NLP必读经典文献100篇

专知会员服务

124+阅读 · 2020年9月8日

2020数据工程师成长路线图

专知会员服务

41+阅读 · 2020年9月6日

社交网络上议题社群的公共焦虑研究，中国人民大学新闻学院塔娜讲师，第八届全国社会媒体处理大会SMP2019

社交网络上议题社群的公共焦虑研究，中国人民大学新闻学院塔娜讲师，第八届全国社会媒体处理大会SMP2019

专知会员服务

15+阅读 · 2019年10月23日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

37+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【代码资源】GAN | 七份最热GAN文章及代码分享（Github 1000+Stars）

【代码资源】GAN | 七份最热GAN文章及代码分享（Github 1000+Stars）

专知

13+阅读 · 2018年6月24日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

【推荐】用Tensorflow理解LSTM

【推荐】用Tensorflow理解LSTM

机器学习研究会

36+阅读 · 2017年9月11日

【推荐】GAN架构入门综述(资源汇总)

【推荐】GAN架构入门综述(资源汇总)

机器学习研究会

10+阅读 · 2017年9月3日

Klystron效应作用下的周期性雾化机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于反射率的动高压加载下温度测量方法

国家自然科学基金

0+阅读 · 2013年12月31日

电磁散射中的无穷曲面锥形散射问题及其反问题

国家自然科学基金

0+阅读 · 2013年12月31日

气固非催化反应中固体产物介尺度结构的形成与生长

国家自然科学基金

0+阅读 · 2013年12月31日

Intraflagellar Transport运输纤毛蛋白的分子机理

国家自然科学基金

0+阅读 · 2012年12月31日

短小芽孢杆菌TUBP1抗棉花黄萎病菌活性成分及作用机理研究

国家自然科学基金

0+阅读 · 2012年12月31日

沥青VOC释放机理及其抑制方法的研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于网络采样的分布式压缩传感系统设计与研究

国家自然科学基金

0+阅读 · 2012年12月31日

线性积分方程的Galerkin快速谱方法

国家自然科学基金

0+阅读 · 2009年12月31日

基于绩效评价的我国高新技术产业开发区公共治理研究

国家自然科学基金

0+阅读 · 2008年12月31日

A Feasibility Study of Differentially Private Summary Statistics and Regression Analyses with Evaluations on Administrative and Survey Data

Arxiv

0+阅读 · 2023年6月30日

Ultimate Pólya Gamma Samplers -- Efficient MCMC for possibly imbalanced binary and categorical data

Arxiv

0+阅读 · 2023年6月30日

A New Integrative Method for Multigroup Comparisons of Censored Survival Outcomes in Multiple Observational Studies

Arxiv

0+阅读 · 2023年6月30日

Unconfounded Meta-analytical Frameworks for Multivariate Outcomes in Multigroup Observational Studies using Concordant Weights

Arxiv

0+阅读 · 2023年6月30日

Synthetic Demographic Data Generation for Card Fraud Detection Using GANs

Synthetic Demographic Data Generation for Card Fraud Detection Using GANs

Arxiv

0+阅读 · 2023年6月29日

Evaluating ChatGPT's Decimal Skills and Feedback Generation in a Digital Learning Game

Arxiv

0+阅读 · 2023年6月29日

The Segment Anything Model (SAM) for Remote Sensing Applications: From Zero to One Shot

Arxiv

0+阅读 · 2023年6月29日

Scenario-based Failure Analysis of Product Systems and their Environment

Arxiv

0+阅读 · 2023年6月25日

A Survey on Graph Counterfactual Explanations: Definitions, Methods, Evaluation

Arxiv

12+阅读 · 2022年10月21日

Machine Learning Methods for Management UAV Flocks -- a Survey

Arxiv

40+阅读 · 2021年8月30日

VIP会员

文章信息

相关主题

最新内容

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

4+阅读 · 今天15:21

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

0+阅读 · 今天15:12

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

2+阅读 · 今天15:06

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

4+阅读 · 今天14:55

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

9+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

7+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

9+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

6+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

9+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

9+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

5+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

3+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

7+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

5+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

6+阅读 · 7月17日

相关VIP内容

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知会员服务

105+阅读 · 2022年2月10日

NLP必读经典文献100篇

专知会员服务

124+阅读 · 2020年9月8日

2020数据工程师成长路线图

专知会员服务

41+阅读 · 2020年9月6日

社交网络上议题社群的公共焦虑研究，中国人民大学新闻学院塔娜讲师，第八届全国社会媒体处理大会SMP2019

社交网络上议题社群的公共焦虑研究，中国人民大学新闻学院塔娜讲师，第八届全国社会媒体处理大会SMP2019

专知会员服务

15+阅读 · 2019年10月23日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

37+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

锻造未来士兵：外骨骼、基因工程与赛博格

《无人机蜂群通信技术研究》50页

深入Project Maven：为何人工智能在战场上依然失灵

《无人机系统（UAS）通信网状网络试验性部署》50页报告

相关资讯

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【代码资源】GAN | 七份最热GAN文章及代码分享（Github 1000+Stars）

【代码资源】GAN | 七份最热GAN文章及代码分享（Github 1000+Stars）

专知

13+阅读 · 2018年6月24日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

【推荐】用Tensorflow理解LSTM

【推荐】用Tensorflow理解LSTM

机器学习研究会

36+阅读 · 2017年9月11日

【推荐】GAN架构入门综述(资源汇总)

【推荐】GAN架构入门综述(资源汇总)

机器学习研究会

10+阅读 · 2017年9月3日

相关论文

A Feasibility Study of Differentially Private Summary Statistics and Regression Analyses with Evaluations on Administrative and Survey Data

Arxiv

0+阅读 · 2023年6月30日

Ultimate Pólya Gamma Samplers -- Efficient MCMC for possibly imbalanced binary and categorical data

Arxiv

0+阅读 · 2023年6月30日

A New Integrative Method for Multigroup Comparisons of Censored Survival Outcomes in Multiple Observational Studies

Arxiv

0+阅读 · 2023年6月30日

Unconfounded Meta-analytical Frameworks for Multivariate Outcomes in Multigroup Observational Studies using Concordant Weights

Arxiv

0+阅读 · 2023年6月30日

Synthetic Demographic Data Generation for Card Fraud Detection Using GANs

Synthetic Demographic Data Generation for Card Fraud Detection Using GANs

Arxiv

0+阅读 · 2023年6月29日

Evaluating ChatGPT's Decimal Skills and Feedback Generation in a Digital Learning Game

Arxiv

0+阅读 · 2023年6月29日

The Segment Anything Model (SAM) for Remote Sensing Applications: From Zero to One Shot

Arxiv

0+阅读 · 2023年6月29日

Scenario-based Failure Analysis of Product Systems and their Environment

Arxiv

0+阅读 · 2023年6月25日

A Survey on Graph Counterfactual Explanations: Definitions, Methods, Evaluation

Arxiv

12+阅读 · 2022年10月21日

Machine Learning Methods for Management UAV Flocks -- a Survey

Arxiv

40+阅读 · 2021年8月30日

相关基金

Klystron效应作用下的周期性雾化机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于反射率的动高压加载下温度测量方法

国家自然科学基金

0+阅读 · 2013年12月31日

电磁散射中的无穷曲面锥形散射问题及其反问题

国家自然科学基金

0+阅读 · 2013年12月31日

气固非催化反应中固体产物介尺度结构的形成与生长

国家自然科学基金

0+阅读 · 2013年12月31日

Intraflagellar Transport运输纤毛蛋白的分子机理

国家自然科学基金

0+阅读 · 2012年12月31日

短小芽孢杆菌TUBP1抗棉花黄萎病菌活性成分及作用机理研究

国家自然科学基金

0+阅读 · 2012年12月31日

沥青VOC释放机理及其抑制方法的研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于网络采样的分布式压缩传感系统设计与研究

国家自然科学基金

0+阅读 · 2012年12月31日

线性积分方程的Galerkin快速谱方法

国家自然科学基金

0+阅读 · 2009年12月31日

基于绩效评价的我国高新技术产业开发区公共治理研究

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员