Multi-omics data integration is crucial for understanding complex diseases, yet limited sample sizes, noise, and heterogeneity often reduce predictive power. To address these challenges, we introduce Omics-GAN, a Generative Adversarial Network (GAN)-based framework designed to generate high-quality synthetic multi-omics profiles while preserving biological relationships. We evaluated Omics-GAN on three omics types (mRNA, miRNA, and DNA methylation) using the ROSMAP cohort for Alzheimer's disease (AD) and TCGA datasets for colon and liver cancer. A support vector machine (SVM) classifier with repeated 5-fold cross-validation demonstrated that synthetic datasets consistently improved prediction accuracy compared to original omics profiles. The AUC of SVM for mRNA improved from 0.72 to 0.74 in AD, and from 0.68 to 0.72 in liver cancer. Synthetic miRNA enhanced classification in colon cancer from 0.59 to 0.69, while synthetic methylation data improved performance in liver cancer from 0.64 to 0.71. Boxplot analyses confirmed that synthetic data preserved statistical distributions while reducing noise and outliers. Feature selection identified significant genes overlapping with original datasets and revealed additional candidates validated by GO and KEGG enrichment analyses. Finally, molecular docking highlighted potential drug repurposing candidates, including Nilotinib for AD, Atovaquone for liver cancer, and Tecovirimat for colon cancer. Omics-GAN enhances disease prediction, preserves biological fidelity, and accelerates biomarker and drug discovery, offering a scalable strategy for precision medicine applications.


翻译:多组学数据整合对于理解复杂疾病至关重要,但有限的样本量、噪声和异质性往往会降低预测能力。为应对这些挑战,我们提出了Omics-GAN,这是一个基于生成对抗网络(GAN)的框架,旨在生成高质量合成多组学图谱的同时保持生物学关联。我们使用ROSMAP队列的阿尔茨海默病(AD)数据以及TCGA数据集的结肠癌和肝癌数据,在三种组学类型(mRNA、miRNA和DNA甲基化)上评估了Omics-GAN。采用重复5折交叉验证的支持向量机(SVM)分类器表明,与原始组学图谱相比,合成数据集持续提升了预测准确率。在AD中,SVM对mRNA的AUC从0.72提升至0.74;在肝癌中,从0.68提升至0.72。合成miRNA将结肠癌的分类性能从0.59提升至0.69,而合成甲基化数据将肝癌的性能从0.64提升至0.71。箱线图分析证实合成数据在降低噪声和异常值的同时保留了统计分布特性。特征选择识别出与原始数据集重叠的显著基因,并通过GO和KEGG富集分析验证了额外候选基因。最后,分子对接分析揭示了潜在的药物重定位候选物,包括用于AD的尼洛替尼、用于肝癌的阿托伐醌以及用于结肠癌的特考韦瑞。Omics-GAN提升了疾病预测能力,保持了生物学保真度,并加速了生物标志物和药物发现,为精准医学应用提供了一种可扩展的策略。

0
下载
关闭预览

相关内容

FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
31+阅读 · 2019年10月17日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员