Interpreting gene expression data requires methods that can uncover coordinated patterns corresponding to biological pathways. Traditional approaches such as principal component analysis and factor models reduce dimensionality, but latent components may have unclear biological meaning. Current approaches to incorporate pathway annotations impose restrictive assumptions, require extensive hyperparameter tuning, and do not provide principled uncertainty quantification, hindering the robustness and reproducibility of results. Here, we develop Bayesian Analysis with gene-Sets Informed Latent space (BASIL), a scalable Bayesian factor modeling framework that incorporates gene pathway annotations into latent variable analysis for RNA-sequencing data. BASIL places structured priors on factor loadings, shrinking them toward combinations of annotated gene sets, enhancing biological interpretability and stability, while simultaneously learning new unstructured components. BASIL provides accurate covariance estimates and uncertainty quantification, without resorting to computationally expensive Markov chain Monte Carlo sampling. An automatic empirical Bayes procedure eliminates the need for manual hyperparameter tuning, promoting reproducibility and usability in practice. In simulations and large-scale human transcriptomic datasets, BASIL consistently outperforms state-of-the-art approaches, accurately reconstructing gene-gene covariance, selecting the correct latent dimension, and identifying biologically coherent modules.


翻译:解读基因表达数据需要能够揭示与生物通路相对应的协调模式的方法。传统方法如主成分分析和因子模型虽能降低维度,但其潜在组分可能缺乏明确的生物学意义。当前整合通路注释的方法存在限制性假设、需要大量超参数调优且无法提供原则性的不确定性量化,这影响了结果的稳健性与可重复性。本文开发了基因集信息潜在空间的贝叶斯分析框架(BASIL),这是一种可扩展的贝叶斯因子建模框架,将基因通路注释整合到RNA测序数据的潜在变量分析中。BASIL在因子载荷上施加结构化先验,使其向注释基因集的组合收缩,从而增强生物学可解释性与稳定性,同时学习新的非结构化组分。BASIL能够提供精确的协方差估计和不确定性量化,且无需依赖计算成本高昂的马尔可夫链蒙特卡洛采样。自动化的经验贝叶斯程序消除了手动超参数调优的需求,提升了实际应用中的可重复性和可用性。在模拟实验和大规模人类转录组数据集中,BASIL始终优于现有先进方法,能够准确重建基因-基因协方差、选择正确的潜在维度并识别生物学上一致的模块。

0
下载
关闭预览

相关内容

【普林斯顿博士论文】理解数据在模型决策中的作用
专知会员服务
42+阅读 · 2024年4月26日
【CMU博士论文】统计基因网络研究进展
专知会员服务
17+阅读 · 2023年10月4日
专知会员服务
31+阅读 · 2021年2月7日
以BERT为例,如何优化机器学习模型性能?
专知
10+阅读 · 2019年10月3日
从模型到应用,一文读懂因子分解机
AI100
10+阅读 · 2019年9月6日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
贝叶斯机器学习前沿进展
机器学习研究会
21+阅读 · 2018年1月21日
GAFT:一个使用 Python 实现的遗传算法框架
Python开发者
10+阅读 · 2017年8月1日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【普林斯顿博士论文】理解数据在模型决策中的作用
专知会员服务
42+阅读 · 2024年4月26日
【CMU博士论文】统计基因网络研究进展
专知会员服务
17+阅读 · 2023年10月4日
专知会员服务
31+阅读 · 2021年2月7日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员