Motivation: Networks underlie the generation and interpretation of many biological datasets: gene networks shed light on the regulatory structure of the genome, and cell networks can capture structure of the tumor micro-environment. However, most methods that learn such networks make the faulty 'independence assumption'; to learn the gene network, they assume that no cell network exists. 'Multi-axis' methods, which do not make this assumption, fail to scale beyond a few thousand cells or genes. This limits their applicability to only the smallest datasets. Results: We develop a multi-axis method capable of processing million-cell datasets within minutes. This was previously impossible, and unlocks the use of such methods on modern scRNA-seq datasets, as well as more complex datasets. We show that our method yields novel biological insights from real single-cell data, and compares favorably to the existing hdWGCNA methodology. In particular, it identifies long non-coding RNA genes that potentially have a regulatory or functional role in neuronal development. Availability and implementation: Our methodology is available as a Python package GmGM on PyPI (https://pypi.org/project/GmGM/0.5.3/). The code for all experiments performed in this paper is available on GitHub (https://github.com/BaileyAndrew/GmGM-Bioinformatics). Contact: [email protected] Supplementary information: Our proofs, and some additional experiments, are available in the supplementary material. Keywords: gaussian graphical models, multi-axis models, transcriptomics, multi-omics, scalability


翻译:动机:网络结构是许多生物数据集生成与解释的基础:基因网络能够揭示基因组的调控结构,而细胞网络则可捕捉肿瘤微环境的结构特征。然而,大多数学习此类网络的方法都存在错误的"独立性假设"——在学习基因网络时,它们默认细胞网络不存在。不采用此假设的"多轴"方法则无法扩展到数千个细胞或基因以上,这导致其仅适用于最小规模的数据集。结果:我们开发了一种能够在数分钟内处理百万级细胞数据集的多轴方法。这在此前是无法实现的,从而使得此类方法能够应用于现代单细胞RNA测序数据集以及更复杂的数据集。我们证明,该方法能从真实单细胞数据中获得新的生物学见解,其性能优于现有的hdWGCNA方法。特别地,该方法识别出可能在神经元发育中具有调控或功能作用的长链非编码RNA基因。可用性与实现:我们的方法已作为Python软件包GmGM发布于PyPI平台(https://pypi.org/project/GmGM/0.5.3/)。本文所有实验代码均可在GitHub获取(https://github.com/BaileyAndrew/GmGM-Bioinformatics)。联系方式:[email protected] 补充信息:证明过程及补充实验详见附件材料。关键词:高斯图模型,多轴模型,转录组学,多组学,可扩展性

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【牛津大学博士论文】图高斯过程,134页pdf
专知会员服务
31+阅读 · 2024年10月3日
【剑桥大学博士论文】图机器学习非参数建模,128页pdf
专知会员服务
47+阅读 · 2024年5月4日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月12日
Arxiv
0+阅读 · 2月4日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(16份)
专知会员服务
5+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
12+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
2+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
2+阅读 · 4月12日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员