Single-cell RNA sequencing (scRNA-seq) is essential for unraveling cellular heterogeneity and diversity, offering invaluable insights for bioinformatics advancements. Despite its potential, traditional clustering methods in scRNA-seq data analysis often neglect the structural information embedded in gene expression profiles, crucial for understanding cellular correlations and dependencies. Existing strategies, including graph neural networks, face challenges in handling the inefficiency due to scRNA-seq data's intrinsic high-dimension and high-sparsity. Addressing these limitations, we introduce scCDCG (single-cell RNA-seq Clustering via Deep Cut-informed Graph), a novel framework designed for efficient and accurate clustering of scRNA-seq data that simultaneously utilizes intercellular high-order structural information. scCDCG comprises three main components: (i) A graph embedding module utilizing deep cut-informed techniques, which effectively captures intercellular high-order structural information, overcoming the over-smoothing and inefficiency issues prevalent in prior graph neural network methods. (ii) A self-supervised learning module guided by optimal transport, tailored to accommodate the unique complexities of scRNA-seq data, specifically its high-dimension and high-sparsity. (iii) An autoencoder-based feature learning module that simplifies model complexity through effective dimension reduction and feature extraction. Our extensive experiments on 6 datasets demonstrate scCDCG's superior performance and efficiency compared to 7 established models, underscoring scCDCG's potential as a transformative tool in scRNA-seq data analysis. Our code is available at: https://github.com/XPgogogo/scCDCG.


翻译:单细胞RNA测序(scRNA-seq)对于揭示细胞异质性与多样性至关重要,为生物信息学进展提供了宝贵的见解。尽管潜力巨大,但scRNA-seq数据分析中的传统聚类方法往往忽略了基因表达谱中蕴含的结构信息,而这些信息对于理解细胞间的关联性与依赖性至关重要。现有策略(包括图神经网络)在处理scRNA-seq数据固有的高维性与高稀疏性导致的效率低下问题上面临挑战。为应对这些局限,我们提出了scCDCG(基于深度割知图的单细胞RNA-seq聚类),这是一个专为scRNA-seq数据高效精准聚类而设计的新型框架,能够同时利用细胞间的高阶结构信息。scCDCG包含三个核心组件:(i)采用深度割知技术的图嵌入模块,能有效捕获细胞间高阶结构信息,克服了先前图神经网络方法中普遍存在的过度平滑与效率低下问题。(ii)由最优传输引导的自监督学习模块,专门针对scRNA-seq数据的高维性与高稀疏性等独特复杂性而设计。(iii)基于自编码器的特征学习模块,通过有效的降维与特征提取简化模型复杂度。我们在6个数据集上的大量实验表明,相较于7个现有成熟模型,scCDCG在性能与效率上均表现出显著优势,凸显了其作为scRNA-seq数据分析变革性工具的潜力。我们的代码公开于:https://github.com/XPgogogo/scCDCG。

0
下载
关闭预览

相关内容

FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
163+阅读 · 2019年10月12日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员