Multi-cellular programs (MCPs) are coordinated patterns of gene expression across interacting cell types that collectively drive complex biological processes such as tissue development and immune responses. While MCPs are typically estimated from high-dimensional gene expression data using methods like sparse principal component analysis or latent factor models, these approaches often suffer from high computational costs and limited statistical power. In this work, we propose Sparse Group Principal Component Analysis (SGPCA) to estimate MCPs by leveraging their inherent group and individual sparsity. We introduce an efficient double-thresholding algorithm based on power iteration. In each iteration, a group thresholding step first identifies relevant gene groups, followed by an individual thresholding step to select active cell types. This algorithm achieves a linear computational complexity of $O(np)$, making it highly efficient and scalable for large-scale genomic analyses. We establish theoretical guarantees for SGPCA, including statistical consistency and a convergence rate that surpasses competing methods. Through extensive simulations, we demonstrate that SGPCA achieves superior estimation accuracy and improved statistical power for signal detection. Furthermore, We apply SGPCA to a Lupus study, discovering differentially expressed MCPs distinguishing Lupus patients from normal subjects.


翻译:多细胞程序(MCPs)是跨相互作用细胞类型的基因表达协调模式,共同驱动组织发育和免疫应答等复杂生物过程。虽然通常使用稀疏主成分分析或潜在因子模型等方法从高维基因表达数据中估计MCPs,但这些方法往往存在计算成本高和统计功效有限的问题。在本工作中,我们提出稀疏组主成分分析(SGPCA),通过利用MCPs固有的组稀疏性和个体稀疏性来估计它们。我们引入一种基于幂迭代的高效双重阈值化算法。在每次迭代中,组阈值化步骤首先识别相关基因组,随后个体阈值化步骤选择活跃细胞类型。该算法实现了$O(np)$的线性计算复杂度,使其在大规模基因组分析中具有高效性和可扩展性。我们为SGPCA建立了理论保证,包括统计一致性和超越竞争方法的收敛速率。通过大量模拟实验,我们证明SGPCA在信号检测方面实现了更优的估计精度和更高的统计功效。此外,我们将SGPCA应用于一项狼疮研究,发现了区分狼疮患者与正常受试者的差异表达MCPs。

0
下载
关闭预览

相关内容

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟
【博士论文】利用图结构加速稀疏计算
专知会员服务
18+阅读 · 2025年3月6日
【2023新书】多准则决策排序方法:应用于实际问题,280页pdf
【斯坦福经典书】统计学稀疏性:Lasso与泛化性,362页pdf
专知会员服务
37+阅读 · 2020年11月15日
稀疏大模型简述:从MoE、Sparse Attention到GLaM
夕小瑶的卖萌屋
14+阅读 · 2022年3月22日
多模态情绪识别研究综述
专知
25+阅读 · 2020年12月21日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
读书报告 | Deep Learning for Extreme Multi-label Text Classification
科技创新与创业
48+阅读 · 2018年1月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月21日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员