Advances in single-cell and spatial transcriptomic technologies have transformed tumor ecosystem profiling at cellular resolution. However, large scale studies on patient cohorts continue to rely on bulk transcriptomic data, where variation in tumor purity obscures tumor-intrinsic transcriptional signals and constrains downstream discovery. Many deconvolution methods report strong performance on synthetic bulk mixtures but fail to generalize to real patient cohorts because of unmodeled biological and technical variation. Here, we introduce TwinPurify, a representation learning framework that adapts the Barlow Twins self-supervised objective, representing a fundamental departure from the deconvolution paradigm. Rather than resolving the bulk mixture into discrete cell-type fractions, TwinPurify instead learns continuous, high-dimensional tumor embeddings by leveraging adjacent-normal profiles within the same cohort as "background" guidance, enabling the disentanglement of tumor-specific signals without relying on any external reference. Benchmarked against multiple large cancer cohorts across RNA-seq and microarray platforms, TwinPurify outperforms conventional representation learning baselines like auto-encoders in recovering tumor-intrinsic and immune signals. The purified embeddings improve molecular subtype and grade classification, enhance survival model concordance, and uncover biologically meaningful pathway activities compared to raw bulk profiles. By providing a transferable framework for decontaminating bulk transcriptomics, TwinPurify extends the utility of existing clinical datasets for molecular discovery.


翻译:单细胞与空间转录组技术的进步已实现细胞分辨率下的肿瘤生态系统分析。然而,针对患者队列的大规模研究仍依赖于批量转录组数据,其中肿瘤纯度的变异会掩盖肿瘤内在的转录信号并限制下游发现。许多解卷积方法在合成批量混合物上表现出色,但由于未建模的生物学和技术变异,难以推广到真实患者队列。本文提出TwinPurify,一种采用Barlow Twins自监督目标的表征学习框架,代表了对解卷积范式的根本性突破。该方法不将批量混合物解析为离散的细胞类型比例,而是通过利用同一队列中相邻正常组织谱作为“背景”指导,学习连续的高维肿瘤嵌入,从而在不依赖任何外部参考的情况下分离肿瘤特异性信号。在RNA-seq和微阵列平台上的多个大型癌症队列基准测试中,TwinPurify在恢复肿瘤内在信号和免疫信号方面优于自编码器等传统表征学习基线。与原始批量谱相比,纯化后的嵌入提升了分子亚型和分级分类的准确性,增强了生存模型的一致性,并揭示了更具生物学意义的通路活性。通过提供可迁移的批量转录组去污染框架,TwinPurify扩展了现有临床数据集在分子发现中的实用性。

0
下载
关闭预览

相关内容

利用表示学习推动多机构电子健康记录数据研究
专知会员服务
16+阅读 · 2025年2月17日
Nat. Commun. | 基于最优传输的单细胞数据集成统一计算框架
专知会员服务
12+阅读 · 2022年12月19日
Cancer Cell综述|AI用于肿瘤学中的多模态数据集成
专知会员服务
35+阅读 · 2022年10月13日
Nat. Commun. | 基于基因表达的癌症药物敏感性预测
专知会员服务
11+阅读 · 2022年10月9日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员