Predicting survival outcomes for non-small cell lung cancer (NSCLC) patients is challenging due to the different individual prognostic features. This task can benefit from the integration of whole-slide images, bulk transcriptomics, and DNA methylation, which offer complementary views of the patient's condition at diagnosis. However, real-world clinical datasets are often incomplete, with entire modalities missing for a significant fraction of patients. State-of-the-art models rely on available data to create patient-level representations or use generative models to infer missing modalities, but they lack robustness in cases of severe missingness. We propose a Multimodal Contrastive Variational AutoEncoder (MCVAE) to address this issue: modality-specific variational encoders capture the uncertainty in each data source, and a fusion bottleneck with learned gating mechanisms is introduced to normalize the contributions from present modalities. We propose a multi-task objective that combines survival loss and reconstruction loss to regularize patient representations, along with a cross-modal contrastive loss that enforces cross-modal alignment in the latent space. During training, we apply stochastic modality masking to improve the robustness to arbitrary missingness patterns. Extensive evaluations on the TCGA-LUAD (n=475) and TCGA-LUSC (n=446) datasets demonstrate the efficacy of our approach in predicting disease-specific survival (DSS) and its robustness to severe missingness scenarios compared to two state-of-the-art models. Finally, we bring some clarifications on multimodal integration by testing our model on all subsets of modalities, finding that integration is not always beneficial to the task.


翻译:预测非小细胞肺癌(NSCLC)患者的生存结局具有挑战性,因为个体预后特征存在差异。整合全切片图像、批量转录组学和DNA甲基化数据有助于此任务,这些数据在诊断时为患者状况提供了互补的视角。然而,现实世界的临床数据集往往不完整,相当一部分患者完全缺失某些模态数据。现有最先进的模型依赖于可用数据来创建患者层面的表征,或使用生成模型来推断缺失模态,但在严重缺失的情况下缺乏鲁棒性。我们提出了一种多模态对比变分自编码器(MCVAE)来解决此问题:特定模态的变分编码器捕捉每个数据源的不确定性,并引入一个带有学习门控机制的融合瓶颈来归一化现有模态的贡献。我们提出了一个多任务目标,结合了生存损失和重构损失以正则化患者表征,同时还采用了一种跨模态对比损失,以在潜在空间中强制实现跨模态对齐。在训练过程中,我们应用随机模态掩码来提高对任意缺失模式的鲁棒性。在TCGA-LUAD(n=475)和TCGA-LUSC(n=446)数据集上的广泛评估表明,与两种最先进的模型相比,我们的方法在预测疾病特异性生存(DSS)方面具有有效性,并且对严重缺失情况具有鲁棒性。最后,通过在全部模态子集上测试我们的模型,我们对多模态整合提出了一些澄清,发现整合并不总是对该任务有益。

0
下载
关闭预览

相关内容

Cancer Cell综述|AI用于肿瘤学中的多模态数据集成
专知会员服务
35+阅读 · 2022年10月13日
视觉Transformer预训练模型的胸腔X线影像多标签分类
专知会员服务
14+阅读 · 2022年7月29日
肿瘤微环境评分: 预测肿瘤免疫治疗疗效的新方法
深度 | 变分自编码器VAE面临的挑战与发展方向
机器之心
16+阅读 · 2018年3月21日
【干货】一文读懂什么是变分自编码器
专知
12+阅读 · 2018年2月11日
[推荐] 这些年,我用过的点击率(CTR)预估模型!!!
菜鸟的机器学习
28+阅读 · 2017年7月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
Cancer Cell综述|AI用于肿瘤学中的多模态数据集成
专知会员服务
35+阅读 · 2022年10月13日
视觉Transformer预训练模型的胸腔X线影像多标签分类
专知会员服务
14+阅读 · 2022年7月29日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员