Recent years have witnessed remarkable progress in multimodal learning within computational pathology. Existing models primarily rely on vision and language modalities; however, language alone lacks molecular specificity and offers limited pathological supervision, leading to representational bottlenecks. In this paper, we propose STAMP, a Spatial Transcriptomics-Augmented Multimodal Pathology representation learning framework that integrates spatially-resolved gene expression profiles to enable molecule-guided joint embedding of pathology images and transcriptomic data. Our study shows that self-supervised, gene-guided training provides a robust and task-agnostic signal for learning pathology image representations. Incorporating spatial context and multi-scale information further enhances model performance and generalizability. To support this, we constructed SpaVis-6M, the largest Visium-based spatial transcriptomics dataset to date, and trained a spatially-aware gene encoder on this resource. Leveraging hierarchical multi-scale contrastive alignment and cross-scale patch localization mechanisms, STAMP effectively aligns spatial transcriptomics with pathology images, capturing spatial structure and molecular variation. We validate STAMP across six datasets and four downstream tasks, where it consistently achieves strong performance. These results highlight the value and necessity of integrating spatially resolved molecular supervision for advancing multimodal learning in computational pathology. The code is included in the supplementary materials. The pretrained weights and SpaVis-6M are available at: https://github.com/Hanminghao/STAMP.


翻译:近年来,计算病理学中的多模态学习取得了显著进展。现有模型主要依赖视觉与语言模态;然而,语言模态本身缺乏分子特异性,且提供的病理学监督有限,导致表征学习出现瓶颈。本文提出STAMP——一种空间转录组增强的多模态病理学表征学习框架,该框架整合空间分辨的基因表达谱,实现病理图像与转录组数据的分子引导联合嵌入。研究表明,自监督的基因引导训练为病理图像表征学习提供了稳健且任务无关的信号。融入空间上下文与多尺度信息进一步提升了模型性能与泛化能力。为此,我们构建了SpaVis-6M——迄今最大的基于Visium平台的空间转录组数据集,并基于此资源训练了空间感知的基因编码器。通过层级化多尺度对比对齐与跨尺度图像块定位机制,STAMP有效实现了空间转录组与病理图像的对齐,捕捉空间结构与分子变异。我们在六个数据集和四项下游任务中验证了STAMP,其均表现出优异的性能。这些结果凸显了整合空间分辨分子监督对于推进计算病理学多模态学习的价值与必要性。代码已包含在补充材料中。预训练权重及SpaVis-6M数据集发布于:https://github.com/Hanminghao/STAMP。

0
下载
关闭预览

相关内容

提示学习在计算机视觉中的分类、应用及展望
专知会员服务
19+阅读 · 2025年6月18日
【Paul Liang】多模态深度学习,Multimodal Deep Learning
专知会员服务
185+阅读 · 2022年4月12日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
基于信息理论的机器学习
专知
22+阅读 · 2017年11月23日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关VIP内容
提示学习在计算机视觉中的分类、应用及展望
专知会员服务
19+阅读 · 2025年6月18日
【Paul Liang】多模态深度学习,Multimodal Deep Learning
专知会员服务
185+阅读 · 2022年4月12日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员