Understanding how small molecules perturb gene expression is essential for uncovering drug mechanisms, predicting off-target effects, and identifying repurposing opportunities. While prior deep learning frameworks have integrated multimodal embeddings into biomedical knowledge graphs (BKGs) and further improved these representations through graph neural network message-passing paradigms, these models have been applied to tasks such as link prediction and binary drug-disease association, rather than the task of gene perturbation, which may unveil more about mechanistic transcriptomic effects. To address this gap, we construct a merged biomedical graph that integrates (i) PrimeKG++, an augmentation of PrimeKG containing semantically rich embeddings for nodes with (ii) LINCS L1000 drug and cell line nodes, initialized with multimodal embeddings from foundation models such as MolFormerXL and BioBERT. Using this heterogeneous graph, we train a graph attention network (GAT) with a downstream prediction head that learns the delta expression profile of over 978 landmark genes for a given drug-cell pair. Our results show that our framework outperforms MLP baselines for differentially expressed genes (DEG) -- which predict the delta expression given a concatenated embedding of drug features, target features, and baseline cell expression -- under the scaffold and random splits. Ablation experiments with edge shuffling and node feature randomization further demonstrate that the edges provided by biomedical KGs enhance perturbation-level prediction. More broadly, our framework provides a path toward mechanistic drug modeling: moving beyond binary drug-disease association tasks to granular transcriptional effects of therapeutic intervention.


翻译:理解小分子如何扰动基因表达对于揭示药物作用机制、预测脱靶效应以及识别药物再利用机会至关重要。虽然先前的深度学习框架已将多模态嵌入整合到生物医学知识图谱(BKGs)中,并通过图神经网络的消息传递范式进一步改进了这些表征,但这些模型主要应用于链接预测和二元药物-疾病关联等任务,而非可能更深入揭示机制性转录组效应的基因扰动任务。为填补这一空白,我们构建了一个融合的生物医学图谱,该图谱整合了(i)PrimeKG++(PrimeKG的增强版本,包含具有丰富语义嵌入的节点)与(ii)LINCS L1000药物和细胞系节点,这些节点使用来自基础模型(如MolFormerXL和BioBERT)的多模态嵌入进行初始化。利用这一异构图,我们训练了一个图注意力网络(GAT),其下游预测头学习给定药物-细胞对中超过978个标志性基因的差异表达谱。我们的结果表明,在支架划分和随机划分下,我们的框架在差异表达基因(DEG)预测上优于多层感知机(MLP)基线方法(后者基于药物特征、靶点特征和基线细胞表达的拼接嵌入来预测差异表达)。通过边随机重排和节点特征随机化的消融实验进一步证明,生物医学知识图谱提供的边增强了扰动水平的预测能力。更广泛而言,我们的框架为机制性药物建模提供了一条路径:超越二元药物-疾病关联任务,转向治疗干预的精细转录效应。

0
下载
关闭预览

相关内容

【ICML2024】超图增强的双半监督图分类
专知会员服务
15+阅读 · 2024年5月9日
【NeurIPS2019】图变换网络:Graph Transformer Network
专知会员服务
112+阅读 · 2019年11月25日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员