Accurate prediction of compound potency accelerates early-stage drug discovery by prioritizing candidates for experimental testing. However, many Quantitative Structure-Activity Relationship (QSAR) approaches for this prediction are constrained by their choice of molecular representation: handcrafted descriptors capture global properties but miss local topology, graph neural networks encode structure but often lack broader chemical context, and SMILES-based language models provide contextual patterns learned from large corpora but are seldom combined with structural features. To exploit these complementary signals, we introduce Rep3Net, a unified multimodal architecture that fuses RDKit molecular descriptors, graph-derived features from a residual graph-convolutional backbone, and ChemBERTa SMILES embeddings. We evaluate Rep3Net on a curated ChEMBL subset for Human PARP1 using fivefold cross validation. Rep3Net attains an MSE of $0.83\pm0.06$, RMSE of $0.91\pm0.03$, $R^{2}=0.43\pm0.01$, and yields Pearson and Spearman correlations of $0.66\pm0.01$ and $0.67\pm0.01$, respectively, substantially improving over several strong GNN baselines. In addition, Rep3Net achieves a favorable latency-to-parameter trade-off thanks to a single-layer GCN backbone and parallel frozen encoders. Ablations show that graph topology, ChemBERTa semantics, and handcrafted descriptors each contribute complementary information, with full fusion providing the largest error reduction. These results demonstrate that multimodal representation fusion can improve potency prediction for PARP1 and provide a scalable framework for virtual screening in early-stage drug discovery.


翻译:准确预测化合物活性可通过优先选择候选化合物进行实验测试来加速早期药物发现。然而,许多用于此预测的定量构效关系方法受限于其分子表示的选择:手工设计的描述符捕获全局性质但遗漏局部拓扑结构,图神经网络编码结构但常缺乏更广泛的化学背景,而基于SMILES的语言模型提供了从大型语料库中学到的上下文模式,但很少与结构特征相结合。为利用这些互补信号,我们提出了Rep3Net,一种统一的多模态架构,它融合了RDKit分子描述符、来自残差图卷积主干的图衍生特征以及ChemBERTa SMILES嵌入。我们在一个精选的用于人类PARP1的ChEMBL子集上使用五折交叉验证评估了Rep3Net。Rep3Net取得了$0.83\pm0.06$的MSE、$0.91\pm0.03$的RMSE、$R^{2}=0.43\pm0.01$,并分别获得了$0.66\pm0.01$和$0.67\pm0.01$的皮尔逊与斯皮尔曼相关系数,相较于多个强大的图神经网络基线模型有显著提升。此外,得益于单层图卷积网络主干和并行冻结编码器,Rep3Net实现了有利的延迟-参数量权衡。消融研究表明,图拓扑、ChemBERTa语义和手工描述符各自提供互补信息,完全融合能带来最大的误差降低。这些结果表明,多模态表示融合可以改进PARP1的活性预测,并为早期药物发现中的虚拟筛选提供了一个可扩展的框架。

0
下载
关闭预览

相关内容

ATMOL:利用对比学习预训练模型预测分子性质
专知会员服务
12+阅读 · 2022年8月14日
深度学习在分子生成和分子性质预测中的应用
专知会员服务
36+阅读 · 2022年6月19日
【AAAI 2022】 GeomGCL:用于分子性质预测的几何图对比学习
专知会员服务
24+阅读 · 2022年2月27日
【WWW2021】多视角图对比学习的药物药物交互预测
专知会员服务
54+阅读 · 2021年1月29日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
深度学习在CTR预估中的应用 | CTR深度模型大盘点
PaperWeekly
15+阅读 · 2018年4月11日
【AAAI专题】论文分享:以生物可塑性为核心的类脑脉冲神经网络
中国科学院自动化研究所
15+阅读 · 2018年1月23日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员