The trade-off between predictive accuracy and data availability makes it difficult to predict protein--protein binding affinity accurately. The lack of experimentally resolved protein structures limits the performance of structure-based machine learning models, which generally outperform sequence-based methods. In order to overcome this constraint, we suggest a regression framework based on knowledge distillation that uses protein structural data during training and only needs sequence data during inference. The suggested method uses binding affinity labels and intermediate feature representations to jointly supervise the training of a sequence-based student network under the guidance of a structure-informed teacher network. Leave-One-Complex-Out (LOCO) cross-validation was used to assess the framework on a non-redundant protein--protein binding affinity benchmark dataset. A maximum Pearson correlation coefficient (P_r) of 0.375 and an RMSE of 2.712 kcal/mol were obtained by sequence-only baseline models, whereas a P_r of 0.512 and an RMSE of 2.445 kcal/mol were obtained by structure-based models. With a P_r of 0.481 and an RMSE of 2.488 kcal/mol, the distillation-based student model greatly enhanced sequence-only performance. Improved agreement and decreased bias were further confirmed by thorough error analyses. With the potential to close the performance gap between sequence-based and structure-based models as larger datasets become available, these findings show that knowledge distillation is an efficient method for transferring structural knowledge to sequence-based predictors. The source code for running inference with the proposed distillation-based binding affinity predictor can be accessed at https://github.com/wajidarshad/ProteinAffinityKD.


翻译:预测准确性与数据可用性之间的权衡使得精确预测蛋白质-蛋白质结合亲和力变得困难。实验解析的蛋白质结构缺乏限制了基于结构的机器学习模型的性能,而这类模型通常优于基于序列的方法。为克服这一限制,我们提出一种基于知识蒸馏的回归框架,该框架在训练阶段利用蛋白质结构数据,而在推理阶段仅需序列数据。所提出的方法利用结合亲和力标签和中间特征表示,在基于结构信息的教师网络指导下,联合监督基于序列的学生网络训练。我们在非冗余的蛋白质-蛋白质结合亲和力基准数据集上采用留一复合物交叉验证(LOCO)评估该框架。纯序列基线模型获得的最大皮尔逊相关系数(P_r)为0.375,均方根误差(RMSE)为2.712 kcal/mol;而基于结构的模型获得P_r为0.512,RMSE为2.445 kcal/mol。基于蒸馏的学生模型取得了P_r为0.481和RMSE为2.488 kcal/mol的结果,显著提升了纯序列模型的性能。详细的误差分析进一步证实了预测结果一致性改善和偏差降低。这些发现表明,知识蒸馏是将结构知识迁移至基于序列预测器的有效方法,随着更大规模数据集的可用,该方法有望弥合基于序列与基于结构模型之间的性能差距。基于所提蒸馏方法的结合亲和力预测器的推理源代码可在https://github.com/wajidarshad/ProteinAffinityKD获取。

0
下载
关闭预览

相关内容

《深度学习在蛋白质科学中的进展》综述
专知会员服务
16+阅读 · 2024年4月5日
基于人工智能(AI)的蛋白结构预测工具合集
专知会员服务
10+阅读 · 2022年8月25日
深度学习中知识蒸馏研究综述
专知会员服务
109+阅读 · 2022年8月13日
ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练
专知会员服务
29+阅读 · 2022年2月20日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
基于图神经网络的知识图谱研究进展
AI科技评论
21+阅读 · 2020年8月31日
AI新视野 | 数据蒸馏Dataset Distillation
人工智能前沿讲习班
31+阅读 · 2019年6月14日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员