In this project, we present a deep neural network (DNN)-based biophysics model that uses multi-scale and uniform topological and electrostatic features to predict protein properties, such as Coulomb energies or solvation energies. The topological features are generated using element-specific persistent homology (ESPH) on a selection of heavy atoms or carbon atoms. The electrostatic features are generated using a novel Cartesian treecode, which adds underlying electrostatic interactions to further improve the model prediction. These features are uniform in number for proteins of varying sizes; therefore, the widely available protein structure databases can be used to train the network. These features are also multi-scale, allowing users to balance resolution and computational cost. The optimal model trained on more than 17,000 proteins for predicting Coulomb energy achieves MSE of approximately 0.024, MAPE of 0.073 and $R^2$ of 0.976. Meanwhile, the optimal model trained on more than 4,000 proteins for predicting solvation energy achieves MSE of approximately 0.064, MAPE of 0.081, and $R^2$ of 0.926, showing the efficiency and fidelity of these features in representing the protein structure and force field. The feature generation algorithms also have the potential to serve as general tools for assisting machine learning based prediction of protein properties and functions.


翻译:本项目提出了一种基于深度神经网络(DNN)的生物物理模型,该模型利用多尺度且数量统一的拓扑特征与静电特征来预测蛋白质性质,例如库仑能或溶剂化能。拓扑特征通过对选定重原子或碳原子应用元素特异性持续同调(ESPH)生成。静电特征则通过一种新颖的笛卡尔树码生成,该树码引入了底层静电相互作用以进一步提升模型预测性能。这些特征的数量对于不同大小的蛋白质是统一的,因此可利用广泛可得的蛋白质结构数据库来训练网络。这些特征同时也是多尺度的,允许用户在分辨率和计算成本之间进行权衡。在超过17,000个蛋白质上训练得到的、用于预测库仑能的最优模型,其均方误差(MSE)约为0.024,平均绝对百分比误差(MAPE)为0.073,决定系数$R^2$为0.976。同时,在超过4,000个蛋白质上训练得到的、用于预测溶剂化能的最优模型,其MSE约为0.064,MAPE为0.081,$R^2$为0.926,这显示了这些特征在表征蛋白质结构和力场方面的效率与保真度。这些特征生成算法也有潜力作为通用工具,辅助基于机器学习的蛋白质性质与功能预测。

0
下载
关闭预览

相关内容

具有动能的生命体。
使用深度学习进行生物网络分析
专知会员服务
20+阅读 · 2022年6月30日
【Nature通讯】深度神经网络模型中的个体差异
专知会员服务
14+阅读 · 2020年11月16日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
35+阅读 · 2020年4月15日
【AAAI专题】论文分享:以生物可塑性为核心的类脑脉冲神经网络
中国科学院自动化研究所
15+阅读 · 2018年1月23日
前沿 | 简述脉冲神经网络SNN:下一代神经网络
机器之心
39+阅读 · 2018年1月13日
干货 | 深度学习之卷积神经网络(CNN)的模型结构
机器学习算法与Python学习
12+阅读 · 2017年11月1日
时延神经网络(TDNN)原理及其TensorFlow实现
深度学习每日摘要
56+阅读 · 2017年5月19日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月1日
Arxiv
0+阅读 · 2月13日
Arxiv
0+阅读 · 2月12日
VIP会员
最新内容
电子战革命:塑造战场的十年突破(2015–2025)
专知会员服务
2+阅读 · 今天9:19
人工智能即服务与未来战争(印度视角)
专知会员服务
0+阅读 · 今天7:57
《美国战争部2027财年军事人员预算》
专知会员服务
0+阅读 · 今天7:44
伊朗战争中的电子战
专知会员服务
4+阅读 · 今天7:04
大语言模型平台在国防情报应用中的对比
专知会员服务
6+阅读 · 今天3:12
美海军“超配项目”
专知会员服务
6+阅读 · 今天2:13
《美陆军条例:陆军指挥政策(2026版)》
专知会员服务
11+阅读 · 4月21日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员