Predicting protein secondary structure is essential for understanding protein function and advancing drug discovery. However, the intricate sequence-structure relationship poses significant challenges for accurate modeling. To address these, we propose MOGP-MMF, a multi-objective genetic programming framework that reformulates PSSP as an automated optimization task focused on feature selection and fusion. Specifically, MOGP-MMF introduces a multi-view multi-level representation strategy that integrates evolutionary, semantic, and newly introduced structural views to capture the comprehensive protein folding logic. Leveraging an enriched operator set, the framework evolves both linear and nonlinear fusion functions, effectively capturing high-order feature interactions while reducing fusion complexity. To resolve the accuracy-complexity trade-off, an improved multi-objective GP algorithm is developed, incorporating a knowledge transfer mechanism that utilizes prior evolutionary experience to guide the population toward global optima. Extensive experiments across seven benchmark datasets demonstrate that MOGP-MMF surpasses state-of-the-art methods, particularly in Q8 accuracy and structural integrity. Furthermore, MOGP-MMF generates a diverse set of non-dominated solutions, offering flexible model selection schemes for various practical application scenarios. The source code is available on GitHub: https://github.com/qian-ann/MOGP-MMF/tree/main.


翻译:蛋白质二级结构预测对于理解蛋白质功能和推动药物发现至关重要。然而,复杂的序列-结构关系给精确建模带来了巨大挑战。为解决这些问题,我们提出MOGP-MMF,一个多目标遗传规划框架,该框架将蛋白质二级结构预测重新定义为一项专注于特征选择与融合的自动化优化任务。具体而言,MOGP-MMF引入了一种多视角多层次表示策略,整合进化、语义及新引入的结构视角,以捕捉全面的蛋白质折叠逻辑。该框架利用富化的运算符集,演化线性和非线性融合函数,在降低融合复杂性的同时有效捕获高阶特征交互。为解决精度与复杂性的权衡问题,我们开发了一种改进的多目标遗传规划算法,该算法融入知识迁移机制,利用先前的进化经验引导种群趋向全局最优。在七个基准数据集上的广泛实验表明,MOGP-MMF超越了现有最优方法,尤其在Q8准确率和结构完整性方面表现突出。此外,MOGP-MMF生成一组多样化的非支配解,为各种实际应用场景提供了灵活的模型选择方案。源代码可在GitHub上获取:https://github.com/qian-ann/MOGP-MMF/tree/main。

0
下载
关闭预览

相关内容

基于人工智能(AI)的蛋白结构预测工具合集
专知会员服务
10+阅读 · 2022年8月25日
AlphaFold预测出2亿种蛋白质结构,打开整个蛋白质宇宙
专知会员服务
14+阅读 · 2022年8月1日
AlphaFold教程与最新蛋白质结构预测进展,附视频与Slides
专知会员服务
29+阅读 · 2022年6月16日
读书报告 | Deep Learning for Extreme Multi-label Text Classification
科技创新与创业
48+阅读 · 2018年1月10日
GAFT:一个使用 Python 实现的遗传算法框架
Python开发者
10+阅读 · 2017年8月1日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
11+阅读 · 2023年5月15日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
3+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
3+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员