Designing novel proteins with desired characteristics remains a significant challenge due to the large sequence space and the complexity of sequence-function relationships. Efficient exploration of this space to identify sequences that meet specific design criteria is crucial for advancing therapeutics and biotechnology. Here, we present BoGA (Bayesian Optimization Genetic Algorithm), a framework that combines evolutionary search with Bayesian optimization to efficiently navigate the sequence space. By integrating a genetic algorithm as a stochastic proposal generator within a surrogate modeling loop, BoGA prioritizes candidates based on prior evaluations and surrogate model predictions, enabling data-efficient optimization. We demonstrate the utility of BoGA through benchmarking on sequence and structure design tasks, followed by its application in designing peptide binders against pneumolysin, a key virulence factor of \textit{Streptococcus pneumoniae}. BoGA accelerates the discovery of high-confidence binders, demonstrating the potential for efficient protein design across diverse objectives. The algorithm is implemented within the BoPep suite and is available under an MIT license at \href{https://github.com/ErikHartman/bopep}{GitHub}.


翻译:由于巨大的序列空间以及序列-功能关系的复杂性,设计具有所需特性的新型蛋白质仍然是一项重大挑战。高效探索该空间以识别满足特定设计标准的序列,对于推进治疗学和生物技术至关重要。本文提出BoGA(贝叶斯优化遗传算法),这是一个将进化搜索与贝叶斯优化相结合的框架,用于高效导航序列空间。通过将遗传算法作为随机提议生成器集成到代理模型循环中,BoGA能够基于先前的评估和代理模型预测对候选序列进行优先级排序,从而实现数据高效的优化。我们通过在序列和结构设计任务上进行基准测试,并随后将其应用于设计针对肺炎链球菌关键毒力因子肺炎溶素(pneumolysin)的肽结合剂,展示了BoGA的实用性。BoGA加速了高置信度结合剂的发现,证明了其在多样化目标下实现高效蛋白质设计的潜力。该算法在BoPep套件中实现,并可在\href{https://github.com/ErikHartman/bopep}{GitHub}上根据MIT许可证获取。

0
下载
关闭预览

相关内容

设计是对现有状的一种重新认识和打破重组的过程,设计让一切变得更美。
【AAAI2025教程】用于蛋白质设计的人工智能
专知会员服务
19+阅读 · 2025年2月28日
《深度学习在蛋白质科学中的进展》综述
专知会员服务
16+阅读 · 2024年4月5日
Science | ProteinMPNN : 基于深度学习的蛋白序列设计
专知会员服务
12+阅读 · 2022年9月18日
综述:基于进化和物理启发建模的计算蛋白设计
专知会员服务
16+阅读 · 2022年9月12日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
入门 | 深度学习模型的简单优化技巧
机器之心
10+阅读 · 2018年6月10日
GAFT:一个使用 Python 实现的遗传算法框架
Python开发者
10+阅读 · 2017年8月1日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
超越网格:作战环境对炮兵的影响
专知会员服务
2+阅读 · 5月31日
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
6+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
7+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
19+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
11+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
10+阅读 · 5月30日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员