Protein language models (pLMs), pre-trained via causal language modeling on protein sequences, have been a promising tool for protein sequence design. In real-world protein engineering, there are many cases where the amino acids in the middle of a protein sequence are optimized while maintaining other residues. Unfortunately, because of the left-to-right nature of pLMs, existing pLMs modify suffix residues by prompting prefix residues, which are insufficient for the infilling task that considers the whole surrounding context. To find the more effective pLMs for protein engineering, we design a new benchmark, Secondary structureE InFilling rEcoveRy, SEIFER, which approximates infilling sequence design scenarios. With the evaluation of existing models on the benchmark, we reveal the weakness of existing language models and show that language models trained via fill-in-middle transformation, called ProtFIM, are more appropriate for protein engineering. Also, we prove that ProtFIM generates protein sequences with decent protein representations through exhaustive experiments and visualizations.


翻译:蛋白质语言模型(pLMs)通过因果语言建模在蛋白质序列上进行预训练,已成为蛋白质序列设计的有力工具。在实际的蛋白质工程中,许多场景需要优化蛋白质序列中间部分的氨基酸,同时维持其余残基不变。然而,由于pLMs固有的从左到右生成特性,现有pLMs仅通过前缀残基引导后缀残基的修改,难以胜任需考虑完整上下文环境的填充任务。为寻找更适用于蛋白质工程的pLMs,我们设计了新基准SEIFER(二级结构填充恢复),用于近似模拟蛋白质填充序列设计场景。通过在该基准上评估现有模型,我们揭示了当前语言模型的局限性,并证明采用中间填充变换训练的语言模型(称为ProtFIM)更适用于蛋白质工程。此外,通过大量实验和可视化分析,我们证实ProtFIM生成的蛋白质序列具有优异的蛋白质表征能力。

0
下载
关闭预览

相关内容

Science | ProteinMPNN : 基于深度学习的蛋白序列设计
专知会员服务
12+阅读 · 2022年9月18日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
一文详解Google最新NLP模型XLNet
PaperWeekly
18+阅读 · 2019年7月1日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月19日
Transformers in Remote Sensing: A Survey
Arxiv
25+阅读 · 2022年9月2日
Arxiv
39+阅读 · 2021年11月11日
VIP会员
最新内容
马赛克战:俄乌战场透析
专知会员服务
0+阅读 · 27分钟前
《利用人工智能增强军事决策》
专知会员服务
0+阅读 · 30分钟前
《自动机器学习在军事数据耕耘法中的应用》
专知会员服务
0+阅读 · 37分钟前
为何指挥所生存能力要求范式转变
专知会员服务
0+阅读 · 45分钟前
“蛛网”行动一周年:远程无人机战争
专知会员服务
0+阅读 · 今天3:23
【剑桥博士论文】智能体-环境协同优化
专知会员服务
5+阅读 · 6月9日
为初级军官战术训练设计生成式人工智能平台
专知会员服务
7+阅读 · 6月9日
《美军条令:作战伤员后送保障》
专知会员服务
5+阅读 · 6月9日
相关VIP内容
Science | ProteinMPNN : 基于深度学习的蛋白序列设计
专知会员服务
12+阅读 · 2022年9月18日
相关资讯
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
一文详解Google最新NLP模型XLNet
PaperWeekly
18+阅读 · 2019年7月1日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员