Protein language models (PLMs) learn probability distributions over natural protein sequences. By learning from hundreds of millions of natural protein sequences, protein understanding and design capabilities emerge. Recent works have shown that scaling these models improves structure prediction, but does not seem to improve mutation understanding and representation quality for protein function prediction. We introduce PoET-2, a multimodal, retrieval-augmented protein foundation model that incorporates in-context learning of family-specific evolutionary constraints with optional structure conditioning to learn generative distributions over protein sequences. PoET-2 uses a hierarchical transformer encoder that is equivariant to sequence context ordering and a dual decoder architecture with both causal and masked language modeling objectives, allowing PoET-2 to operate in both fully generative and bidirectional representation learning modes. PoET-2 achieves state-of-the-art performance on zero-shot variant effect prediction, excelling at scoring variants with multiple mutations and challenging indel mutations. In supervised settings, PoET-2 embeddings outperform previous methods for learning sequence-function relationships, especially with small datasets. This work highlights the benefits of combining retrieval augmentation with multimodal, family-centric modeling for advancing protein foundation models.


翻译:蛋白质语言模型(PLM)学习天然蛋白质序列的概率分布。通过从数亿条天然蛋白质序列中学习,模型涌现出蛋白质理解与设计能力。近期研究表明,扩展这些模型能提升结构预测性能,但似乎并未改善蛋白质功能预测中的突变理解与表征质量。我们提出了PoET-2——一个多模态检索增强的蛋白质基础模型,它通过整合家族特异性进化约束的上下文学习与可选的结构条件机制,来学习蛋白质序列的生成分布。PoET-2采用对序列上下文顺序具有等变性的分层Transformer编码器,以及兼具因果语言建模与掩码语言建模目标的双解码器架构,使其能在完全生成与双向表征学习两种模式下运行。PoET-2在零样本变异效应预测任务上实现了最先进的性能,尤其在评估含多重突变及复杂插入缺失突变的变异体时表现卓越。在监督学习场景中,PoET-2嵌入表征在学习序列-功能关系方面优于现有方法,在小数据集上优势尤为显著。本研究揭示了将检索增强与多模态、家族中心化建模相结合对于推进蛋白质基础模型发展的积极意义。

0
下载
关闭预览

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
蛋白质大语言模型:综述
专知会员服务
18+阅读 · 2025年2月26日
ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练
专知会员服务
29+阅读 · 2022年2月20日
知识增强预训练语言模型:全面综述
专知会员服务
97+阅读 · 2021年10月19日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
25+阅读 · 2023年6月23日
VIP会员
最新内容
超越网格:作战环境对炮兵的影响
专知会员服务
2+阅读 · 5月31日
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
6+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
7+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
19+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
11+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
10+阅读 · 5月30日
相关VIP内容
蛋白质大语言模型:综述
专知会员服务
18+阅读 · 2025年2月26日
ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练
专知会员服务
29+阅读 · 2022年2月20日
知识增强预训练语言模型:全面综述
专知会员服务
97+阅读 · 2021年10月19日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员