Proteins are shaped by gradual evolution under biophysical and functional constraints. Protein language models learn rich evolutionary constraints from large-scale sequences, and discrete diffusion-based protein language models~(\eg, DPLMs) are promising for both understanding and generation. However, existing DPLMs typically rely on masking-based absorbing diffusion that contradicts a simple biological intuition: proteins evolve through accumulated edits, not by emerging from masks. Consequently, these frameworks lack explicit pretraining objectives for substitution and insertion/deletion (indel) operations, limiting both optimization-style post-editing and flexible guided generation. To address these limitations, we present DPLM-Evo, an evolutionary discrete diffusion framework that explicitly predicts substitution, insertion, and deletion operations during denoising. DPLM-Evo decouples an upsampled-length latent alignment space from the variable-length observed sequence space, which makes indel-aware generation tractable and enables adaptive scaffold growth throughout the process with negligible computational overhead. To better align substitutions with real evolution, we further introduce a contextualized evolutionary noising kernel that produces biologically informed, context-dependent mutation patterns. Across tasks, DPLM-Evo improves sequence understanding and achieves state-of-the-art mutation effect prediction performance on ProteinGym in the single-sequence setting. It also enables variable-length simulated evolution, and post-editing/optimization of existing proteins via explicit edit trajectories.


翻译:蛋白质在生物物理与功能性约束下通过渐进进化塑造而成。蛋白质语言模型从大规模序列中学习丰富的进化约束,而基于离散扩散的蛋白质语言模型(如DPLM)在理解与生成方面均展现出潜力。然而,现有DPLM通常依赖于基于掩码的吸收扩散,这与简单生物学直觉相悖:蛋白质通过累积编辑而非从掩码中涌现而进化。因此,这些框架缺乏针对替换与插入/缺失操作的显式预训练目标,限制了优化式后编辑与灵活引导生成。为解决上述局限,我们提出DPLM-Evo,一种进化离散扩散框架,其在去噪过程中显式预测替换、插入与缺失操作。DPLM-Evo将上采样长度下的潜在对齐空间与可变长度的观测序列空间解耦,使可感知插入缺失的生成易于处理,并能在整个过程中以可忽略的额外计算开销实现自适应支架增长。为更好地将替换与真实进化对齐,我们进一步引入一种上下文化的进化噪声核,该核可产生具有生物学信息的上下文相关突变模式。在多项任务中,DPLM-Evo提升了序列理解能力,并在单序列设置下于ProteinGym基准上达到突变效应预测的最优性能。该模型还支持可变长度的模拟进化,以及通过显式编辑轨迹对现有蛋白质进行后编辑与优化。

0
下载
关闭预览

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
ICML2024|知识感知的强化学习优化的蛋白质定向进化方法
专知会员服务
15+阅读 · 2024年10月18日
《深度学习在蛋白质科学中的进展》综述
专知会员服务
16+阅读 · 2024年4月5日
ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练
专知会员服务
29+阅读 · 2022年2月20日
专知会员服务
34+阅读 · 2021年8月16日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
NLG ≠ 机器写作 | 专家专栏
量子位
13+阅读 · 2018年9月10日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月19日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员