Towards A Generative Protein Evolution Machine with DPLM-Evo - 专知论文

会员服务 ·

0

序列 · 生物 · 操作 · 约束 · 离散 ·

Towards A Generative Protein Evolution Machine with DPLM-Evo

翻译：面向生成式蛋白质进化机器：DPLM-Evo

Xinyou Wang,Liang Hong,Jiasheng Ye,Zaixiang Zheng,Yu Li,Shujian Huang,Quanquan Gu

from arxiv, A peer-reviewed version was accepted to ICML 2026

Proteins are shaped by gradual evolution under biophysical and functional constraints. Protein language models learn rich evolutionary constraints from large-scale sequences, and discrete diffusion-based protein language models~(\eg, DPLMs) are promising for both understanding and generation. However, existing DPLMs typically rely on masked diffusion that contradicts a simple biological intuition: proteins evolve through accumulated edits, not by emerging from masks. Consequently, these frameworks lack explicit pretraining objectives for substitution and insertion/deletion (indel) operations, limiting both optimization-style post-editing and flexible guided generation. To address these limitations, we present DPLM-Evo, an evolutionary discrete diffusion framework that explicitly predicts substitution, insertion, and deletion operations during denoising. DPLM-Evo decouples an upsampled-length latent alignment space from the variable-length observed sequence space, which makes indel-aware generation tractable. To better align substitutions with real evolution, we further introduce a contextualized evolutionary noising kernel that produces biologically informed, context-dependent mutation patterns. Across tasks, DPLM-Evo improves sequence understanding and achieves state-of-the-art mutation effect prediction performance on ProteinGym in the single-sequence setting. It also enables variable-length simulated evolution, and post-editing/optimization of existing proteins via explicit edit trajectories.

翻译：蛋白质在生物物理和功能约束下通过逐步进化塑造而成。蛋白质语言模型从大规模序列中学习丰富的进化约束，基于离散扩散的蛋白质语言模型（如DPLM）在理解和生成方面均展现出潜力。然而，现有DPLM通常依赖掩码扩散，这与一个简单生物学直觉相悖：蛋白质是通过累积编辑进化而来，而非从掩码中涌现。因此，这些框架缺乏针对替换和插入/删除（indel）操作的显式预训练目标，限制了优化式后期编辑和灵活的引导生成。为解决这些局限，我们提出DPLM-Evo——一种进化离散扩散框架，在去噪过程中显式预测替换、插入和删除操作。DPLM-Evo将上采样长度的潜在对齐空间与可变长度的观测序列空间解耦，使支持indel操作的生成变得可行。为进一步使替换与真实进化对齐，我们引入一种上下文感知的进化噪声核，生成具有生物学意义、上下文依赖的突变模式。在多项任务中，DPLM-Evo提升了对序列的理解能力，并在单序列设定下于ProteinGym上实现了最先进的突变效应预测性能。它还支持可变长度模拟进化，以及通过显式编辑轨迹对现有蛋白质进行后期编辑/优化。

0

相关内容

数学上，序列是被排成一列的对象（或事件）；这样每个元素不是在其他元素之前，就是在其他元素之后。这里，元素之间的顺序非常重要。

【ACL2025】通过知识偏好优化提升蛋白质生成的安全性与可控性

【ACL2025】通过知识偏好优化提升蛋白质生成的安全性与可控性

专知会员服务

10+阅读 · 2025年7月21日

ICML2024｜知识感知的强化学习优化的蛋白质定向进化方法

ICML2024｜知识感知的强化学习优化的蛋白质定向进化方法

专知会员服务

15+阅读 · 2024年10月18日

【纽约大学博士论文】蛋白质序列和结构的预测性与生成性模型，206页pdf

【纽约大学博士论文】蛋白质序列和结构的预测性与生成性模型，206页pdf

专知会员服务

20+阅读 · 2024年4月27日

《深度学习在蛋白质科学中的进展》综述

《深度学习在蛋白质科学中的进展》综述

专知会员服务

16+阅读 · 2024年4月5日

【ETHZ博士论文】数据高效的机器学习引导的蛋白质工程，126页pdf

【ETHZ博士论文】数据高效的机器学习引导的蛋白质工程，126页pdf

专知会员服务

12+阅读 · 2024年3月19日

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

专知会员服务

17+阅读 · 2022年3月6日

ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

专知会员服务

29+阅读 · 2022年2月20日

【ICML2021】蛋白质语言模型-MSA Transformer

专知会员服务

34+阅读 · 2021年8月16日

【Nature子刊】ProteinGAN使用生成式对抗网络生成蛋白质变体，加速药物研发

【Nature子刊】ProteinGAN使用生成式对抗网络生成蛋白质变体，加速药物研发

专知会员服务

26+阅读 · 2021年4月6日

【伯克利】机器学习蛋白质工程，Machine learning for protein engineering，83页ppt

【伯克利】机器学习蛋白质工程，Machine learning for protein engineering，83页ppt

专知会员服务

36+阅读 · 2020年5月9日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

AINLP

11+阅读 · 2019年8月11日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

AI研习社

16+阅读 · 2018年12月4日

NLG ≠ 机器写作 | 专家专栏

NLG ≠ 机器写作 | 专家专栏

量子位

13+阅读 · 2018年9月10日

Uber AI实验室：遗传算法PK随机梯度下降，欢迎来到深度神经进化时代！

Uber AI实验室：遗传算法PK随机梯度下降，欢迎来到深度神经进化时代！

论智

10+阅读 · 2017年12月19日

自然语言处理（二）机器翻译篇 (NLP: machine translation)

自然语言处理（二）机器翻译篇 (NLP: machine translation)

DeepLearning中文论坛

12+阅读 · 2015年7月1日

人类转录因子基因家族调控网络进化模式研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于分子进化的蛋白质共进化高维互信息模型

国家自然科学基金

4+阅读 · 2015年12月31日

基于多生物网络的蛋白质功能预测算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于阴离子交换色谱分级和功能化氧化石墨烯材料富集的N-磷酸化蛋白质组样品预处理新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于生物网络的共享肽归属及蛋白质定性算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于结构与序列信息的蛋白质-配体结合位点的预测

国家自然科学基金

8+阅读 · 2015年12月31日

人工合成水稻杂交种和四倍体核质协同进化

国家自然科学基金

0+阅读 · 2015年12月31日

对具有非平衡多标签特性的蛋白质功能类型分类预测研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向蛋白质分子位点标记的多源特征提取和深度序列学习方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

生物网络的可计算建模

国家自然科学基金

2+阅读 · 2014年12月31日

OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy Distillation

Arxiv

0+阅读 · 6月16日

MeEvo: Metacognitive Evolution Combined with Natural Evolution for Automatic Heuristic Design

Arxiv

0+阅读 · 6月15日

Circuit Tracing in Autoregressive Protein Language Models

Arxiv

0+阅读 · 6月14日

MeEvo: Metacognitive Evolution Combined with Natural Evolution for Automatic Heuristic Design

Arxiv

0+阅读 · 6月12日

HD-Prot: A Protein Language Model for Joint Sequence-Structure Modeling with Continuous Structure Tokens

Arxiv

0+阅读 · 6月11日

HD-Prot: A Protein Language Model for Joint Sequence-Structure Modeling with Continuous Structure Tokens

Arxiv

0+阅读 · 5月28日

EvoGM: Learning to Merge LLMs via Evolutionary Generative Optimization

Arxiv

0+阅读 · 5月28日

What Do Evolutionary Coding Agents Evolve?

Arxiv

0+阅读 · 5月19日

Diffusion Models are Evolutionary Algorithms

Arxiv

0+阅读 · 5月9日

How to make the most of your masked language model for protein engineering

Arxiv

0+阅读 · 5月7日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

2+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

3+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

3+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

3+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

3+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

4+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

【ACL2025】通过知识偏好优化提升蛋白质生成的安全性与可控性

【ACL2025】通过知识偏好优化提升蛋白质生成的安全性与可控性

专知会员服务

10+阅读 · 2025年7月21日

ICML2024｜知识感知的强化学习优化的蛋白质定向进化方法

ICML2024｜知识感知的强化学习优化的蛋白质定向进化方法

专知会员服务

15+阅读 · 2024年10月18日

【纽约大学博士论文】蛋白质序列和结构的预测性与生成性模型，206页pdf

【纽约大学博士论文】蛋白质序列和结构的预测性与生成性模型，206页pdf

专知会员服务

20+阅读 · 2024年4月27日

《深度学习在蛋白质科学中的进展》综述

《深度学习在蛋白质科学中的进展》综述

专知会员服务

16+阅读 · 2024年4月5日

【ETHZ博士论文】数据高效的机器学习引导的蛋白质工程，126页pdf

【ETHZ博士论文】数据高效的机器学习引导的蛋白质工程，126页pdf

专知会员服务

12+阅读 · 2024年3月19日

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

专知会员服务

17+阅读 · 2022年3月6日

ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

专知会员服务

29+阅读 · 2022年2月20日

【ICML2021】蛋白质语言模型-MSA Transformer

专知会员服务

34+阅读 · 2021年8月16日

【Nature子刊】ProteinGAN使用生成式对抗网络生成蛋白质变体，加速药物研发

【Nature子刊】ProteinGAN使用生成式对抗网络生成蛋白质变体，加速药物研发

专知会员服务

26+阅读 · 2021年4月6日

【伯克利】机器学习蛋白质工程，Machine learning for protein engineering，83页ppt

【伯克利】机器学习蛋白质工程，Machine learning for protein engineering，83页ppt

专知会员服务

36+阅读 · 2020年5月9日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

AINLP

11+阅读 · 2019年8月11日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

AI研习社

16+阅读 · 2018年12月4日

NLG ≠ 机器写作 | 专家专栏

NLG ≠ 机器写作 | 专家专栏

量子位

13+阅读 · 2018年9月10日

Uber AI实验室：遗传算法PK随机梯度下降，欢迎来到深度神经进化时代！

Uber AI实验室：遗传算法PK随机梯度下降，欢迎来到深度神经进化时代！

论智

10+阅读 · 2017年12月19日

自然语言处理（二）机器翻译篇 (NLP: machine translation)

自然语言处理（二）机器翻译篇 (NLP: machine translation)

DeepLearning中文论坛

12+阅读 · 2015年7月1日

相关论文

OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy Distillation

Arxiv

0+阅读 · 6月16日

MeEvo: Metacognitive Evolution Combined with Natural Evolution for Automatic Heuristic Design

Arxiv

0+阅读 · 6月15日

Circuit Tracing in Autoregressive Protein Language Models

Arxiv

0+阅读 · 6月14日

MeEvo: Metacognitive Evolution Combined with Natural Evolution for Automatic Heuristic Design

Arxiv

0+阅读 · 6月12日

HD-Prot: A Protein Language Model for Joint Sequence-Structure Modeling with Continuous Structure Tokens

Arxiv

0+阅读 · 6月11日

HD-Prot: A Protein Language Model for Joint Sequence-Structure Modeling with Continuous Structure Tokens

Arxiv

0+阅读 · 5月28日

EvoGM: Learning to Merge LLMs via Evolutionary Generative Optimization

Arxiv

0+阅读 · 5月28日

What Do Evolutionary Coding Agents Evolve?

Arxiv

0+阅读 · 5月19日

Diffusion Models are Evolutionary Algorithms

Arxiv

0+阅读 · 5月9日

How to make the most of your masked language model for protein engineering

Arxiv

0+阅读 · 5月7日

相关基金

人类转录因子基因家族调控网络进化模式研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于分子进化的蛋白质共进化高维互信息模型

国家自然科学基金

4+阅读 · 2015年12月31日

基于多生物网络的蛋白质功能预测算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于阴离子交换色谱分级和功能化氧化石墨烯材料富集的N-磷酸化蛋白质组样品预处理新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于生物网络的共享肽归属及蛋白质定性算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于结构与序列信息的蛋白质-配体结合位点的预测

国家自然科学基金

8+阅读 · 2015年12月31日

人工合成水稻杂交种和四倍体核质协同进化

国家自然科学基金

0+阅读 · 2015年12月31日

对具有非平衡多标签特性的蛋白质功能类型分类预测研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向蛋白质分子位点标记的多源特征提取和深度序列学习方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

生物网络的可计算建模

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员