CMADiff: Cross-Modal Aligned Diffusion for Controllable Protein Generation - 专知论文

会员服务 ·

0

蛋白质序列 · 序列 · 对齐 · 可控 · 潜在 ·

CMADiff: Cross-Modal Aligned Diffusion for Controllable Protein Generation

翻译：CMADiff：基于跨模态对齐扩散的可控蛋白质生成

Changjian Zhou,Yuexi Qiu,Jia Song,Wensheng Xiang

AI-assisted protein design has emerged as a critical tool for advancing biotechnology, as deep generative models have demonstrated their reliability in this domain. However, most existing models primarily utilize protein sequence or structural data for training, neglecting the physicochemical properties of proteins.Moreover, they are deficient to control the generation of proteins in intuitive conditions. To address these limitations,we propose CMADiff here, a novel framework that enables controllable protein generation by aligning the physicochemical properties of protein sequences with text-based descriptions through a latent diffusion process. Specifically, CMADiff employs a Conditional Variational Autoencoder (CVAE) to integrate physicochemical features as conditional input, forming a robust latent space that captures biological traits. In this latent space, we apply a conditional diffusion process, which is guided by BioAligner, a contrastive learning-based module that aligns text descriptions with protein features, enabling text-driven control over protein sequence generation. Validated by a series of evaluations including AlphaFold3, the experimental results indicate that CMADiff outperforms protein sequence generation benchmarks and holds strong potential for future applications. The implementation and code are available at https://github.com/HPC-NEAU/PhysChemDiff.

翻译：随着深度生成模型在该领域展现出可靠性，人工智能辅助蛋白质设计已成为推进生物技术发展的关键工具。然而，现有模型大多主要利用蛋白质序列或结构数据进行训练，忽略了蛋白质的理化性质。此外，这些模型难以在直观条件下控制蛋白质的生成。为应对这些局限性，本文提出CMADiff，一种新颖的框架，它通过潜在扩散过程将蛋白质序列的理化性质与基于文本的描述对齐，从而实现可控的蛋白质生成。具体而言，CMADiff采用条件变分自编码器（CVAE）整合理化特征作为条件输入，构建了一个能够捕捉生物学特性的鲁棒潜在空间。在此潜在空间中，我们应用条件扩散过程，该过程由基于对比学习的模块BioAligner引导，该模块将文本描述与蛋白质特征对齐，从而实现对蛋白质序列生成的文本驱动控制。通过包括AlphaFold3在内的一系列评估验证，实验结果表明，CMADiff在蛋白质序列生成基准测试中表现优异，并展现出强大的未来应用潜力。实现代码可在 https://github.com/HPC-NEAU/PhysChemDiff 获取。

0

相关内容

蛋白质序列

蛋白质序列

【ACL2025】通过知识偏好优化提升蛋白质生成的安全性与可控性

【ACL2025】通过知识偏好优化提升蛋白质生成的安全性与可控性

专知会员服务

10+阅读 · 2025年7月21日

【AAAI2025教程】用于蛋白质设计的人工智能

【AAAI2025教程】用于蛋白质设计的人工智能

专知会员服务

20+阅读 · 2025年2月28日

【纽约大学博士论文】蛋白质序列和结构的预测性与生成性模型，206页pdf

【纽约大学博士论文】蛋白质序列和结构的预测性与生成性模型，206页pdf

专知会员服务

20+阅读 · 2024年4月27日

《深度学习在蛋白质科学中的进展》综述

《深度学习在蛋白质科学中的进展》综述

专知会员服务

17+阅读 · 2024年4月5日

深度学习如何用于蛋白质？微软最新《多模态深度学习的蛋白质工程》报告，附300页ppt与视频

深度学习如何用于蛋白质？微软最新《多模态深度学习的蛋白质工程》报告，附300页ppt与视频

专知会员服务

26+阅读 · 2022年10月12日

Nat Mach Intel｜用语言模型进行可控的蛋白质设计

Nat Mach Intel｜用语言模型进行可控的蛋白质设计

专知会员服务

15+阅读 · 2022年7月14日

AlphaFold教程与最新蛋白质结构预测进展，附视频与Slides

AlphaFold教程与最新蛋白质结构预测进展，附视频与Slides

专知会员服务

29+阅读 · 2022年6月16日

南大清华等《深度学习蛋白质设计》综述论文，涵盖16页pdf153篇文献阐述DL在蛋白质结构与序列设计的方法

南大清华等《深度学习蛋白质设计》综述论文，涵盖16页pdf153篇文献阐述DL在蛋白质结构与序列设计的方法

专知会员服务

22+阅读 · 2022年6月1日

【哈佛大学】使用AlphaFold估算蛋白质模型精度的最新技术，State-of-the-Art Estimation of Protein Model Accuracy using AlphaFold

【哈佛大学】使用AlphaFold估算蛋白质模型精度的最新技术，State-of-the-Art Estimation of Protein Model Accuracy using AlphaFold

专知会员服务

21+阅读 · 2022年3月14日

【伯克利】机器学习蛋白质工程，Machine learning for protein engineering，83页ppt

【伯克利】机器学习蛋白质工程，Machine learning for protein engineering，83页ppt

专知会员服务

36+阅读 · 2020年5月9日

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

专知

10+阅读 · 2023年4月12日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

重磅！人工智能生成内容（AIGC）白皮书（2022年）发布，64页pdf

重磅！人工智能生成内容（AIGC）白皮书（2022年）发布，64页pdf

专知

18+阅读 · 2022年9月3日

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

重磅！最新AI药物研发：白皮书、国内外技术报告、干货书、综述论文、关键技术最新论文（含实现代码）、数据集、教程课程讲解

重磅！最新AI药物研发：白皮书、国内外技术报告、干货书、综述论文、关键技术最新论文（含实现代码）、数据集、教程课程讲解

GenomicAI

14+阅读 · 2022年2月19日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

斯坦福CS236-深度生成模型2019-全套课程资料分享

斯坦福CS236-深度生成模型2019-全套课程资料分享

深度学习与NLP

20+阅读 · 2019年8月20日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

可扩展的蛋白质组学大数据存储与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

全新骨架组蛋白甲基转移酶G9a抑制剂的构效关系、结合模式及作用机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于分子进化的蛋白质共进化高维互信息模型

国家自然科学基金

4+阅读 · 2015年12月31日

基于多生物网络的蛋白质功能预测算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多级可控组装模拟生物体系的功能

国家自然科学基金

0+阅读 · 2015年12月31日

基于结构与序列信息的蛋白质-配体结合位点的预测

国家自然科学基金

8+阅读 · 2015年12月31日

蛋白质亚线粒体定位及其特征信息和预测算法的挖掘

国家自然科学基金

0+阅读 · 2014年12月31日

对具有非平衡多标签特性的蛋白质功能类型分类预测研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于微流控芯片的数字邻位连接反应单分子蛋白质检测研究

国家自然科学基金

0+阅读 · 2014年12月31日

蛋白质结构类预测中的特征信息提取与分类算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection

Arxiv

0+阅读 · 4月22日

Gypscie: A Cross-Platform AI Artifact Management System

Arxiv

0+阅读 · 4月11日

Controllable protein design with particle-based Feynman-Kac steering

Arxiv

0+阅读 · 4月6日

Conditioning Protein Generation via Hopfield Pattern Multiplicity

Arxiv

0+阅读 · 3月20日

Controllable Graph Generation with Diffusion Models via Inference-Time Tree Search Guidance

Arxiv

0+阅读 · 3月17日

Kimodo: Scaling Controllable Human Motion Generation

Kimodo: Scaling Controllable Human Motion Generation

Arxiv

0+阅读 · 3月16日

HOG-Diff: Higher-Order Guided Diffusion for Graph Generation

Arxiv

0+阅读 · 3月12日

Multi-objective Genetic Programming with Multi-view Multi-level Feature for Enhanced Protein Secondary Structure Prediction

Arxiv

0+阅读 · 3月11日

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Arxiv

0+阅读 · 3月6日

Controllable Generation with Text-to-Image Diffusion Models: A Survey

Arxiv

14+阅读 · 2024年3月7日

VIP会员

文章信息

相关主题

蛋白质序列

最新内容

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

4+阅读 · 今天15:21

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

0+阅读 · 今天15:12

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

2+阅读 · 今天15:06

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

4+阅读 · 今天14:55

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

9+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

7+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

9+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

6+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

9+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

9+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

5+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

3+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

7+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

5+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

6+阅读 · 7月17日

相关VIP内容

【ACL2025】通过知识偏好优化提升蛋白质生成的安全性与可控性

【ACL2025】通过知识偏好优化提升蛋白质生成的安全性与可控性

专知会员服务

10+阅读 · 2025年7月21日

【AAAI2025教程】用于蛋白质设计的人工智能

【AAAI2025教程】用于蛋白质设计的人工智能

专知会员服务

20+阅读 · 2025年2月28日

【纽约大学博士论文】蛋白质序列和结构的预测性与生成性模型，206页pdf

【纽约大学博士论文】蛋白质序列和结构的预测性与生成性模型，206页pdf

专知会员服务

20+阅读 · 2024年4月27日

《深度学习在蛋白质科学中的进展》综述

《深度学习在蛋白质科学中的进展》综述

专知会员服务

17+阅读 · 2024年4月5日

深度学习如何用于蛋白质？微软最新《多模态深度学习的蛋白质工程》报告，附300页ppt与视频

深度学习如何用于蛋白质？微软最新《多模态深度学习的蛋白质工程》报告，附300页ppt与视频

专知会员服务

26+阅读 · 2022年10月12日

Nat Mach Intel｜用语言模型进行可控的蛋白质设计

Nat Mach Intel｜用语言模型进行可控的蛋白质设计

专知会员服务

15+阅读 · 2022年7月14日

AlphaFold教程与最新蛋白质结构预测进展，附视频与Slides

AlphaFold教程与最新蛋白质结构预测进展，附视频与Slides

专知会员服务

29+阅读 · 2022年6月16日

南大清华等《深度学习蛋白质设计》综述论文，涵盖16页pdf153篇文献阐述DL在蛋白质结构与序列设计的方法

南大清华等《深度学习蛋白质设计》综述论文，涵盖16页pdf153篇文献阐述DL在蛋白质结构与序列设计的方法

专知会员服务

22+阅读 · 2022年6月1日

【哈佛大学】使用AlphaFold估算蛋白质模型精度的最新技术，State-of-the-Art Estimation of Protein Model Accuracy using AlphaFold

【哈佛大学】使用AlphaFold估算蛋白质模型精度的最新技术，State-of-the-Art Estimation of Protein Model Accuracy using AlphaFold

专知会员服务

21+阅读 · 2022年3月14日

【伯克利】机器学习蛋白质工程，Machine learning for protein engineering，83页ppt

【伯克利】机器学习蛋白质工程，Machine learning for protein engineering，83页ppt

专知会员服务

36+阅读 · 2020年5月9日

热门VIP内容

开通专知VIP会员享更多权益服务

锻造未来士兵：外骨骼、基因工程与赛博格

《无人机蜂群通信技术研究》50页

深入Project Maven：为何人工智能在战场上依然失灵

《无人机系统（UAS）通信网状网络试验性部署》50页报告

相关资讯

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

专知

10+阅读 · 2023年4月12日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

重磅！人工智能生成内容（AIGC）白皮书（2022年）发布，64页pdf

重磅！人工智能生成内容（AIGC）白皮书（2022年）发布，64页pdf

专知

18+阅读 · 2022年9月3日

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

重磅！最新AI药物研发：白皮书、国内外技术报告、干货书、综述论文、关键技术最新论文（含实现代码）、数据集、教程课程讲解

重磅！最新AI药物研发：白皮书、国内外技术报告、干货书、综述论文、关键技术最新论文（含实现代码）、数据集、教程课程讲解

GenomicAI

14+阅读 · 2022年2月19日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

斯坦福CS236-深度生成模型2019-全套课程资料分享

斯坦福CS236-深度生成模型2019-全套课程资料分享

深度学习与NLP

20+阅读 · 2019年8月20日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection

Arxiv

0+阅读 · 4月22日

Gypscie: A Cross-Platform AI Artifact Management System

Arxiv

0+阅读 · 4月11日

Controllable protein design with particle-based Feynman-Kac steering

Arxiv

0+阅读 · 4月6日

Conditioning Protein Generation via Hopfield Pattern Multiplicity

Arxiv

0+阅读 · 3月20日

Controllable Graph Generation with Diffusion Models via Inference-Time Tree Search Guidance

Arxiv

0+阅读 · 3月17日

Kimodo: Scaling Controllable Human Motion Generation

Kimodo: Scaling Controllable Human Motion Generation

Arxiv

0+阅读 · 3月16日

HOG-Diff: Higher-Order Guided Diffusion for Graph Generation

Arxiv

0+阅读 · 3月12日

Multi-objective Genetic Programming with Multi-view Multi-level Feature for Enhanced Protein Secondary Structure Prediction

Arxiv

0+阅读 · 3月11日

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Arxiv

0+阅读 · 3月6日

Controllable Generation with Text-to-Image Diffusion Models: A Survey

Arxiv

14+阅读 · 2024年3月7日

相关基金

可扩展的蛋白质组学大数据存储与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

全新骨架组蛋白甲基转移酶G9a抑制剂的构效关系、结合模式及作用机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于分子进化的蛋白质共进化高维互信息模型

国家自然科学基金

4+阅读 · 2015年12月31日

基于多生物网络的蛋白质功能预测算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多级可控组装模拟生物体系的功能

国家自然科学基金

0+阅读 · 2015年12月31日

基于结构与序列信息的蛋白质-配体结合位点的预测

国家自然科学基金

8+阅读 · 2015年12月31日

蛋白质亚线粒体定位及其特征信息和预测算法的挖掘

国家自然科学基金

0+阅读 · 2014年12月31日

对具有非平衡多标签特性的蛋白质功能类型分类预测研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于微流控芯片的数字邻位连接反应单分子蛋白质检测研究

国家自然科学基金

0+阅读 · 2014年12月31日

蛋白质结构类预测中的特征信息提取与分类算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员