AI-assisted protein design has emerged as a critical tool for advancing biotechnology, as deep generative models have demonstrated their reliability in this domain. However, most existing models primarily utilize protein sequence or structural data for training, neglecting the physicochemical properties of proteins.Moreover, they are deficient to control the generation of proteins in intuitive conditions. To address these limitations,we propose CMADiff here, a novel framework that enables controllable protein generation by aligning the physicochemical properties of protein sequences with text-based descriptions through a latent diffusion process. Specifically, CMADiff employs a Conditional Variational Autoencoder (CVAE) to integrate physicochemical features as conditional input, forming a robust latent space that captures biological traits. In this latent space, we apply a conditional diffusion process, which is guided by BioAligner, a contrastive learning-based module that aligns text descriptions with protein features, enabling text-driven control over protein sequence generation. Validated by a series of evaluations including AlphaFold3, the experimental results indicate that CMADiff outperforms protein sequence generation benchmarks and holds strong potential for future applications. The implementation and code are available at https://github.com/HPC-NEAU/PhysChemDiff.


翻译:随着深度生成模型在该领域展现出可靠性,人工智能辅助蛋白质设计已成为推进生物技术发展的关键工具。然而,现有模型大多主要利用蛋白质序列或结构数据进行训练,忽略了蛋白质的理化性质。此外,这些模型难以在直观条件下控制蛋白质的生成。为应对这些局限性,本文提出CMADiff,一种新颖的框架,它通过潜在扩散过程将蛋白质序列的理化性质与基于文本的描述对齐,从而实现可控的蛋白质生成。具体而言,CMADiff采用条件变分自编码器(CVAE)整合理化特征作为条件输入,构建了一个能够捕捉生物学特性的鲁棒潜在空间。在此潜在空间中,我们应用条件扩散过程,该过程由基于对比学习的模块BioAligner引导,该模块将文本描述与蛋白质特征对齐,从而实现对蛋白质序列生成的文本驱动控制。通过包括AlphaFold3在内的一系列评估验证,实验结果表明,CMADiff在蛋白质序列生成基准测试中表现优异,并展现出强大的未来应用潜力。实现代码可在 https://github.com/HPC-NEAU/PhysChemDiff 获取。

0
下载
关闭预览

相关内容

【AAAI2025教程】用于蛋白质设计的人工智能
专知会员服务
19+阅读 · 2025年2月28日
《深度学习在蛋白质科学中的进展》综述
专知会员服务
16+阅读 · 2024年4月5日
Nat Mach Intel|用语言模型进行可控的蛋白质设计
专知会员服务
15+阅读 · 2022年7月14日
AlphaFold教程与最新蛋白质结构预测进展,附视频与Slides
专知会员服务
29+阅读 · 2022年6月16日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
斯坦福CS236-深度生成模型2019-全套课程资料分享
深度学习与NLP
20+阅读 · 2019年8月20日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
超越网格:作战环境对炮兵的影响
专知会员服务
2+阅读 · 5月31日
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
6+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
7+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
19+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
11+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
10+阅读 · 5月30日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员