AI-assisted protein design has emerged as a critical tool for advancing biotechnology, as deep generative models have demonstrated their reliability in this domain. However, most existing models primarily utilize protein sequence or structural data for training, neglecting the physicochemical properties of proteins.Moreover, they are deficient to control the generation of proteins in intuitive conditions. To address these limitations,we propose CMADiff here, a novel framework that enables controllable protein generation by aligning the physicochemical properties of protein sequences with text-based descriptions through a latent diffusion process. Specifically, CMADiff employs a Conditional Variational Autoencoder (CVAE) to integrate physicochemical features as conditional input, forming a robust latent space that captures biological traits. In this latent space, we apply a conditional diffusion process, which is guided by BioAligner, a contrastive learning-based module that aligns text descriptions with protein features, enabling text-driven control over protein sequence generation. Validated by a series of evaluations including AlphaFold3, the experimental results indicate that CMADiff outperforms protein sequence generation benchmarks and holds strong potential for future applications. The implementation and code are available at https://github.com/HPC-NEAU/PhysChemDiff.


翻译:随着深度生成模型在该领域展现出可靠性,人工智能辅助蛋白质设计已成为推进生物技术发展的关键工具。然而,现有模型大多主要利用蛋白质序列或结构数据进行训练,忽略了蛋白质的理化性质。此外,这些模型难以在直观条件下控制蛋白质的生成。为应对这些局限性,本文提出CMADiff,一种新颖的框架,它通过潜在扩散过程将蛋白质序列的理化性质与基于文本的描述对齐,从而实现可控的蛋白质生成。具体而言,CMADiff采用条件变分自编码器(CVAE)整合理化特征作为条件输入,构建了一个能够捕捉生物学特性的鲁棒潜在空间。在此潜在空间中,我们应用条件扩散过程,该过程由基于对比学习的模块BioAligner引导,该模块将文本描述与蛋白质特征对齐,从而实现对蛋白质序列生成的文本驱动控制。通过包括AlphaFold3在内的一系列评估验证,实验结果表明,CMADiff在蛋白质序列生成基准测试中表现优异,并展现出强大的未来应用潜力。实现代码可在 https://github.com/HPC-NEAU/PhysChemDiff 获取。

0
下载
关闭预览

相关内容

【AAAI2025教程】用于蛋白质设计的人工智能
专知会员服务
19+阅读 · 2025年2月28日
《深度学习在蛋白质科学中的进展》综述
专知会员服务
16+阅读 · 2024年4月5日
Nat Mach Intel|用语言模型进行可控的蛋白质设计
专知会员服务
15+阅读 · 2022年7月14日
AlphaFold教程与最新蛋白质结构预测进展,附视频与Slides
专知会员服务
29+阅读 · 2022年6月16日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
斯坦福CS236-深度生成模型2019-全套课程资料分享
深度学习与NLP
20+阅读 · 2019年8月20日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
技术、多域威慑与海上战争(报告)
专知会员服务
1+阅读 · 今天15:04
“在云端防御”:提升北约数据韧性(报告)
专知会员服务
1+阅读 · 今天14:54
人工智能及其在海军行动中的整合(综述)
专知会员服务
0+阅读 · 今天14:07
美军MAVEN项目全面解析:算法战架构
专知会员服务
16+阅读 · 今天8:36
从俄乌战场看“马赛克战”(万字长文)
专知会员服务
10+阅读 · 今天8:19
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员