Protein fitness optimization is challenged by a vast combinatorial landscape where high-fitness variants are extremely sparse. Many current methods either underperform or require computationally expensive gradient-based sampling. We present CHASE, a framework that repurposes the evolutionary knowledge of pretrained protein language models by compressing their embeddings into a compact latent space. By training a conditional flow-matching model with classifier-free guidance, we enable the direct generation of high-fitness variants without predictor-based guidance during the ODE sampling steps. CHASE achieves state-of-the-art performance on AAV and GFP protein design benchmarks. Finally, we show that bootstrapping with synthetic data can further enhance performance in data-constrained settings.


翻译:蛋白质适应性优化面临巨大组合空间的挑战,其中高适应性变异体极为稀疏。现有方法往往性能不足或需要计算成本高昂的基于梯度的采样。本文提出CHASE框架,通过将预训练蛋白质语言模型的嵌入表示压缩至紧凑的潜在空间,从而重构其进化知识。通过训练具有无分类器引导的条件流匹配模型,我们能够在ODE采样步骤中直接生成高适应性变异体,而无需基于预测器的引导。CHASE在AAV和GFP蛋白质设计基准测试中取得了最先进的性能。最后,我们证明在数据受限场景中,使用合成数据进行自举训练可进一步提升模型性能。

0
下载
关闭预览

相关内容

【ICML2025】基于柔性条件的蛋白质结构设计与流匹配
专知会员服务
10+阅读 · 2025年8月26日
蛋白质大语言模型:综述
专知会员服务
18+阅读 · 2025年2月26日
【NeurIPS2024】训练计算最优的蛋白质语言模型
专知会员服务
9+阅读 · 2024年11月8日
用蛋白语言模型改进蛋白复合物预测
专知会员服务
10+阅读 · 2022年9月25日
ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练
专知会员服务
29+阅读 · 2022年2月20日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员