Repurposing Protein Language Models for Latent Flow-Based Fitness Optimization - 专知论文

会员服务 ·

0

潜在 · 流匹配 · 蛋白质语言模型 · 语言模型 · 稀疏 ·

Repurposing Protein Language Models for Latent Flow-Based Fitness Optimization

翻译：基于潜在流匹配的蛋白质适应性优化：蛋白质语言模型的重构应用

Amaru Caceres Arroyo,Lea Bogensperger,Ahmed Allam,Michael Krauthammer,Konrad Schindler,Dominik Narnhofer

Protein fitness optimization is challenged by a vast combinatorial landscape where high-fitness variants are extremely sparse. Many current methods either underperform or require computationally expensive gradient-based sampling. We present CHASE, a framework that repurposes the evolutionary knowledge of pretrained protein language models by compressing their embeddings into a compact latent space. By training a conditional flow-matching model with classifier-free guidance, we enable the direct generation of high-fitness variants without predictor-based guidance during the ODE sampling steps. CHASE achieves state-of-the-art performance on AAV and GFP protein design benchmarks. Finally, we show that bootstrapping with synthetic data can further enhance performance in data-constrained settings.

翻译：蛋白质适应性优化面临巨大组合空间的挑战，其中高适应性变异体极为稀疏。现有方法往往性能不足或需要计算成本高昂的基于梯度的采样。本文提出CHASE框架，通过将预训练蛋白质语言模型的嵌入表示压缩至紧凑的潜在空间，从而重构其进化知识。通过训练具有无分类器引导的条件流匹配模型，我们能够在ODE采样步骤中直接生成高适应性变异体，而无需基于预测器的引导。CHASE在AAV和GFP蛋白质设计基准测试中取得了最先进的性能。最后，我们证明在数据受限场景中，使用合成数据进行自举训练可进一步提升模型性能。

0

相关内容

【ICML2025】基于柔性条件的蛋白质结构设计与流匹配

【ICML2025】基于柔性条件的蛋白质结构设计与流匹配

专知会员服务

10+阅读 · 2025年8月26日

蛋白质大语言模型：综述

蛋白质大语言模型：综述

专知会员服务

18+阅读 · 2025年2月26日

【NeurIPS2024】训练计算最优的蛋白质语言模型

【NeurIPS2024】训练计算最优的蛋白质语言模型

专知会员服务

9+阅读 · 2024年11月8日

用蛋白语言模型改进蛋白复合物预测

用蛋白语言模型改进蛋白复合物预测

专知会员服务

10+阅读 · 2022年9月25日

【ICML2022】蛋白质适应度预测与自回归transformers和推理时间检索

【ICML2022】蛋白质适应度预测与自回归transformers和推理时间检索

专知会员服务

15+阅读 · 2022年6月4日

NLP预训练模型用于蛋白质组学｜英国女王大学207页博士论文

NLP预训练模型用于蛋白质组学｜英国女王大学207页博士论文

专知会员服务

27+阅读 · 2022年5月19日

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

专知会员服务

26+阅读 · 2022年3月22日

【哈佛大学】使用AlphaFold估算蛋白质模型精度的最新技术，State-of-the-Art Estimation of Protein Model Accuracy using AlphaFold

【哈佛大学】使用AlphaFold估算蛋白质模型精度的最新技术，State-of-the-Art Estimation of Protein Model Accuracy using AlphaFold

专知会员服务

21+阅读 · 2022年3月14日

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

专知会员服务

17+阅读 · 2022年3月6日

ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

专知会员服务

29+阅读 · 2022年2月20日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

专知

23+阅读 · 2021年2月16日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

【深度语义匹配模型】原理篇二：交互篇

【深度语义匹配模型】原理篇二：交互篇

AINLP

16+阅读 · 2020年5月18日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

基于进化算法的大规模本体匹配问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

可扩展的蛋白质组学大数据存储与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于分子进化的蛋白质共进化高维互信息模型

国家自然科学基金

4+阅读 · 2015年12月31日

基于多生物网络的蛋白质功能预测算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于结构与序列信息的蛋白质-配体结合位点的预测

国家自然科学基金

8+阅读 · 2015年12月31日

蛋白质亚线粒体定位及其特征信息和预测算法的挖掘

国家自然科学基金

0+阅读 · 2014年12月31日

对具有非平衡多标签特性的蛋白质功能类型分类预测研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于高通量优化的重组人血白蛋白纯化过程研究

国家自然科学基金

0+阅读 · 2014年12月31日

蛋白质结构类预测中的特征信息提取与分类算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向进化基因组学的高通量测序数据流形建模

国家自然科学基金

1+阅读 · 2014年12月31日

Enhanced Protein Intrinsic Disorder Prediction Through Dual-View Multiscale Features and Multi-objective Evolutionary Algorithm

Arxiv

0+阅读 · 3月6日

Inference-Time Toxicity Mitigation in Protein Language Models

Arxiv

0+阅读 · 3月4日

Deep learning-guided evolutionary optimization for protein design

Arxiv

0+阅读 · 3月3日

InstructPro: Natural Language Guided Ligand-Binding Protein Design

Arxiv

0+阅读 · 3月2日

Understanding protein function with a multimodal retrieval-augmented foundation model

Arxiv

0+阅读 · 2月26日

Efficient Real-Time Adaptation of ROMs for Unsteady Flows Using Data Assimilation

Arxiv

0+阅读 · 2月26日

Multimodal Integrated Knowledge Transfer to Large Language Models through Preference Optimization with Biomedical Applications

Arxiv

0+阅读 · 2月16日

SaDiT: Efficient Protein Backbone Design via Latent Structural Tokenization and Diffusion Transformers

Arxiv

0+阅读 · 2月6日

STProtein: predicting spatial protein expression from multi-omics data

Arxiv

0+阅读 · 2月5日

Understanding Transformer Optimization via Gradient Heterogeneity

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

蛋白质语言模型

最新内容

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

专知会员服务

2+阅读 · 6月1日

综述 | OPSD：大语言模型的在线策略自蒸馏

综述 | OPSD：大语言模型的在线策略自蒸馏

专知会员服务

2+阅读 · 6月1日

算法化战争：人工智能时代的新范式（万字长文）

算法化战争：人工智能时代的新范式（万字长文）

专知会员服务

7+阅读 · 6月1日

帕兰蒂尔Maven：军事人工智能的新纪元

帕兰蒂尔Maven：军事人工智能的新纪元

专知会员服务

7+阅读 · 6月1日

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

专知会员服务

8+阅读 · 6月1日

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

专知会员服务

7+阅读 · 6月1日

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

13+阅读 · 5月31日

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

6+阅读 · 5月31日

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

5+阅读 · 5月31日

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

3+阅读 · 5月31日

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

8+阅读 · 5月31日

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

4+阅读 · 5月31日

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

6+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

7+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

7+阅读 · 5月30日

相关VIP内容

【ICML2025】基于柔性条件的蛋白质结构设计与流匹配

【ICML2025】基于柔性条件的蛋白质结构设计与流匹配

专知会员服务

10+阅读 · 2025年8月26日

蛋白质大语言模型：综述

蛋白质大语言模型：综述

专知会员服务

18+阅读 · 2025年2月26日

【NeurIPS2024】训练计算最优的蛋白质语言模型

【NeurIPS2024】训练计算最优的蛋白质语言模型

专知会员服务

9+阅读 · 2024年11月8日

用蛋白语言模型改进蛋白复合物预测

用蛋白语言模型改进蛋白复合物预测

专知会员服务

10+阅读 · 2022年9月25日

【ICML2022】蛋白质适应度预测与自回归transformers和推理时间检索

【ICML2022】蛋白质适应度预测与自回归transformers和推理时间检索

专知会员服务

15+阅读 · 2022年6月4日

NLP预训练模型用于蛋白质组学｜英国女王大学207页博士论文

NLP预训练模型用于蛋白质组学｜英国女王大学207页博士论文

专知会员服务

27+阅读 · 2022年5月19日

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

专知会员服务

26+阅读 · 2022年3月22日

【哈佛大学】使用AlphaFold估算蛋白质模型精度的最新技术，State-of-the-Art Estimation of Protein Model Accuracy using AlphaFold

【哈佛大学】使用AlphaFold估算蛋白质模型精度的最新技术，State-of-the-Art Estimation of Protein Model Accuracy using AlphaFold

专知会员服务

21+阅读 · 2022年3月14日

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

【伯克利Roshan Rao博士论文】训练，评估和理解蛋白质序列的进化模型，Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

专知会员服务

17+阅读 · 2022年3月6日

ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

专知会员服务

29+阅读 · 2022年2月20日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | OPSD：大语言模型的在线策略自蒸馏

帕兰蒂尔Maven：军事人工智能的新纪元

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

算法化战争：人工智能时代的新范式（万字长文）

相关资讯

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

专知

23+阅读 · 2021年2月16日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

【深度语义匹配模型】原理篇二：交互篇

【深度语义匹配模型】原理篇二：交互篇

AINLP

16+阅读 · 2020年5月18日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

相关论文

Enhanced Protein Intrinsic Disorder Prediction Through Dual-View Multiscale Features and Multi-objective Evolutionary Algorithm

Arxiv

0+阅读 · 3月6日

Inference-Time Toxicity Mitigation in Protein Language Models

Arxiv

0+阅读 · 3月4日

Deep learning-guided evolutionary optimization for protein design

Arxiv

0+阅读 · 3月3日

InstructPro: Natural Language Guided Ligand-Binding Protein Design

Arxiv

0+阅读 · 3月2日

Understanding protein function with a multimodal retrieval-augmented foundation model

Arxiv

0+阅读 · 2月26日

Efficient Real-Time Adaptation of ROMs for Unsteady Flows Using Data Assimilation

Arxiv

0+阅读 · 2月26日

Multimodal Integrated Knowledge Transfer to Large Language Models through Preference Optimization with Biomedical Applications

Arxiv

0+阅读 · 2月16日

SaDiT: Efficient Protein Backbone Design via Latent Structural Tokenization and Diffusion Transformers

Arxiv

0+阅读 · 2月6日

STProtein: predicting spatial protein expression from multi-omics data

Arxiv

0+阅读 · 2月5日

Understanding Transformer Optimization via Gradient Heterogeneity

Arxiv

0+阅读 · 1月30日

相关基金

基于进化算法的大规模本体匹配问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

可扩展的蛋白质组学大数据存储与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于分子进化的蛋白质共进化高维互信息模型

国家自然科学基金

4+阅读 · 2015年12月31日

基于多生物网络的蛋白质功能预测算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于结构与序列信息的蛋白质-配体结合位点的预测

国家自然科学基金

8+阅读 · 2015年12月31日

蛋白质亚线粒体定位及其特征信息和预测算法的挖掘

国家自然科学基金

0+阅读 · 2014年12月31日

对具有非平衡多标签特性的蛋白质功能类型分类预测研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于高通量优化的重组人血白蛋白纯化过程研究

国家自然科学基金

0+阅读 · 2014年12月31日

蛋白质结构类预测中的特征信息提取与分类算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向进化基因组学的高通量测序数据流形建模

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员