Deep learning in \emph{de novo} protein design has achieved atomic-level fidelity. However, existing models remain largely non-deliberative: they directly synthesize molecular geometries without explicitly reasoning about which residues or interactions are functionally essential. As a result, design decisions are entangled with continuous sampling dynamics, limiting interpretability, controllability, and systematic reuse of biochemical knowledge. We introduce \textbf{Proteo-R1}, a reasoning-guided protein design framework that explicitly decouples \emph{molecular understanding} from \emph{geometric generation}. Proteo-R1 adopts a dual-expert architecture in which a multimodal large language model (MLLM) serves as an \emph{understanding expert}, analyzing protein sequences, structures, and textual context to identify key functional residues that govern binding and specificity. These residue-level decisions are then passed as hard constraints to a separate diffusion-based \emph{generation expert}, which performs conditional co-design while respecting the fixed interaction anchors. This factorization mirrors how human experts approach molecular engineering: first, reasoning about critical interactions, then optimizing geometry subject to those constraints. By operationalizing reasoning as explicit residue-level commitments rather than latent textual guidance, Proteo-R1 achieves stable, interpretable, and modular integration of LLM reasoning with state-of-the-art geometric generative models. Code, data, and demos are available at https://smiles724.github.io/r1/.


翻译:深度学习在从头蛋白质设计中已实现原子级保真度。然而,现有模型仍基本缺乏推理能力:它们直接合成分子几何结构,而并未明确推理哪些残基或相互作用在功能上是必需的。因此,设计决策与连续采样动力学纠缠在一起,限制了可解释性、可控性以及生化知识的系统性复用。我们提出**Proteo-R1**,一种推理引导的蛋白质设计框架,该框架明确解耦了**分子理解**与**几何生成**。Proteo-R1采用双专家架构,其中多模态大语言模型(MLLM)作为*理解专家*,分析蛋白质序列、结构和文本上下文,以识别控制结合和特异性的关键功能残基。这些残基层面的决策随后作为硬约束传递给独立的基于扩散的*生成专家*,后者在遵守固定相互作用锚点的前提下执行条件协同设计。这种分解方式模仿了人类专家处理分子工程的路径:首先推理关键相互作用,然后在这些约束条件下优化几何结构。通过将推理操作化为显式的残基层面承诺而非隐式的文本引导,Proteo-R1实现了大语言模型推理与最新几何生成模型的稳定、可解释且模块化集成。代码、数据和演示可在 https://smiles724.github.io/r1/ 获取。

0
下载
关闭预览

相关内容

设计是对现有状的一种重新认识和打破重组的过程,设计让一切变得更美。
Science | ProteinMPNN : 基于深度学习的蛋白序列设计
专知会员服务
12+阅读 · 2022年9月18日
【ICML2022】模型指导下的蛋白质序列设计的近端探索
专知会员服务
11+阅读 · 2022年7月10日
ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练
专知会员服务
29+阅读 · 2022年2月20日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
43+阅读 · 2024年1月25日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员