Protein-protein interactions (PPIs) govern nearly all cellular processes, yet computational methods for identifying binding partners typically produce ranked predictions without mechanistic justification. This creates a fundamental barrier to adoption because biologists cannot assess whether predictions reflect genuine biochemical insight or spurious correlations. We present \textbf{Protein Thoughts}, a framework that reformulates PPI discovery as an interpretable search problem with explicit reasoning. The system decomposes binding evidence into four biologically meaningful signals: sequence similarity reflecting evolutionary relationships, structural complementarity capturing geometric fit, interface balance, and chemical compatibility encoding residue-level interactions. Rather than collapsing these signals into an opaque score, we preserve their individual contributions through a transparent value function that enables both ranking and auditing. To navigate large candidate spaces efficiently, we introduce hypothesis-guided entropy-regularized Tree-of-Thoughts search. A fine-tuned language model generates search directives from embedding-derived features, classifying candidates as high-priority, exploratory, or skippable. These directives condition a Boltzmann policy that balances exploitation with entropy-driven exploration, while hypothesis-aware pruning prevents premature abandonment of promising candidates. For candidates exhibiting score disagreement, hypothesis-conditioned embedding-space flow matching transports protein embeddings toward the binder manifold. On the SHS148k benchmark, Protein Thoughts achieves mean best-binder rank of 11.2 versus 47.7 for an entropic tree search baseline, a 76% improvement, and for binding prediction the trained value function achieves $91.08 \pm 0.19$ Micro-F1, outperforming existing PPI methods on the same dataset.


翻译:蛋白质-蛋白质相互作用(PPI)调控几乎所有细胞过程,但用于识别结合伙伴的计算方法通常仅生成排序预测,缺乏机制性解释。这构成了根本性障碍,因为生物学家无法评估预测结果是否反映真实的生化洞见还是虚假关联。我们提出\textbf{蛋白质思想}(Protein Thoughts)框架,将PPI发现重新定义为具有显式推理的可解释搜索问题。该系统将结合证据分解为四种生物学意义信号:反映进化关系的序列相似性、捕捉几何匹配的结构互补性、界面平衡性以及编码残基级相互作用的化学兼容性。我们不将这些信号合并为不透明的分数,而是通过透明的价值函数保留各自贡献,从而支持排序与审计。为高效遍历大规模候选空间,我们引入假设引导的熵正则化思维树(Tree-of-Thoughts)搜索。经微调的语言模型从嵌入特征生成搜索指令,将候选对象分类为高优先级、探索性或可跳过类别。这些指令条件化一个平衡利用与熵驱动探索的玻尔兹曼策略,同时假设感知剪枝避免过早放弃有前景的候选对象。对于存在分数不一致性的候选对象,假设条件化的嵌入空间流匹配将蛋白质嵌入迁移至结合子流形。在SHS148k基准测试中,蛋白质思想实现11.2的平均最优结合排名,相比熵树搜索基线的47.7提升76%;在结合预测任务中,训练后的价值函数达到$91.08 \pm 0.19$的Micro-F1分数,在相同数据集上优于现有PPI方法。

0
下载
关闭预览

相关内容

蛋白质大语言模型:综述
专知会员服务
18+阅读 · 2025年2月26日
《深度学习在蛋白质科学中的进展》综述
专知会员服务
16+阅读 · 2024年4月5日
蛋白质深度神经网络能量函数的构建
专知会员服务
15+阅读 · 2022年8月28日
基于人工智能(AI)的蛋白结构预测工具合集
专知会员服务
10+阅读 · 2022年8月25日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
17+阅读 · 2019年1月24日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
21世纪的无人机战争
专知会员服务
1+阅读 · 33分钟前
《量子技术的军事任务技术适配与利用》
专知会员服务
1+阅读 · 47分钟前
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员