Protein language models (pLMs) can generate novel protein sequences with properties beyond those observed in nature, yet the mechanisms underlying protein generation remain poorly understood. Existing mechanistic interpretability methods based on sparse autoencoders and transcoders primarily focus on protein representation learning models and do not capture the computation required for autoregressive generation. Here, we introduce ProGenMech, a mechanistic interpretability framework for generative protein language models that extends cross-layer transcoders (CLTs) to ProGen3, a sparse Mixture-of-Experts model trained for both causal generation and span infilling. Unlike per-layer approaches, CLTs reconstruct each layer using sparse latent variables from all preceding layers, enabling faithful recovery of inter-layer generative computation. We further develop a zero-shot circuit discovery framework to identify sparse latent circuits responsible for protein generation and fitness prediction. In causal generation and zero-shot fitness estimation tasks, ProGenMech outperforms local transcoder baselines in recovering ProGen3's probability distribution and functional scoring behavior, while matching the original model's generative distribution in span infilling tasks. Moreover, the recovered circuits reveal biologically meaningful motifs and functional regions associated with conserved sequence patterns and protein fitness landscapes, establishing a foundation for interpretable and steerable protein generation.


翻译:蛋白质语言模型能够生成具有自然界未观察到的特性的新型蛋白质序列,然而蛋白质生成背后的机制仍知之甚少。现有基于稀疏自编码器和跨层编码器的机械可解释性方法主要关注蛋白质表示学习模型,未能捕捉自回归生成所需的计算过程。本文提出ProGenMech——一种面向生成式蛋白质语言模型的机械可解释性框架,将跨层编码器扩展至ProGen3(一种为因果生成和跨度填充训练的稀疏专家混合模型)。与逐层方法不同,跨层编码器利用所有前置层的稀疏潜变量重构每一层,从而能够忠实地恢复跨层的生成计算过程。我们进一步开发了零样本电路发现框架,用于识别负责蛋白质生成和适应度预测的稀疏潜变量电路。在因果生成和零样本适应度估计任务中,ProGenMech在恢复ProGen3的概率分布和功能评分行为方面优于局部跨层编码器基线,同时在跨度填充任务中与原模型的生成分布相匹配。此外,恢复出的电路揭示了与保守序列模式和蛋白质适应度景观相关的生物学意义基序和功能区域,为可解释且可操控的蛋白质生成奠定了坚实基础。

0
下载
关闭预览

相关内容

蛋白质大语言模型:综述
专知会员服务
18+阅读 · 2025年2月26日
用蛋白语言模型改进蛋白复合物预测
专知会员服务
10+阅读 · 2022年9月25日
ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练
专知会员服务
29+阅读 · 2022年2月20日
专知会员服务
34+阅读 · 2021年8月16日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
【干货】深入理解自编码器(附代码实现)
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月27日
VIP会员
最新内容
21世纪的无人机战争
专知会员服务
1+阅读 · 33分钟前
《量子技术的军事任务技术适配与利用》
专知会员服务
1+阅读 · 47分钟前
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员