Circuit Tracing in Autoregressive Protein Language Models - 专知论文

会员服务 ·

0

跨层 · 稀疏 · 蛋白质语言模型 · 语言模型 · 蛋白质生成 ·

Circuit Tracing in Autoregressive Protein Language Models

翻译：自回归蛋白质语言模型中的电路追踪

Darin Tsui,William Deinzer,Daniel Saeedi,Amirali Aghazadeh

from arxiv, Accepted into the Mechanistic Interpretability Workshop at ICML 2026. 24 pages, 14 figures

Protein language models (pLMs) can generate novel protein sequences with properties beyond those observed in nature, yet the mechanisms underlying protein generation remain poorly understood. Existing mechanistic interpretability methods based on sparse autoencoders and transcoders primarily focus on protein representation learning models and do not capture the computation required for autoregressive generation. Here, we introduce ProGenMech, a mechanistic interpretability framework for generative protein language models that extends cross-layer transcoders (CLTs) to ProGen3, a sparse Mixture-of-Experts model trained for both causal generation and span infilling. Unlike per-layer approaches, CLTs reconstruct each layer using sparse latent variables from all preceding layers, enabling faithful recovery of inter-layer generative computation. We further develop a zero-shot circuit discovery framework to identify sparse latent circuits responsible for protein generation and fitness prediction. In causal generation and zero-shot fitness estimation tasks, ProGenMech outperforms local transcoder baselines in recovering ProGen3's probability distribution and functional scoring behavior, while matching the original model's generative distribution in span infilling tasks. Moreover, the recovered circuits reveal biologically meaningful motifs and functional regions associated with conserved sequence patterns and protein fitness landscapes, establishing a foundation for interpretable and steerable protein generation.

翻译：蛋白质语言模型能够生成具有自然界未观察到的特性的新型蛋白质序列，然而蛋白质生成背后的机制仍知之甚少。现有基于稀疏自编码器和跨层编码器的机械可解释性方法主要关注蛋白质表示学习模型，未能捕捉自回归生成所需的计算过程。本文提出ProGenMech——一种面向生成式蛋白质语言模型的机械可解释性框架，将跨层编码器扩展至ProGen3（一种为因果生成和跨度填充训练的稀疏专家混合模型）。与逐层方法不同，跨层编码器利用所有前置层的稀疏潜变量重构每一层，从而能够忠实地恢复跨层的生成计算过程。我们进一步开发了零样本电路发现框架，用于识别负责蛋白质生成和适应度预测的稀疏潜变量电路。在因果生成和零样本适应度估计任务中，ProGenMech在恢复ProGen3的概率分布和功能评分行为方面优于局部跨层编码器基线，同时在跨度填充任务中与原模型的生成分布相匹配。此外，恢复出的电路揭示了与保守序列模式和蛋白质适应度景观相关的生物学意义基序和功能区域，为可解释且可操控的蛋白质生成奠定了坚实基础。

0

相关内容

【ICML2025】《基于低分辨率词元枢轴的层级掩码自回归模型》

【ICML2025】《基于低分辨率词元枢轴的层级掩码自回归模型》

专知会员服务

7+阅读 · 2025年5月27日

蛋白质大语言模型：综述

蛋白质大语言模型：综述

专知会员服务

18+阅读 · 2025年2月26日

【纽约大学博士论文】蛋白质序列和结构的预测性与生成性模型，206页pdf

【纽约大学博士论文】蛋白质序列和结构的预测性与生成性模型，206页pdf

专知会员服务

20+阅读 · 2024年4月27日

用蛋白语言模型改进蛋白复合物预测

用蛋白语言模型改进蛋白复合物预测

专知会员服务

10+阅读 · 2022年9月25日

Nat. Commun. | 用于蛋白质设计的深度无监督语言模型ProtGPT2

Nat. Commun. | 用于蛋白质设计的深度无监督语言模型ProtGPT2

专知会员服务

12+阅读 · 2022年8月1日

【ICML2022】蛋白质适应度预测与自回归transformers和推理时间检索

【ICML2022】蛋白质适应度预测与自回归transformers和推理时间检索

专知会员服务

15+阅读 · 2022年6月4日

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

专知会员服务

26+阅读 · 2022年3月22日

ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

专知会员服务

29+阅读 · 2022年2月20日

【ICML2021】蛋白质语言模型-MSA Transformer

专知会员服务

34+阅读 · 2021年8月16日

【伯克利】自回归模型的局部掩卷积，Locally Masked Convolution for Autoregressive Models

【伯克利】自回归模型的局部掩卷积，Locally Masked Convolution for Autoregressive Models

专知会员服务

20+阅读 · 2020年6月23日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

AINLP

11+阅读 · 2019年8月11日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

AI研习社

16+阅读 · 2018年12月4日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

可扩展的蛋白质组学大数据存储与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于分子进化的蛋白质共进化高维互信息模型

国家自然科学基金

4+阅读 · 2015年12月31日

基于多生物网络的蛋白质功能预测算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

DNA分子和蛋白质分子的自旋输运性质研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于生物网络的共享肽归属及蛋白质定性算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

蛋白质亚线粒体定位及其特征信息和预测算法的挖掘

国家自然科学基金

0+阅读 · 2014年12月31日

对具有非平衡多标签特性的蛋白质功能类型分类预测研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向蛋白质分子位点标记的多源特征提取和深度序列学习方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

组蛋白修饰与基因表达调控的相关性分析

国家自然科学基金

0+阅读 · 2014年12月31日

蛋白质结构类预测中的特征信息提取与分类算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

DifFRACT: Diffusion Feature Reconstruction and Attribution for Circuit Tracing

Arxiv

0+阅读 · 6月14日

HD-Prot: A Protein Language Model for Joint Sequence-Structure Modeling with Continuous Structure Tokens

Arxiv

0+阅读 · 6月11日

K-Forcing: Joint Next-K-Token Decoding via Push-Forward Language Modeling

Arxiv

0+阅读 · 6月10日

Self-Augmenting Retrieval for Diffusion Language Models

Arxiv

0+阅读 · 6月4日

HD-Prot: A Protein Language Model for Joint Sequence-Structure Modeling with Continuous Structure Tokens

Arxiv

0+阅读 · 5月28日

Regression Language Models for Code

Arxiv

0+阅读 · 5月27日

Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders

Arxiv

0+阅读 · 5月22日

Flow Map Language Models: One-step Language Modeling via Continuous Denoising

Arxiv

0+阅读 · 5月20日

DiffRetriever: Parallel Representative Tokens for Retrieval with Diffusion Language Models

Arxiv

0+阅读 · 5月8日

How to make the most of your masked language model for protein engineering

Arxiv

0+阅读 · 5月7日

VIP会员

文章信息

相关主题

蛋白质语言模型

蛋白质生成

最新内容

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

1+阅读 · 8分钟前

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

1+阅读 · 33分钟前

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

1+阅读 · 43分钟前

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

1+阅读 · 47分钟前

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

2+阅读 · 50分钟前

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

13+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

相关VIP内容

【ICML2025】《基于低分辨率词元枢轴的层级掩码自回归模型》

【ICML2025】《基于低分辨率词元枢轴的层级掩码自回归模型》

专知会员服务

7+阅读 · 2025年5月27日

蛋白质大语言模型：综述

蛋白质大语言模型：综述

专知会员服务

18+阅读 · 2025年2月26日

【纽约大学博士论文】蛋白质序列和结构的预测性与生成性模型，206页pdf

【纽约大学博士论文】蛋白质序列和结构的预测性与生成性模型，206页pdf

专知会员服务

20+阅读 · 2024年4月27日

用蛋白语言模型改进蛋白复合物预测

用蛋白语言模型改进蛋白复合物预测

专知会员服务

10+阅读 · 2022年9月25日

Nat. Commun. | 用于蛋白质设计的深度无监督语言模型ProtGPT2

Nat. Commun. | 用于蛋白质设计的深度无监督语言模型ProtGPT2

专知会员服务

12+阅读 · 2022年8月1日

【ICML2022】蛋白质适应度预测与自回归transformers和推理时间检索

【ICML2022】蛋白质适应度预测与自回归transformers和推理时间检索

专知会员服务

15+阅读 · 2022年6月4日

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

专知会员服务

26+阅读 · 2022年3月22日

ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

ICLR2022 | OntoProtein：融入基因本体知识的蛋白质预训练

专知会员服务

29+阅读 · 2022年2月20日

【ICML2021】蛋白质语言模型-MSA Transformer

专知会员服务

34+阅读 · 2021年8月16日

【伯克利】自回归模型的局部掩卷积，Locally Masked Convolution for Autoregressive Models

【伯克利】自回归模型的局部掩卷积，Locally Masked Convolution for Autoregressive Models

专知会员服务

20+阅读 · 2020年6月23日

热门VIP内容

开通专知VIP会员享更多权益服务

21世纪的无人机战争

《量子技术的军事任务技术适配与利用》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《伊朗与以色列-美国热战及其对数字技术的影响》

相关资讯

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

AINLP

11+阅读 · 2019年8月11日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

AI研习社

16+阅读 · 2018年12月4日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

DifFRACT: Diffusion Feature Reconstruction and Attribution for Circuit Tracing

Arxiv

0+阅读 · 6月14日

HD-Prot: A Protein Language Model for Joint Sequence-Structure Modeling with Continuous Structure Tokens

Arxiv

0+阅读 · 6月11日

K-Forcing: Joint Next-K-Token Decoding via Push-Forward Language Modeling

Arxiv

0+阅读 · 6月10日

Self-Augmenting Retrieval for Diffusion Language Models

Arxiv

0+阅读 · 6月4日

HD-Prot: A Protein Language Model for Joint Sequence-Structure Modeling with Continuous Structure Tokens

Arxiv

0+阅读 · 5月28日

Regression Language Models for Code

Arxiv

0+阅读 · 5月27日

Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders

Arxiv

0+阅读 · 5月22日

Flow Map Language Models: One-step Language Modeling via Continuous Denoising

Arxiv

0+阅读 · 5月20日

DiffRetriever: Parallel Representative Tokens for Retrieval with Diffusion Language Models

Arxiv

0+阅读 · 5月8日

How to make the most of your masked language model for protein engineering

Arxiv

0+阅读 · 5月7日

相关基金

可扩展的蛋白质组学大数据存储与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于分子进化的蛋白质共进化高维互信息模型

国家自然科学基金

4+阅读 · 2015年12月31日

基于多生物网络的蛋白质功能预测算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

DNA分子和蛋白质分子的自旋输运性质研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于生物网络的共享肽归属及蛋白质定性算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

蛋白质亚线粒体定位及其特征信息和预测算法的挖掘

国家自然科学基金

0+阅读 · 2014年12月31日

对具有非平衡多标签特性的蛋白质功能类型分类预测研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向蛋白质分子位点标记的多源特征提取和深度序列学习方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

组蛋白修饰与基因表达调控的相关性分析

国家自然科学基金

0+阅读 · 2014年12月31日

蛋白质结构类预测中的特征信息提取与分类算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员