Protein sequences are abundant in repeating segments, both as exact copies and as approximate segments with mutations. These repeats are important for protein structure and function, motivating decades of algorithmic work on repeat identification. Recent work has shown that protein language models (PLMs) identify repeats, by examining their behavior in masked-token prediction. To elucidate their internal mechanisms, we investigate how PLMs detect both exact and approximate repeats. We find that the mechanism for approximate repeats functionally subsumes that of exact repeats. We then characterize this mechanism, revealing two main stages: PLMs first build feature representations using both general positional attention heads and biologically specialized components, such as neurons that encode amino-acid similarity. Then, induction heads attend to aligned tokens across repeated segments, promoting the correct answer. Our results reveal how PLMs solve this biological task by combining language-based pattern matching with specialized biological knowledge, thereby establishing a basis for studying more complex evolutionary processes in PLMs.


翻译:蛋白质序列中富含重复片段,既包括精确拷贝,也包含带有突变的近似片段。这些重复对蛋白质的结构与功能至关重要,推动了数十年来关于重复序列识别的算法研究。近期研究表明,蛋白质语言模型(PLMs)能够通过分析其在掩码标记预测中的行为来识别重复序列。为阐明其内部机制,我们研究了PLMs如何检测精确重复与近似重复。我们发现,近似重复的检测机制在功能上包含了精确重复的检测机制。随后我们对该机制进行表征,揭示出两个主要阶段:PLMs首先利用通用位置注意力头与生物学特化组件(如编码氨基酸相似性的神经元)构建特征表示;接着,归纳注意力头关注重复片段间的对齐标记,从而促进正确答案的生成。我们的研究结果揭示了PLMs如何通过结合基于语言的模式匹配与专业生物学知识来解决这一生物学任务,从而为研究PLMs中更复杂的进化过程奠定了基础。

0
下载
关闭预览

相关内容

具有动能的生命体。
大型语言模型在生物信息学中的应用综述
专知会员服务
16+阅读 · 2025年3月15日
蛋白质大语言模型:综述
专知会员服务
18+阅读 · 2025年2月26日
《深度学习在蛋白质科学中的进展》综述
专知会员服务
16+阅读 · 2024年4月5日
用蛋白语言模型改进蛋白复合物预测
专知会员服务
10+阅读 · 2022年9月25日
专知会员服务
34+阅读 · 2021年8月16日
NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿
中国人工智能学会
12+阅读 · 2018年11月15日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
超越网格:作战环境对炮兵的影响
专知会员服务
2+阅读 · 5月31日
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
6+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
7+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
19+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
11+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
10+阅读 · 5月30日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员