Subcellular localization is a crucial biological task for drug target identification and function annotation. Although it has been biologically realized that subcellular localization is closely associated with protein structure, no existing dataset offers comprehensive 3D structural information with detailed subcellular localization annotations, thus severely hindering the application of promising structure-based models on this task. To address this gap, we introduce a new benchmark called $\mathbf{CAPSUL}$, a $\mathbf{C}$omprehensive hum$\mathbf{A}$n $\mathbf{P}$rotein benchmark for $\mathbf{SU}$bcellular $\mathbf{L}$ocalization. It features a dataset that integrates diverse 3D structural representations with fine-grained subcellular localization annotations carefully curated by domain experts. We evaluate this benchmark using a variety of state-of-the-art sequence-based and structure-based models, showcasing the importance of involving structural features in this task. Furthermore, we explore reweighting and single-label classification strategies to facilitate future investigation on structure-based methods for this task. Lastly, we showcase the powerful interpretability of structure-based methods through a case study on the Golgi apparatus, where we discover a decisive localization pattern $α$-helix from attention mechanisms, demonstrating the potential for bridging the gap with intuitive biological interpretability and paving the way for data-driven discoveries in cell biology.


翻译:摘要:亚细胞定位是药物靶点识别与功能注释中的关键生物学任务。尽管生物学研究已证实亚细胞定位与蛋白质结构密切相关,但现有数据集均缺乏涵盖详细亚细胞定位注释的综合三维结构信息,严重阻碍了基于结构的优秀模型在此任务中的应用。为填补这一空白,我们提出了名为 $\mathbf{CAPSUL}$ 的新基准——$\mathbf{C}$omprehensive hum$\mathbf{A}$n $\mathbf{P}$rotein benchmark for $\mathbf{SU}$bcellular $\mathbf{L}$ocalization(人类蛋白质亚细胞定位综合基准)。该基准的核心数据集整合了多种三维结构表示与领域专家精心标注的细粒度亚细胞定位注释。我们采用多种最先进的序列基与结构基模型对此基准进行评估,揭示了引入结构特征对该任务的重要性。此外,我们探索了权重重分配与单标签分类策略,以推动未来基于结构的方法研究。最后,通过高尔基体案例研究,我们展示了结构基方法强大的可解释性——从注意力机制中发现决定性定位模式α-螺旋,这不仅弥合了与直观生物学可解释性之间的鸿沟,更为细胞生物学的数据驱动发现开辟了新路径。

0
下载
关闭预览

相关内容

蛋白质大语言模型:综述
专知会员服务
18+阅读 · 2025年2月26日
《深度学习在蛋白质科学中的进展》综述
专知会员服务
16+阅读 · 2024年4月5日
基于人工智能(AI)的蛋白结构预测工具合集
专知会员服务
10+阅读 · 2022年8月25日
ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练
专知会员服务
29+阅读 · 2022年2月20日
什么是语义角色标注?
人工智能头条
18+阅读 · 2019年4月28日
AI综述专栏 | 人体骨骼关键点检测综述
人工智能前沿讲习班
19+阅读 · 2018年11月7日
人体骨骼关键点检测综述
极市平台
22+阅读 · 2018年6月29日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
【知识图谱】医学知识图谱构建技术与研究进展
产业智能官
44+阅读 · 2017年11月16日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
人工智能如何变革军事C5ISR作战
专知会员服务
12+阅读 · 5月8日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员