Fluorescent protein quantum yield (QY) is governed by the mature chromophore and its three-dimensional microenvironment rather than sequence identity alone. Protein language models and emission-band averages capture global trends, but do not model how local physical signals act on specific chromophore regions. We present a chromophore-centred mechanism graph algorithm for QY prediction. Each PDB structure is converted into a typed 3D residue graph, registered to a mature-CRO state, partitioned into phenolate, bridge and imidazolinone regions, and transformed by channel-signal-region propagation. The representation contains 121 enrichment features; after removing identity shortcuts, 52 non-identity features are used for band-specific ExtraTrees regression. Because each feature encodes a contact channel, seed signal and target CRO region, interpretation is intrinsic rather than post hoc. On a 531-protein benchmark, the method achieved the best random-CV performance among model-based baselines (R = 0.772 +/- 0.008, MAE = 0.131 +/- 0.002), exceeding Band mean (R = 0.632), ESM-C (R = 0.734) and SaProt (R = 0.731), and ranked first in bright screening (Bright P@5 = 0.704). Under homology control, the advantage was clearest in the remote bucket (<50% similarity; R = 0.697 versus 0.633, 0.575 and 0.408), with the strongest overall bright/dark Top-K screening. Stable selected features recovered band-specific mechanisms: aromatic packing and clamp asymmetry in GFP-like proteins, charge/clamp balance in Red proteins, and flexibility-risk/bulky-contact features in Far-red proteins. Source code, feature tables and evaluation scripts are available from the first author upon request. Contact: [email protected]


翻译:荧光蛋白量子产率(QY)由成熟发色团及其三维微环境共同决定,而非仅由序列同源性决定。蛋白质语言模型和发射波段平均值能捕捉全局趋势,但无法建模局部物理信号如何在特定发色团区域发挥作用。我们提出一种以发色团为中心的机制图算法用于QY预测。每个PDB结构被转化为带类型的3D残基图,配准到成熟发色团(CRO)状态,分为酚盐、桥部和咪唑啉酮三个区域,并通过通道-信号-区域传播进行转换。该表示包含121个富集特征;去除恒等值捷径后,使用52个非恒等值特征进行波段特异性的ExtraTrees回归。由于每个特征编码一个接触通道、种子信号和目标CRO区域,解释是内在的而非事后分析。在包含531种蛋白质的基准数据集上,该方法在基于模型的基线方法中取得最佳随机交叉验证性能(R=0.772±0.008,MAE=0.131±0.002),优于波段均值(R=0.632)、ESM-C(R=0.734)和SaProt(R=0.731),并在明亮筛选任务中排名第一(Bright P@5=0.704)。在同源控制条件下,该方法在远亲类别(<50%相似性;R=0.697 vs 0.633、0.575和0.408)中优势最明显,整体明/暗Top-K筛选效果最强。稳定的选定特征恢复了波段特异性机制:GFP类蛋白中的芳香堆积与钳夹不对称性、Red蛋白中的电荷/钳夹平衡、以及Far-red蛋白中的柔性风险/笨重接触特征。源代码、特征表和评估脚本可向第一作者索取。联系方式:[email protected]

0
下载
关闭预览

相关内容

DTI-HETA:基于异构图的图卷积药物-靶标相互作用预测
专知会员服务
18+阅读 · 2022年9月25日
基于人工智能(AI)的蛋白结构预测工具合集
专知会员服务
10+阅读 · 2022年8月25日
AlphaFold教程与最新蛋白质结构预测进展,附视频与Slides
专知会员服务
29+阅读 · 2022年6月16日
【UCLA】基于深度神经网络的工业大模型预测控制,36页ppt
ACL 2019开源论文 | 基于Attention的知识图谱关系预测
概率图模型体系:HMM、MEMM、CRF
机器学习研究会
30+阅读 · 2018年2月10日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
DTI-HETA:基于异构图的图卷积药物-靶标相互作用预测
专知会员服务
18+阅读 · 2022年9月25日
基于人工智能(AI)的蛋白结构预测工具合集
专知会员服务
10+阅读 · 2022年8月25日
AlphaFold教程与最新蛋白质结构预测进展,附视频与Slides
专知会员服务
29+阅读 · 2022年6月16日
【UCLA】基于深度神经网络的工业大模型预测控制,36页ppt
相关资讯
ACL 2019开源论文 | 基于Attention的知识图谱关系预测
概率图模型体系:HMM、MEMM、CRF
机器学习研究会
30+阅读 · 2018年2月10日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员