Multiple sequence alignment (MSA) data play a crucial role in the study of protein mutations, with contact prediction being a notable application. Existing methods are often model-based or algorithmic and typically do not incorporate statistical inference to quantify the uncertainty of the prediction outcomes. To address this, we propose a novel framework that transforms the task of contact prediction into a statistical testing problem. Our approach is motivated by the partial correlation for continuous random variables. With one-hot encoding of MSA data, we are able to construct a partial correlation graph for multivariate categorical variables. In this framework, two connected nodes in the graph indicate that the corresponding positions on the protein form a contact. A new spectrum-based test statistic is introduced to test whether two positions are partially correlated. Moreover, the new framework enables the identification of amino acid combinations that contribute to the correlation within the identified contacts, an important but largely unexplored aspect of protein mutations. Numerical experiments demonstrate that our proposed method is valid in terms of controlling Type I errors and powerful in general. Real data applications on various protein families further validate the practical utility of our approach in coevolution and mutation analysis.


翻译:多序列比对数据在蛋白质突变研究中具有关键作用,其中接触预测是一个重要应用领域。现有方法通常基于模型或算法,且普遍未引入统计推断来量化预测结果的不确定性。为此,我们提出一种将接触预测转化为统计检验问题的新框架。该方法的构建灵感来源于连续随机变量的偏相关性理论。通过对多序列比对数据进行独热编码,我们能够构建多元分类变量的偏相关图。在此框架中,图中相连的两个节点意味着蛋白质上对应位点形成了接触。我们提出了一种基于谱分析的新型检验统计量,用于检验两个位点是否存在偏相关性。此外,该框架还能识别在已发现接触中促成相关性的氨基酸组合模式——这是蛋白质突变研究中重要却尚未充分探索的维度。数值实验表明,所提方法在控制第一类错误方面具有有效性,且总体检验功效显著。通过对多种蛋白质家族的实际数据分析,进一步验证了本方法在共进化与突变分析中的实用价值。

0
下载
关闭预览

相关内容

综述:基于进化和物理启发建模的计算蛋白设计
专知会员服务
16+阅读 · 2022年9月12日
ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练
专知会员服务
29+阅读 · 2022年2月20日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员