We formulate a structure-informed multiple sequence alignment problem, denoted MSA-S. The model abstracts biological sequences as strings and structural information as designated position-pairs. It augments a fixed pairwise string score, defined by a fixed non-gap symbol-pair scoring rule and fixed affine gap penalties, with a binary overlap score on designated position-pairs, which can be interpreted as a contact-map overlap score in structural applications. This yields a fixed-score, integer-valued optimization model suitable for complexity-theoretic analysis. Under this formulation, we show that the decision problem MSA-S-DEC is NP-complete for a broad class of fixed pairwise string scoring schemes. We also show that NP-hardness persists even under the restriction that every designated position-pair set is nonempty and the pair-overlap threshold is strictly positive. For the associated scalarized optimization problem MSA-S-OPT(lambda) with any fixed rational constant lambda >= 1, we further show that, under the canonical unit scheme for the non-gap symbol-pair scoring rule, MSA-S-OPT(lambda) admits no polynomial-time approximation scheme (PTAS) even for two input strings (k = 2), unless P = NP. These results establish a formal complexity-theoretic baseline for structure-informed multiple sequence alignment.


翻译:我们形式化了一个结构信息引导的多序列比对问题,记为MSA-S。该模型将生物序列抽象为字符串,将结构信息抽象为指定位置对。它通过固定的非空位符号对评分规则和固定的仿射空位罚分来定义固定配对字符串得分,并在指定位置对上添加一个二元重叠得分——该得分在结构应用中可解释为接触图重叠得分。由此产生的固定得分整数优化模型适用于复杂度理论分析。在此形式化框架下,我们证明对于一大类固定配对字符串评分方案,判定问题MSA-S-DEC是NP完全的。我们还证明,即使限制每个指定位置对集合非空且位置对重叠阈值严格为正,NP难性依然成立。对于关联的标量化优化问题MSA-S-OPT(λ)(其中λ为任意固定有理常数且λ≥1),我们进一步证明,在非空位符号对评分规则的规范单位方案下,即使仅考虑两条输入字符串(k=2),MSA-S-OPT(λ)也不存在多项式时间近似方案(PTAS),除非P=NP。这些结果为结构信息引导的多序列比对建立了形式化的复杂度理论基础。

0
下载
关闭预览

相关内容

【WWW2022】互信息压缩的紧凑图结构学习
专知会员服务
33+阅读 · 2022年1月17日
[WWW2021]图结构估计神经网络
专知会员服务
43+阅读 · 2021年3月29日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
读书报告 | Deep Learning for Extreme Multi-label Text Classification
科技创新与创业
48+阅读 · 2018年1月10日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月25日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
专知会员服务
3+阅读 · 今天7:28
消耗优势:美军的“精确规模化”概念
专知会员服务
7+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
8+阅读 · 6月15日
俄乌战场地面机器人如何改写战争规则
专知会员服务
9+阅读 · 6月14日
相关VIP内容
【WWW2022】互信息压缩的紧凑图结构学习
专知会员服务
33+阅读 · 2022年1月17日
[WWW2021]图结构估计神经网络
专知会员服务
43+阅读 · 2021年3月29日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员