Colinear chaining is a classical heuristic for sequence alignment: it enables scalable genome comparison and is a main component of many state-of-the-art read mappers based on seed-chain-extend. The earliest $O(n \log \log n)$ time algorithms by Eppstein et al. (J. ACM, 1992) chained $n$ fragments between two sequences $T$ and $Q$ while minimizing a gap cost based on the diagonal distance $Δ_{\text{diag}}$ between consecutive fragments. They also forbid fragment overlaps, which are essential in current chaining formulations: in long-read mapping, overlaps improve sensitivity and avoid restrictions on the fragment class considered. Jain, Gibney, and Thankachan (J. Comput. Biol. 2022) recently combined a $Δ_{\text{diag}} = |Δ_T -Δ_Q|$ overlap cost with the classic $L_\infty = \max(Δ_T , Δ_Q)$ gap cost that takes the maximum between the horizontal and vertical gap between the fragments and they proved that chaining under this cost model is equivalent to the anchored edit distance. We improve the existing $O(n \log^3 n)$-time algorithm for anchored edit distance to $O(n \log \log n)$ time in $O(n)$ space, by combining the gap-cost computation of Chao and Miller (Algorithmica, 1995) with the overlap-cost computation of Baker and Giancarlo (ESA, 1998). By developing llchain, a simpler $O(n \log n)$-time implementation of our method, we show how chaining algorithms that might have been recently overlooked by the bioinformatics community scale competitively to millions of fragments and large genomes. On average, llchain is $10\times$ faster than other methods on instances with $3\,000\,000$ anchors, and over $3\times$ faster on MEMs between HiFi reads and a reference human genome.


翻译:共线链式是序列比对的一种经典启发式方法:它能够实现可扩展的基因组比较,并且是许多基于种子-链-扩展(seed-chain-extend)的先进读段映射器的核心组件。Eppstein 等人(J. ACM, 1992)最早提出的 $O(n \log \log n)$ 时间算法,将 $T$ 和 $Q$ 两条序列之间的 $n$ 个片段进行链式连接,同时基于连续片段之间的对角线距离 $Δ_{\text{diag}}$ 最小化间隙代价。该算法还禁止片段重叠,而片段重叠在当前链式公式中至关重要:在长读段映射中,重叠能提高灵敏度并避免对考虑片段类别的限制。Jain、Gibney 和 Thankachan(J. Comput. Biol. 2022)最近将基于 $Δ_{\text{diag}} = |Δ_T - Δ_Q|$ 的重叠代价与经典的 $L_\infty = \max(Δ_T , Δ_Q)$ 间隙代价(取片段之间水平间隙和垂直间隙的最大值)相结合,并证明在该代价模型下的链式等价于锚定编辑距离。我们通过将 Chao 和 Miller(Algorithmica, 1995)的间隙代价计算方法与 Baker 和 Giancarlo(ESA, 1998)的重叠代价计算方法相结合,将现有锚定编辑距离的 $O(n \log^3 n)$ 时间算法改进为 $O(n)$ 空间下的 $O(n \log \log n)$ 时间算法。通过开发 llchain(一种更简单的 $O(n \log n)$ 时间实现),我们展示了可能近期被生物信息学界忽视的链式算法如何能够扩展到数百万个片段和大型基因组。平均而言,在包含 $3\,000\,000$ 个锚点的实例上,llchain 比其它方法快 $10$ 倍,在 HiFi 读段与人类参考基因组之间的最大精确匹配(MEM)上,速度快 $3$ 倍以上。

0
下载
关闭预览

相关内容

异质信息网络链路预测方法综述
专知会员服务
17+阅读 · 2024年8月8日
专知会员服务
51+阅读 · 2021年4月9日
专知会员服务
45+阅读 · 2020年9月3日
放弃 RNN/LSTM 吧,因为真的不好用!望周知~
人工智能头条
19+阅读 · 2018年4月24日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月29日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关VIP内容
异质信息网络链路预测方法综述
专知会员服务
17+阅读 · 2024年8月8日
专知会员服务
51+阅读 · 2021年4月9日
专知会员服务
45+阅读 · 2020年9月3日
相关资讯
放弃 RNN/LSTM 吧,因为真的不好用!望周知~
人工智能头条
19+阅读 · 2018年4月24日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员