Background: Short sequence substrings of a fixed length k, called k-mers, are a ubiquitous computational primitive in bioinformatics, used across sequence indexing, read mapping, genome assembly, metagenomic classification, and comparative genomics. Spaced k-mers generalize this concept by selecting only a subset of positions within a k-mer, improving robustness to mismatches and sequencing errors. While k-mers are computationally highly efficient, spaced k-mers require additional work to be extracted from a sequence, which has slowed down existing methods. Results: We present a collection of efficient algorithms for extracting spaced k-mers from nucleotide sequences, optimized for different hardware architectures. They are based on bit manipulation instructions at CPU level, making them both simpler to implement and up to an order of magnitude faster than existing methods. We further evaluate common pitfalls in k-mer processing, which can cause substantial inefficiencies. Conclusions: Our approaches allow the utilization of spaced k-mers in high-performance bioinformatics applications without major performance degradation compared to regular k-mers, achieving a throughput of up to 750MB of sequence data per second per core. Availability: The implementation in C++20 is published under the MIT license, and freely available at https://github.com/lczech/fisk


翻译:背景:固定长度k的短序列子串(称为k-mer)是生物信息学中普遍使用的计算原语,广泛应用于序列索引、读段比对、基因组组装、宏基因组分类和比较基因组学。间隔k-mer通过仅选择k-mer内的部分位置来推广这一概念,从而提高对错配和测序错误的鲁棒性。尽管k-mer在计算上具有高效性,但间隔k-mer需要额外的工作来从序列中提取,这拖慢了现有方法的速度。结果:我们提出了一套高效的算法集合,用于从核苷酸序列中提取间隔k-mer,这些算法针对不同的硬件架构进行了优化。它们基于CPU级别的位操作指令,因此比现有方法既更易于实现,又快了多达一个数量级。我们进一步评估了k-mer处理中的常见陷阱,这些陷阱可能导致显著的低效性。结论:我们的方法允许在高性能生物信息学应用中使用间隔k-mer,而与常规k-mer相比不会造成显著的性能下降,每核每秒可实现高达750MB序列数据的吞吐量。可用性:采用C++20实现的代码以MIT许可证发布,并在https://github.com/lczech/fisk 上免费获取。

0
下载
关闭预览

相关内容

南大《时间序列分析 (Time Series Analysis)》课程,推荐!
专知会员服务
156+阅读 · 2022年3月31日
【Reza Yazdanfar】基于递归神经网络的多元缺失值时间序列
专知会员服务
12+阅读 · 2021年7月4日
【TAMU】最新《时间序列分析》课程笔记,527页pdf
专知会员服务
182+阅读 · 2020年9月12日
R语言时间序列分析
R语言中文社区
12+阅读 · 2018年11月19日
基于 Keras 用 LSTM 网络做时间序列预测
R语言中文社区
21+阅读 · 2018年8月6日
基于 Keras 用深度学习预测时间序列
R语言中文社区
23+阅读 · 2018年7月27日
基于Keras进行迁移学习
论智
12+阅读 · 2018年5月6日
教程 | 基于Keras的LSTM多变量时间序列预测
机器之心
20+阅读 · 2017年10月30日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关资讯
R语言时间序列分析
R语言中文社区
12+阅读 · 2018年11月19日
基于 Keras 用 LSTM 网络做时间序列预测
R语言中文社区
21+阅读 · 2018年8月6日
基于 Keras 用深度学习预测时间序列
R语言中文社区
23+阅读 · 2018年7月27日
基于Keras进行迁移学习
论智
12+阅读 · 2018年5月6日
教程 | 基于Keras的LSTM多变量时间序列预测
机器之心
20+阅读 · 2017年10月30日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员