Fast Iteration of Spaced k-mers - 专知论文

会员服务 ·

0

间隔 · 序列 · 生物 · 信息学 · 提取 ·

Fast Iteration of Spaced k-mers

翻译：间隔k-mer的快速迭代

Background: Short sequence substrings of a fixed length k, called k-mers, are a ubiquitous computational primitive in bioinformatics, used across sequence indexing, read mapping, genome assembly, metagenomic classification, and comparative genomics. Spaced k-mers generalize this concept by selecting only a subset of positions within a k-mer, improving robustness to mismatches and sequencing errors. While k-mers are computationally highly efficient, spaced k-mers require additional work to be extracted from a sequence, which has slowed down existing methods. Results: We present a collection of efficient algorithms for extracting spaced k-mers from nucleotide sequences, optimized for different hardware architectures. They are based on bit manipulation instructions at CPU level, making them both simpler to implement and up to an order of magnitude faster than existing methods. We further evaluate common pitfalls in k-mer processing, which can cause substantial inefficiencies. Conclusions: Our approaches allow the utilization of spaced k-mers in high-performance bioinformatics applications without major performance degradation compared to regular k-mers, achieving a throughput of up to 750MB of sequence data per second per core. Availability: The implementation in C++20 is published under the MIT license, and freely available at https://github.com/lczech/fisk

翻译：背景：固定长度k的短序列子串（称为k-mer）是生物信息学中普遍使用的计算原语，广泛应用于序列索引、读段比对、基因组组装、宏基因组分类和比较基因组学。间隔k-mer通过仅选择k-mer内的部分位置来推广这一概念，从而提高对错配和测序错误的鲁棒性。尽管k-mer在计算上具有高效性，但间隔k-mer需要额外的工作来从序列中提取，这拖慢了现有方法的速度。结果：我们提出了一套高效的算法集合，用于从核苷酸序列中提取间隔k-mer，这些算法针对不同的硬件架构进行了优化。它们基于CPU级别的位操作指令，因此比现有方法既更易于实现，又快了多达一个数量级。我们进一步评估了k-mer处理中的常见陷阱，这些陷阱可能导致显著的低效性。结论：我们的方法允许在高性能生物信息学应用中使用间隔k-mer，而与常规k-mer相比不会造成显著的性能下降，每核每秒可实现高达750MB序列数据的吞吐量。可用性：采用C++20实现的代码以MIT许可证发布，并在https://github.com/lczech/fisk 上免费获取。

0

相关内容

【斯坦福大学博士论文】通过建模多维依赖性改进医学时间序列数据的深度学习，124页pdf

【斯坦福大学博士论文】通过建模多维依赖性改进医学时间序列数据的深度学习，124页pdf

专知会员服务

50+阅读 · 2023年3月23日

【AAAI2023】统一序列更好:时间间隔感知数据增强的序列推荐

【AAAI2023】统一序列更好:时间间隔感知数据增强的序列推荐

专知会员服务

16+阅读 · 2022年12月31日

【干货书】使用Python进行时间序列分析，从基础知识到前沿技术，420页pdf

【干货书】使用Python进行时间序列分析，从基础知识到前沿技术，420页pdf

专知会员服务

138+阅读 · 2022年5月21日

南大《时间序列分析（Time Series Analysis）》课程，推荐！

南大《时间序列分析（Time Series Analysis）》课程，推荐！

专知会员服务

156+阅读 · 2022年3月31日

【Reza Yazdanfar】基于递归神经网络的多元缺失值时间序列

【Reza Yazdanfar】基于递归神经网络的多元缺失值时间序列

专知会员服务

21+阅读 · 2022年3月16日

【ICML2021】双加速的快速间隔最大化

专知会员服务

12+阅读 · 2021年7月4日

【TAMU】最新《时间序列分析》课程笔记，527页pdf

【TAMU】最新《时间序列分析》课程笔记，527页pdf

专知会员服务

182+阅读 · 2020年9月12日

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

专知会员服务

36+阅读 · 2020年3月27日

【AISTATS2020接受论文】时空对齐，过空间和时间的最优transport（Spatio-Temporal Alignments: Optimal transport through space and time）

【AISTATS2020接受论文】时空对齐，过空间和时间的最优transport（Spatio-Temporal Alignments: Optimal transport through space and time）

专知会员服务

30+阅读 · 2020年1月11日

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

专知会员服务

204+阅读 · 2019年11月20日

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器！

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器！

AINLP

10+阅读 · 2021年2月6日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

专知

92+阅读 · 2019年11月20日

初学者系列：基于Keras的Faster-RCNN的代码学习

初学者系列：基于Keras的Faster-RCNN的代码学习

专知

17+阅读 · 2019年8月9日

深度学习工程化神器Keras教程：《Keras深度学习进阶》随书代码

深度学习工程化神器Keras教程：《Keras深度学习进阶》随书代码

专知

23+阅读 · 2019年7月12日

R语言时间序列分析

R语言时间序列分析

R语言中文社区

12+阅读 · 2018年11月19日

基于 Keras 用 LSTM 网络做时间序列预测

基于 Keras 用 LSTM 网络做时间序列预测

R语言中文社区

21+阅读 · 2018年8月6日

基于 Keras 用深度学习预测时间序列

基于 Keras 用深度学习预测时间序列

R语言中文社区

23+阅读 · 2018年7月27日

基于Keras进行迁移学习

基于Keras进行迁移学习

论智

12+阅读 · 2018年5月6日

教程 | 基于Keras的LSTM多变量时间序列预测

教程 | 基于Keras的LSTM多变量时间序列预测

机器之心

20+阅读 · 2017年10月30日

稀疏信号驱动的时间序列信号盲分离优化模型及算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于离子替代的(碱土,铅)硼酸盐系列倍频晶体制备及结构-效应-带隙的关系规律研究

国家自然科学基金

0+阅读 · 2015年12月31日

细胞分化过程中长非编码RNA介导的三维基因组遗传信息传递网络的解析

国家自然科学基金

0+阅读 · 2015年12月31日

K连通抗毁性拓扑条件下异构群体的协同一致

国家自然科学基金

1+阅读 · 2015年12月31日

高准度二代测序比对算法

国家自然科学基金

3+阅读 · 2015年12月31日

有理 Krylov 子空间算法的最优参数选取

国家自然科学基金

0+阅读 · 2015年12月31日

具有簇间分离特性的簇中心平面和子空间聚类方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

空间分数阶Schr？dinger方程的时间分裂谱方法

国家自然科学基金

0+阅读 · 2014年12月31日

求解非线性方程的加速迭代算法

国家自然科学基金

0+阅读 · 2014年12月31日

近似周期时间序列分析及其在程序化交易中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

FAST-MEL: A Fast, Accurate, and Storage Efficient Solution for Multimodal Entity Linking

Arxiv

0+阅读 · 6月10日

Improved Approximation Algorithms and Hardness Results for Shortest Common Superstring with Reverse Complements

Arxiv

0+阅读 · 5月29日

No More K-means:Single-Stage Sparse Coding for Efficient Multi-Vector Retrieval

Arxiv

0+阅读 · 5月28日

Space-filling foldover designs for order-of-addition experiments under Kendall tau distance criteria

Arxiv

0+阅读 · 5月26日

ADS-IMC: Accelerating Data Sorting with In-Memory Computation

Arxiv

0+阅读 · 5月15日

Deep Learning Alternatives of the Kolmogorov Superposition Theorem

Arxiv

0+阅读 · 5月14日

Fast and Compact Graph Cuts for the Boykov-Kolmogorov Algorithm

Arxiv

0+阅读 · 5月13日

DynamicLogLog: Faster, Smaller, and More Accurate Cardinality Estimation

Arxiv

0+阅读 · 5月13日

A Faster Generalized Two-Stage Approximate Top-K

Arxiv

0+阅读 · 5月13日

Drawing Lines in Psychological Space: What K-means Clustering Reveals in Simulated and Real Psychometric Data

Arxiv

0+阅读 · 5月7日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

2+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

4+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

5+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

6+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

10+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

【斯坦福大学博士论文】通过建模多维依赖性改进医学时间序列数据的深度学习，124页pdf

【斯坦福大学博士论文】通过建模多维依赖性改进医学时间序列数据的深度学习，124页pdf

专知会员服务

50+阅读 · 2023年3月23日

【AAAI2023】统一序列更好:时间间隔感知数据增强的序列推荐

【AAAI2023】统一序列更好:时间间隔感知数据增强的序列推荐

专知会员服务

16+阅读 · 2022年12月31日

【干货书】使用Python进行时间序列分析，从基础知识到前沿技术，420页pdf

【干货书】使用Python进行时间序列分析，从基础知识到前沿技术，420页pdf

专知会员服务

138+阅读 · 2022年5月21日

南大《时间序列分析（Time Series Analysis）》课程，推荐！

南大《时间序列分析（Time Series Analysis）》课程，推荐！

专知会员服务

156+阅读 · 2022年3月31日

【Reza Yazdanfar】基于递归神经网络的多元缺失值时间序列

【Reza Yazdanfar】基于递归神经网络的多元缺失值时间序列

专知会员服务

21+阅读 · 2022年3月16日

【ICML2021】双加速的快速间隔最大化

专知会员服务

12+阅读 · 2021年7月4日

【TAMU】最新《时间序列分析》课程笔记，527页pdf

【TAMU】最新《时间序列分析》课程笔记，527页pdf

专知会员服务

182+阅读 · 2020年9月12日

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

专知会员服务

36+阅读 · 2020年3月27日

【AISTATS2020接受论文】时空对齐，过空间和时间的最优transport（Spatio-Temporal Alignments: Optimal transport through space and time）

【AISTATS2020接受论文】时空对齐，过空间和时间的最优transport（Spatio-Temporal Alignments: Optimal transport through space and time）

专知会员服务

30+阅读 · 2020年1月11日

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

专知会员服务

204+阅读 · 2019年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器！

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器！

AINLP

10+阅读 · 2021年2月6日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

专知

92+阅读 · 2019年11月20日

初学者系列：基于Keras的Faster-RCNN的代码学习

初学者系列：基于Keras的Faster-RCNN的代码学习

专知

17+阅读 · 2019年8月9日

深度学习工程化神器Keras教程：《Keras深度学习进阶》随书代码

深度学习工程化神器Keras教程：《Keras深度学习进阶》随书代码

专知

23+阅读 · 2019年7月12日

R语言时间序列分析

R语言时间序列分析

R语言中文社区

12+阅读 · 2018年11月19日

基于 Keras 用 LSTM 网络做时间序列预测

基于 Keras 用 LSTM 网络做时间序列预测

R语言中文社区

21+阅读 · 2018年8月6日

基于 Keras 用深度学习预测时间序列

基于 Keras 用深度学习预测时间序列

R语言中文社区

23+阅读 · 2018年7月27日

基于Keras进行迁移学习

基于Keras进行迁移学习

论智

12+阅读 · 2018年5月6日

教程 | 基于Keras的LSTM多变量时间序列预测

教程 | 基于Keras的LSTM多变量时间序列预测

机器之心

20+阅读 · 2017年10月30日

相关论文

FAST-MEL: A Fast, Accurate, and Storage Efficient Solution for Multimodal Entity Linking

Arxiv

0+阅读 · 6月10日

Improved Approximation Algorithms and Hardness Results for Shortest Common Superstring with Reverse Complements

Arxiv

0+阅读 · 5月29日

No More K-means:Single-Stage Sparse Coding for Efficient Multi-Vector Retrieval

Arxiv

0+阅读 · 5月28日

Space-filling foldover designs for order-of-addition experiments under Kendall tau distance criteria

Arxiv

0+阅读 · 5月26日

ADS-IMC: Accelerating Data Sorting with In-Memory Computation

Arxiv

0+阅读 · 5月15日

Deep Learning Alternatives of the Kolmogorov Superposition Theorem

Arxiv

0+阅读 · 5月14日

Fast and Compact Graph Cuts for the Boykov-Kolmogorov Algorithm

Arxiv

0+阅读 · 5月13日

DynamicLogLog: Faster, Smaller, and More Accurate Cardinality Estimation

Arxiv

0+阅读 · 5月13日

A Faster Generalized Two-Stage Approximate Top-K

Arxiv

0+阅读 · 5月13日

Drawing Lines in Psychological Space: What K-means Clustering Reveals in Simulated and Real Psychometric Data

Arxiv

0+阅读 · 5月7日

相关基金

稀疏信号驱动的时间序列信号盲分离优化模型及算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于离子替代的(碱土,铅)硼酸盐系列倍频晶体制备及结构-效应-带隙的关系规律研究

国家自然科学基金

0+阅读 · 2015年12月31日

细胞分化过程中长非编码RNA介导的三维基因组遗传信息传递网络的解析

国家自然科学基金

0+阅读 · 2015年12月31日

K连通抗毁性拓扑条件下异构群体的协同一致

国家自然科学基金

1+阅读 · 2015年12月31日

高准度二代测序比对算法

国家自然科学基金

3+阅读 · 2015年12月31日

有理 Krylov 子空间算法的最优参数选取

国家自然科学基金

0+阅读 · 2015年12月31日

具有簇间分离特性的簇中心平面和子空间聚类方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

空间分数阶Schr？dinger方程的时间分裂谱方法

国家自然科学基金

0+阅读 · 2014年12月31日

求解非线性方程的加速迭代算法

国家自然科学基金

0+阅读 · 2014年12月31日

近似周期时间序列分析及其在程序化交易中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员