Faster PBWT prefix-array access via batching - 专知论文

会员服务 ·

0

比特 · 报告 · 算法 · 变换 · 存储 ·

Faster PBWT prefix-array access via batching

翻译：通过批处理加速PBWT前缀数组访问

The positional Burrows-Wheeler Transform (PBWT) is commonly used to store haplotype panels compactly in such a way that, given a query haplotype, we can quickly find the set maximal exact matches (SMEMs) between the query and the haplotypes in a panel. There are generally two steps in this process: first we find the maximal substrings of the query that occur in the same positions in haplotypes in the panel and then, for each such substring, report the haplotypes in the panel in which the substring occurs in the same position as in the query. Very recently, Bonizzoni, Gagie and Gao (2026) gave two time-space tradeoffs for the second step: they use either $O ((r + h) \log n)$ bits and $O (\log \log \min (h, \ell) + k)$ time to report $k$ haplotypes in the panel, or $O (r \log h + h \log n)$ bits and $O (k \log \log h)$ time, where $r$ is the number of runs in the panel's PBWT and $h$, $\ell$ and $n = h \ell$ are the panel's height, length and size, respectively. We observe here that if we can batch queries until we have found $r \lg (h) / \lg r$ such substrings and we report an average of at least $\lg (r) / \lg h$ haplotypes in the panel per substring, for example, then for the second step we can easily use $O (r \log h)$ bits and constant time to report each haplotype. Our approach is based on an algorithm for constructing the prefix arrays quickly from the PBWT, which may be of independent interest.

翻译：位置Burrows-Wheeler变换（PBWT）通常用于紧凑存储单倍型面板，使得给定一个查询单倍型时，我们能快速找到该查询与面板中单倍型之间的集合最大精确匹配（SMEMs）。该过程通常包含两个步骤：首先找出查询中在面板内单倍型相同位置上出现的最大子串，然后针对每个这样的子串，报告面板中在该位置出现该子串的单倍型。近期，Bonizzoni、Gagie和Gao（2026）针对第二步提出了两种时间-空间权衡方案：一种使用$O ((r + h) \log n)$比特空间和$O (\log \log \min (h, \ell) + k)$时间报告面板中$k$个单倍型；另一种使用$O (r \log h + h \log n)$比特空间和$O (k \log \log h)$时间，其中$r$是面板PBWT中的游程数，$h$、$\ell$和$n = h \ell$分别代表面板的高度、长度和大小。我们在此观察到，如果能将查询批处理至找到$r \lg (h) / \lg r$个此类子串，且每个子串平均至少报告$\lg (r) / \lg h$个面板中的单倍型（例如），那么对于第二步，我们可使用$O (r \log h)$比特空间和常数时间报告每个单倍型。我们的方法基于一种从PBWT快速构建前缀数组的算法，该算法本身可能具有独立的研究价值。

0

相关内容

【AAAI2024】SeTformer：视觉与语言处理的理想选择"

【AAAI2024】SeTformer：视觉与语言处理的理想选择"

专知会员服务

21+阅读 · 2024年1月13日

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

专知会员服务

35+阅读 · 2023年4月20日

【CVPR2023】DiffCollage:用扩散模型并行生成大量内容

【CVPR2023】DiffCollage:用扩散模型并行生成大量内容

专知会员服务

28+阅读 · 2023年4月4日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

专知会员服务

22+阅读 · 2022年3月25日

【干货书】深度学习Pytorch快速入门，150页pdf，Deep Learning with PyTorch

【干货书】深度学习Pytorch快速入门，150页pdf，Deep Learning with PyTorch

专知会员服务

156+阅读 · 2021年4月4日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换

【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换

专知会员服务

36+阅读 · 2019年12月15日

英伟达Faster Transformer：作者带你揭秘BERT优化

英伟达Faster Transformer：作者带你揭秘BERT优化

机器之心

14+阅读 · 2019年9月18日

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

中国科学院网络数据重点实验室

16+阅读 · 2019年8月26日

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

AI前线

12+阅读 · 2019年7月22日

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

专知

21+阅读 · 2019年3月26日

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

未来产业促进会

18+阅读 · 2019年3月10日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

谷歌升级版Transformer官方解读：更大、更强，解决长文本问题（开源）

谷歌升级版Transformer官方解读：更大、更强，解决长文本问题（开源）

新智元

19+阅读 · 2019年1月30日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

一份超全的PyTorch资源列表（Github 2.2K星）

一份超全的PyTorch资源列表（Github 2.2K星）

黑龙江大学自然语言处理实验室

25+阅读 · 2018年10月26日

【干货】库、教程、论文实现，这是一份超全的PyTorch资源列表（Github 2.2K星）

【干货】库、教程、论文实现，这是一份超全的PyTorch资源列表（Github 2.2K星）

GAN生成式对抗网络

10+阅读 · 2018年10月21日

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向10Tb/in2级磁存储系统的二维LDPC码设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

快速射线追踪模型处理技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向长尾现象的数据缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

高速双段式DFB集成激光芯片研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Fast-dLLM++: Fréchet Profile Decoding for Faster Diffusion LLM Inference

Arxiv

0+阅读 · 6月15日

STC: Reversible Digit-Context Decomposition for BWT-Family Text Compression

Arxiv

0+阅读 · 6月15日

CentroidKV: Efficient Long-Context LLM Inference via KV Cache Clustering

Arxiv

0+阅读 · 6月14日

GradPower: Powering Gradients for Faster Language Model Pre-Training

Arxiv

0+阅读 · 6月13日

STC: Reversible Digit-Context Decomposition for BWT-Family Text Compression

Arxiv

0+阅读 · 6月8日

An extremal problem for completely unclustered Burrows-Wheeler images

Arxiv

0+阅读 · 5月31日

MVR-cache: Optimizing Semantic Caching via Multi-Vector Retrieval and Learned Prompt Segmentation

Arxiv

0+阅读 · 5月24日

Accelerating Suffix Jailbreak attacks with Prefix-Shared KV-cache

Arxiv

0+阅读 · 5月12日

Fast Byte Latent Transformer

Arxiv

0+阅读 · 5月8日

RcLLM: Accelerating Generative Recommendation via Beyond-Prefix KV Caching

Arxiv

0+阅读 · 5月8日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

【AAAI2024】SeTformer：视觉与语言处理的理想选择"

【AAAI2024】SeTformer：视觉与语言处理的理想选择"

专知会员服务

21+阅读 · 2024年1月13日

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

专知会员服务

35+阅读 · 2023年4月20日

【CVPR2023】DiffCollage:用扩散模型并行生成大量内容

【CVPR2023】DiffCollage:用扩散模型并行生成大量内容

专知会员服务

28+阅读 · 2023年4月4日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

专知会员服务

22+阅读 · 2022年3月25日

【干货书】深度学习Pytorch快速入门，150页pdf，Deep Learning with PyTorch

【干货书】深度学习Pytorch快速入门，150页pdf，Deep Learning with PyTorch

专知会员服务

156+阅读 · 2021年4月4日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换

【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换

专知会员服务

36+阅读 · 2019年12月15日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

英伟达Faster Transformer：作者带你揭秘BERT优化

英伟达Faster Transformer：作者带你揭秘BERT优化

机器之心

14+阅读 · 2019年9月18日

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

中国科学院网络数据重点实验室

16+阅读 · 2019年8月26日

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

AI前线

12+阅读 · 2019年7月22日

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

专知

21+阅读 · 2019年3月26日

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

未来产业促进会

18+阅读 · 2019年3月10日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

谷歌升级版Transformer官方解读：更大、更强，解决长文本问题（开源）

谷歌升级版Transformer官方解读：更大、更强，解决长文本问题（开源）

新智元

19+阅读 · 2019年1月30日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

一份超全的PyTorch资源列表（Github 2.2K星）

一份超全的PyTorch资源列表（Github 2.2K星）

黑龙江大学自然语言处理实验室

25+阅读 · 2018年10月26日

【干货】库、教程、论文实现，这是一份超全的PyTorch资源列表（Github 2.2K星）

【干货】库、教程、论文实现，这是一份超全的PyTorch资源列表（Github 2.2K星）

GAN生成式对抗网络

10+阅读 · 2018年10月21日

相关论文

Fast-dLLM++: Fréchet Profile Decoding for Faster Diffusion LLM Inference

Arxiv

0+阅读 · 6月15日

STC: Reversible Digit-Context Decomposition for BWT-Family Text Compression

Arxiv

0+阅读 · 6月15日

CentroidKV: Efficient Long-Context LLM Inference via KV Cache Clustering

Arxiv

0+阅读 · 6月14日

GradPower: Powering Gradients for Faster Language Model Pre-Training

Arxiv

0+阅读 · 6月13日

STC: Reversible Digit-Context Decomposition for BWT-Family Text Compression

Arxiv

0+阅读 · 6月8日

An extremal problem for completely unclustered Burrows-Wheeler images

Arxiv

0+阅读 · 5月31日

MVR-cache: Optimizing Semantic Caching via Multi-Vector Retrieval and Learned Prompt Segmentation

Arxiv

0+阅读 · 5月24日

Accelerating Suffix Jailbreak attacks with Prefix-Shared KV-cache

Arxiv

0+阅读 · 5月12日

Fast Byte Latent Transformer

Arxiv

0+阅读 · 5月8日

RcLLM: Accelerating Generative Recommendation via Beyond-Prefix KV Caching

Arxiv

0+阅读 · 5月8日

相关基金

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向10Tb/in2级磁存储系统的二维LDPC码设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

快速射线追踪模型处理技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向长尾现象的数据缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

高速双段式DFB集成激光芯片研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员