Motivation: The multiple sequence alignment (MSA) problem has been extensively studied, with numerous approaches developed over recent years. With the rapid growth of sequence data, there is an increasing need for fast and accurate MSA tools that scale effectively to large datasets. Building on our previous work on CLAM, we are able to use exact dynamic programming (Needleman-Wunsch) while scaling to large datasets. We introduce MuSAlS (Multiple Sequence Alignment at Scale), a fast and scalable de novo MSA aligner. MuSAlS uses hierarchical clustering to construct a guide tree based on the Levenshtein distance metric, enabling efficient and accurate alignment through a bottom-up approach. Results: MuSAlS achieves competitive accuracy compared to state-of-the-art methods while significantly improving runtime performance. This makes it a valuable tool for researchers analyzing large-scale genomic and metagenomic datasets, addressing the growing demand for scalable bioinformatics solutions. Availability and Implementation: MuSAlS is implemented in the Rust programming language, and available at https://github.com/URI-ABD/clam


翻译:动机:多序列比对(MSA)问题已被广泛研究,近年来已发展出多种方法。随着序列数据的快速增长,对能够有效扩展到大型数据集的快速、准确MSA工具的需求日益增长。基于我们先前在CLAM上的工作,我们能够在扩展到大型数据集的同时使用精确动态规划(Needleman-Wunsch)算法。本文介绍MuSAlS(大规模多序列比对工具),一种快速且可扩展的从头MSA比对工具。MuSAlS利用层次聚类,基于Levenshtein距离度量构建引导树,通过自底向上的方法实现高效且准确的比对。结果:与现有先进方法相比,MuSAlS在达到具有竞争力的准确度的同时,显著提升了运行时间性能。这使其成为分析大规模基因组和宏基因组数据集研究人员的宝贵工具,满足了生物信息学领域对可扩展解决方案日益增长的需求。可用性与实现:MuSAlS采用Rust编程语言实现,可通过https://github.com/URI-ABD/clam获取。

0
下载
关闭预览

相关内容

【牛津博士论文】序列机器学习的应用与方法论,137页pdf
【AAAI2023】MHCCL:多变量时间序列的掩蔽层次聚类对比学习
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
VIP会员
相关VIP内容
【牛津博士论文】序列机器学习的应用与方法论,137页pdf
【AAAI2023】MHCCL:多变量时间序列的掩蔽层次聚类对比学习
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员