Extreme-scale many-against-many protein similarity search - 专知论文

会员服务 ·

0

相似度 · Performer · CASES · 成对型 · 特化 ·

2023 年 3 月 3 日

Extreme-scale many-against-many protein similarity search

翻译：面向极端规模的多对多蛋白质相似性搜索

Oguz Selvitopi,Saliya Ekanayake,Giulia Guidi,Muaaz G. Awan,Georgios A. Pavlopoulos,Ariful Azad,Nikos Kyrpides,Leonid Oliker,Katherine Yelick,Aydın Buluç

from arxiv, 2022 ACM Gordon Bell Prize Finalist

Similarity search is one of the most fundamental computations that are regularly performed on ever-increasing protein datasets. Scalability is of paramount importance for uncovering novel phenomena that occur at very large scales. We unleash the power of over 20,000 GPUs on the Summit system to perform all-vs-all protein similarity search on one of the largest publicly available datasets with 405 million proteins, in less than 3.5 hours, cutting the time-to-solution for many use cases from weeks. The variability of protein sequence lengths, as well as the sparsity of the space of pairwise comparisons, make this a challenging problem in distributed memory. Due to the need to construct and maintain a data structure holding indices to all other sequences, this application has a huge memory footprint that makes it hard to scale the problem sizes. We overcome this memory limitation by innovative matrix-based blocking techniques, without introducing additional load imbalance.

翻译：相似性搜索是针对不断增长的蛋白质数据集定期执行的最基础计算之一。可扩展性对于揭示超大规模下出现的新现象至关重要。我们利用Summit系统上超过2万个GPU的计算能力，在不到3.5小时内对包含4.05亿个蛋白质的最大公开可用数据集之一进行全对全蛋白质相似性搜索，将许多用例的求解时间从数周缩短。蛋白质序列长度的变异性以及成对比较空间的稀疏性，使得这一分布式内存问题充满挑战。由于需要构建并维护一个存储指向所有其他序列索引的数据结构，该应用具有巨大的内存占用，使得问题规模难以扩展。我们通过创新的基于矩阵的分块技术克服了这一内存限制，且未引入额外的负载不平衡。

0

相关内容

相似度

NeurlPS 2022 | 自然语言处理相关论文分类整理

NeurlPS 2022 | 自然语言处理相关论文分类整理

专知会员服务

51+阅读 · 2022年10月2日

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

专知会员服务

76+阅读 · 2022年6月28日

INRIA最新「机器学习理论」新书，229页pdf原理性阐述机器学习

INRIA最新「机器学习理论」新书，229页pdf原理性阐述机器学习

专知会员服务

69+阅读 · 2021年3月27日

NLP必读经典文献100篇

专知会员服务

124+阅读 · 2020年9月8日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

96+阅读 · 2020年3月12日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

105+阅读 · 2019年10月9日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

征稿 | International Joint Conference on Knowledge Graphs (IJCKG)

征稿 | International Joint Conference on Knowledge Graphs (IJCKG)

开放知识图谱

2+阅读 · 2022年5月20日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

专知

17+阅读 · 2018年2月11日

rs4969170GG基因型抑制SOCS3基因转录活性促进肝癌发生发展的功能机制研究

国家自然科学基金

0+阅读 · 2016年12月31日

重组高密度脂蛋白激活PI3K/Akt信号通路调控心肌自噬保护心功能的分子机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

Anderson型多酸的不对称修饰及可控组装研究

国家自然科学基金

1+阅读 · 2014年12月31日

Kronheimer-Nakajima quiver 模空间与有理曲面

国家自然科学基金

1+阅读 · 2013年12月31日

细胞ATP生成异常- - Warburg效应的机理研究

国家自然科学基金

0+阅读 · 2012年12月31日

细胞和个体水平上Vaspin与胰岛素抵抗相互关系研究

国家自然科学基金

0+阅读 · 2012年12月31日

用于强磁场的位置灵敏型探测器技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

UGT基因簇进化及调控研究

国家自然科学基金

0+阅读 · 2009年12月31日

TR3相互作用新蛋白机理研究

国家自然科学基金

1+阅读 · 2008年12月31日

辅助因子调控的蛋白质折叠、聚集与功能运动

国家自然科学基金

0+阅读 · 2008年12月31日

Quantifying the Effect of Image Similarity on Diabetic Foot Ulcer Classification

Arxiv

0+阅读 · 2023年4月25日

The tale of two MS MARCO -- and their unfair comparisons

Arxiv

0+阅读 · 2023年4月25日

Predicting Hate Intensity of Twitter Conversation Threads

Arxiv

0+阅读 · 2023年4月25日

A Survey of Large Language Models

Arxiv

1+阅读 · 2023年4月24日

An Analysis of Collocation on GPUs for Deep Learning Training

Arxiv

0+阅读 · 2023年4月24日

Quantile Extreme Gradient Boosting for Uncertainty Quantification

Arxiv

1+阅读 · 2023年4月23日

Learn to Cluster Faces with Better Subgraphs

Arxiv

0+阅读 · 2023年4月21日

Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey

Arxiv

25+阅读 · 2023年2月20日

Artificial Intelligence for the Metaverse: A Survey

Arxiv

31+阅读 · 2022年2月15日

Conditional Local Convolution for Spatio-temporal Meteorological Forecasting

Arxiv

10+阅读 · 2021年12月2日

VIP会员

文章信息

相关主题

最新内容

【博士论文】抽象信息论与安全奖励学习的数学发展

【博士论文】抽象信息论与安全奖励学习的数学发展

专知会员服务

1+阅读 · 今天16:07

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

专知会员服务

0+阅读 · 今天16:04

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

专知会员服务

5+阅读 · 今天14:49

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

专知会员服务

6+阅读 · 今天14:36

《发展用于决策支持的化生放核（CBRN）态势理解》

《发展用于决策支持的化生放核（CBRN）态势理解》

专知会员服务

4+阅读 · 今天14:29

《通往人工通用智能之路上的均衡策略》

《通往人工通用智能之路上的均衡策略》

专知会员服务

1+阅读 · 今天14:22

《人工智能与军事整合：现状与未来风险》报告

《人工智能与军事整合：现状与未来风险》报告

专知会员服务

2+阅读 · 今天14:12

《Palantir的科技生态系统》

《Palantir的科技生态系统》

专知会员服务

14+阅读 · 6月2日

《脑机接口：拓展神经前沿及其战略意涵》最新报告

《脑机接口：拓展神经前沿及其战略意涵》最新报告

专知会员服务

8+阅读 · 6月2日

《美军联合跨部门特遣部队401：反无人机系统表征通用标准（C4）》最新报告（中文版）

《美军联合跨部门特遣部队401：反无人机系统表征通用标准（C4）》最新报告（中文版）

专知会员服务

20+阅读 · 6月2日

《反无人机系统传感器融合》90页报告

《反无人机系统传感器融合》90页报告

专知会员服务

16+阅读 · 6月2日

运用人工智能与卫星通信驱散“战争迷雾”

运用人工智能与卫星通信驱散“战争迷雾”

专知会员服务

8+阅读 · 6月2日

ACL 2026 | LLMSurgeon：从生成文本诊断大模型训练数据

ACL 2026 | LLMSurgeon：从生成文本诊断大模型训练数据

专知会员服务

6+阅读 · 6月2日

【综述】世界模型：架构、方法、推理与应用全景

【综述】世界模型：架构、方法、推理与应用全景

专知会员服务

11+阅读 · 6月2日

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

专知会员服务

8+阅读 · 6月1日

相关VIP内容

NeurlPS 2022 | 自然语言处理相关论文分类整理

NeurlPS 2022 | 自然语言处理相关论文分类整理

专知会员服务

51+阅读 · 2022年10月2日

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

专知会员服务

76+阅读 · 2022年6月28日

INRIA最新「机器学习理论」新书，229页pdf原理性阐述机器学习

INRIA最新「机器学习理论」新书，229页pdf原理性阐述机器学习

专知会员服务

69+阅读 · 2021年3月27日

NLP必读经典文献100篇

专知会员服务

124+阅读 · 2020年9月8日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

96+阅读 · 2020年3月12日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

105+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

【博士论文】抽象信息论与安全奖励学习的数学发展

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

相关资讯

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

征稿 | International Joint Conference on Knowledge Graphs (IJCKG)

征稿 | International Joint Conference on Knowledge Graphs (IJCKG)

开放知识图谱

2+阅读 · 2022年5月20日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

专知

17+阅读 · 2018年2月11日

相关论文

Quantifying the Effect of Image Similarity on Diabetic Foot Ulcer Classification

Arxiv

0+阅读 · 2023年4月25日

The tale of two MS MARCO -- and their unfair comparisons

Arxiv

0+阅读 · 2023年4月25日

Predicting Hate Intensity of Twitter Conversation Threads

Arxiv

0+阅读 · 2023年4月25日

A Survey of Large Language Models

Arxiv

1+阅读 · 2023年4月24日

An Analysis of Collocation on GPUs for Deep Learning Training

Arxiv

0+阅读 · 2023年4月24日

Quantile Extreme Gradient Boosting for Uncertainty Quantification

Arxiv

1+阅读 · 2023年4月23日

Learn to Cluster Faces with Better Subgraphs

Arxiv

0+阅读 · 2023年4月21日

Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey

Arxiv

25+阅读 · 2023年2月20日

Artificial Intelligence for the Metaverse: A Survey

Arxiv

31+阅读 · 2022年2月15日

Conditional Local Convolution for Spatio-temporal Meteorological Forecasting

Arxiv

10+阅读 · 2021年12月2日

相关基金

rs4969170GG基因型抑制SOCS3基因转录活性促进肝癌发生发展的功能机制研究

国家自然科学基金

0+阅读 · 2016年12月31日

重组高密度脂蛋白激活PI3K/Akt信号通路调控心肌自噬保护心功能的分子机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

Anderson型多酸的不对称修饰及可控组装研究

国家自然科学基金

1+阅读 · 2014年12月31日

Kronheimer-Nakajima quiver 模空间与有理曲面

国家自然科学基金

1+阅读 · 2013年12月31日

细胞ATP生成异常- - Warburg效应的机理研究

国家自然科学基金

0+阅读 · 2012年12月31日

细胞和个体水平上Vaspin与胰岛素抵抗相互关系研究

国家自然科学基金

0+阅读 · 2012年12月31日

用于强磁场的位置灵敏型探测器技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

UGT基因簇进化及调控研究

国家自然科学基金

0+阅读 · 2009年12月31日

TR3相互作用新蛋白机理研究

国家自然科学基金

1+阅读 · 2008年12月31日

辅助因子调控的蛋白质折叠、聚集与功能运动

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员