Bigger Is Not Better: The Fastest Static GPU Index Is Also Lightweight! - 专知论文

会员服务 ·

0

GPU · 索引结构 · 结构 · 内存 · 排序 ·

Bigger Is Not Better: The Fastest Static GPU Index Is Also Lightweight!

翻译：更大未必更好：最快的静态GPU索引同样轻量！

Justus Henneberg,Felix Schuhknecht

Sorting and binary searching a dense array can be considered the simplest and most space efficient form of indexing. This holds especially on GPUs as they exhibit exceptional sorting performance. However, the popular opinion is that such a primitive approach cannot compete with large, highly-sophisticated GPU index structures in terms of lookup performance, and hence, should not actually be considered in practice. In this work, we will investigate whether binary search actually still deserves this bad reputation or whether it can be a fast and space-minimal alternative to more heavy-weight index structures, in particular when utilizing all the advancements of current highly-parallel GPU architectures. To find out, we introduce advanced variants of binary search to GPUs and equip them with a set of established low-level optimizations. These architecture-specific optimizations aim at getting the most out of binary search by (a) greatly reducing the overall amount of GPU memory accesses required during search, (b) exploiting the enormous benefits of memory access coalescing on a GPU, and (c) maximizing scalability by reordering the dataset into a more favorable layout. By comparing our optimized search strategies against nine state-of-the-art GPU index structures under several static indexing workloads, we demonstrate that they not only outperform all competitors (except for hashing-based approaches) by a factor of up to 3.8, but also maintain the smallest possible memory footprint.

翻译：对密集数组进行排序和二分查找可视为最简单且空间效率最高的索引形式。这在GPU上尤其适用，因为它们展现出卓越的排序性能。然而，普遍观点认为这种原始方法在查找性能上无法与庞大且高度复杂的GPU索引结构竞争，因此在实践中不应被考虑。在本研究中，我们将探讨二分查找是否确实仍应背负这种不良声誉，抑或它能成为更重量级索引结构的快速且空间最小化的替代方案，特别是在充分利用当前高度并行GPU架构的所有技术进步时。为探究此问题，我们将二分查找的高级变体引入GPU，并为其配备一系列成熟的底层优化技术。这些架构特定的优化旨在通过以下方式充分发挥二分查找的潜力：(a) 大幅减少搜索过程中所需的GPU内存访问总量，(b) 利用GPU上内存访问合并的巨大优势，以及(c) 通过将数据集重新排列为更有利的布局来最大化可扩展性。通过在多个静态索引工作负载下将我们优化的搜索策略与九种最先进的GPU索引结构进行比较，我们证明这些策略不仅以最高达3.8倍的性能优势超越所有竞争者（基于哈希的方法除外），同时保持了最小的内存占用。

0

相关内容

GPU

适配还是提示？微软最新《通用大模型是否超过专业领域微调大模型》论文，GPT-4多种策略提示超越医学大模型

适配还是提示？微软最新《通用大模型是否超过专业领域微调大模型》论文，GPT-4多种策略提示超越医学大模型

专知会员服务

59+阅读 · 2023年12月3日

丹麦奥胡斯大学等最新《高效高分辨率深度学习》综述，全面阐述高效高分辨率深度学习方法

丹麦奥胡斯大学等最新《高效高分辨率深度学习》综述，全面阐述高效高分辨率深度学习方法

专知会员服务

21+阅读 · 2022年12月13日

142页ppt！如何加速NAS，亚马逊IBM最新《高效神经架构搜索》教程

142页ppt！如何加速NAS，亚马逊IBM最新《高效神经架构搜索》教程

专知会员服务

31+阅读 · 2022年8月17日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

深度学习如何又好又快? Google最新《高效深度学习: 更小、更快、更好》综述论文，43页pdf

深度学习如何又好又快? Google最新《高效深度学习: 更小、更快、更好》综述论文，43页pdf

专知会员服务

91+阅读 · 2021年6月18日

Google-EfficientNet v2来了！更快，更小，更强！

Google-EfficientNet v2来了！更快，更小，更强！

专知会员服务

19+阅读 · 2021年4月4日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

专知会员服务

10+阅读 · 2019年11月13日

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

GitHub趋势榜第一！图深度学习数百篇顶会论文最全Get！

GitHub趋势榜第一！图深度学习数百篇顶会论文最全Get！

新智元

45+阅读 · 2019年7月8日

6000星人气深度学习资源！架构模型技巧全都有，图灵奖得主LeCun推荐

6000星人气深度学习资源！架构模型技巧全都有，图灵奖得主LeCun推荐

量子位

13+阅读 · 2019年6月18日

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

未来产业促进会

18+阅读 · 2019年3月10日

最新23页《深度学习图像超分辨率应用综述》论文，带你全面了解深度学习超分方法（附下载）

最新23页《深度学习图像超分辨率应用综述》论文，带你全面了解深度学习超分方法（附下载）

专知

43+阅读 · 2019年2月20日

小米开源FALSR算法：快速精确轻量级的超分辨率模型

小米开源FALSR算法：快速精确轻量级的超分辨率模型

AI100

11+阅读 · 2019年1月31日

TensorFlow GPU基准测试：2080 Ti vs V100 vs 1080 Ti vs Titan V

TensorFlow GPU基准测试：2080 Ti vs V100 vs 1080 Ti vs Titan V

论智

12+阅读 · 2018年10月14日

深度学习的GPU：深度学习中使用GPU的经验和建议

深度学习的GPU：深度学习中使用GPU的经验和建议

数据挖掘入门与实战

11+阅读 · 2018年1月3日

经验 | Pytorch还是Tensorflow？英伟达工程师帮你总结了

经验 | Pytorch还是Tensorflow？英伟达工程师帮你总结了

AI100

10+阅读 · 2017年10月27日

大规模多视角高维图像特征提取

国家自然科学基金

4+阅读 · 2017年12月31日

高性能低比特视觉搜索及芯片结构研究

国家自然科学基金

1+阅读 · 2016年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于GPU的几类分数阶微分方程的并行算法研究及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

FliX: Flipped-Indexing for Scalable GPU Queries and Updates

Arxiv

0+阅读 · 4月17日

Blueprint, Bootstrap, and Bridge: A Security Look at NVIDIA GPU Confidential Computing

Arxiv

0+阅读 · 4月17日

Record-Remix-Replay: Hierarchical GPU Kernel Optimization using Evolutionary Search

Arxiv

0+阅读 · 4月13日

gMatch: Fine-Grained and Hardware-Efficient Subgraph Matching on GPUs

Arxiv

0+阅读 · 4月12日

Taming GPU Underutilization via Static Partitioning and Fine-grained CPU Offloading

Arxiv

0+阅读 · 4月9日

An Efficient Batch Solver for the Singular Value Decomposition on GPUs

Arxiv

0+阅读 · 4月9日

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

Arxiv

0+阅读 · 4月6日

GPU-RMQ: Accelerating Range Minimum Queries on Modern GPUs

Arxiv

0+阅读 · 4月2日

SPARe: Stacked Parallelism with Adaptive Reordering for Fault-Tolerant LLM Pretraining Systems with 100k+ GPUs

Arxiv

0+阅读 · 2月27日

GPU-Native Approximate Nearest Neighbor Search with IVF-RaBitQ: Fast Index Build and Search

Arxiv

0+阅读 · 2月27日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | SARDI：扩散语言模型的自增强检索

ICML 2026 | SARDI：扩散语言模型的自增强检索

专知会员服务

4+阅读 · 6月6日

长时程具身智能安全综述：机器人操作的跨层分析

长时程具身智能安全综述：机器人操作的跨层分析

专知会员服务

4+阅读 · 6月6日

从“杀伤链”到“杀伤网”：新时代防空反导体系的真正需求

从“杀伤链”到“杀伤网”：新时代防空反导体系的真正需求

专知会员服务

9+阅读 · 6月6日

《锻造军官能力：军官发展的军事训练、学术教育及设计思维导向创新的多维度研究》最新300页

《锻造军官能力：军官发展的军事训练、学术教育及设计思维导向创新的多维度研究》最新300页

专知会员服务

5+阅读 · 6月6日

《国防领域安全采用大语言模型的战略蓝图》

《国防领域安全采用大语言模型的战略蓝图》

专知会员服务

7+阅读 · 6月6日

《对抗性电磁环境下远程巡飞弹作战的保密指挥控制数据链》

《对抗性电磁环境下远程巡飞弹作战的保密指挥控制数据链》

专知会员服务

5+阅读 · 6月6日

CVPR2026奖项公布，谷歌D4RT最佳论文获奖，何恺明ResNet、YOLO获时间检验奖！

CVPR2026奖项公布，谷歌D4RT最佳论文获奖，何恺明ResNet、YOLO获时间检验奖！

专知会员服务

5+阅读 · 6月6日

ICML 2026 | 演化选择的因果建模

ICML 2026 | 演化选择的因果建模

专知会员服务

7+阅读 · 6月5日

综述｜学习式3D表征最新进展与趋势

综述｜学习式3D表征最新进展与趋势

专知会员服务

7+阅读 · 6月5日

《武器作战效能分析：基于虚拟构造仿真大数据与深度学习的初步见解》

《武器作战效能分析：基于虚拟构造仿真大数据与深度学习的初步见解》

专知会员服务

7+阅读 · 6月5日

《自主巡飞弹药系统量子逻辑框架：一种基于不确定模糊集的方法》

《自主巡飞弹药系统量子逻辑框架：一种基于不确定模糊集的方法》

专知会员服务

7+阅读 · 6月5日

人工智能重塑威慑：算法优势的兴起

人工智能重塑威慑：算法优势的兴起

专知会员服务

7+阅读 · 6月5日

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

专知会员服务

14+阅读 · 6月4日

AgentOps综述：智能体系统运维框架

AgentOps综述：智能体系统运维框架

专知会员服务

17+阅读 · 6月4日

《美陆军最新条令：兵力防护》

《美陆军最新条令：兵力防护》

专知会员服务

14+阅读 · 6月4日

相关VIP内容

适配还是提示？微软最新《通用大模型是否超过专业领域微调大模型》论文，GPT-4多种策略提示超越医学大模型

适配还是提示？微软最新《通用大模型是否超过专业领域微调大模型》论文，GPT-4多种策略提示超越医学大模型

专知会员服务

59+阅读 · 2023年12月3日

丹麦奥胡斯大学等最新《高效高分辨率深度学习》综述，全面阐述高效高分辨率深度学习方法

丹麦奥胡斯大学等最新《高效高分辨率深度学习》综述，全面阐述高效高分辨率深度学习方法

专知会员服务

21+阅读 · 2022年12月13日

142页ppt！如何加速NAS，亚马逊IBM最新《高效神经架构搜索》教程

142页ppt！如何加速NAS，亚马逊IBM最新《高效神经架构搜索》教程

专知会员服务

31+阅读 · 2022年8月17日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

深度学习如何又好又快? Google最新《高效深度学习: 更小、更快、更好》综述论文，43页pdf

深度学习如何又好又快? Google最新《高效深度学习: 更小、更快、更好》综述论文，43页pdf

专知会员服务

91+阅读 · 2021年6月18日

Google-EfficientNet v2来了！更快，更小，更强！

Google-EfficientNet v2来了！更快，更小，更强！

专知会员服务

19+阅读 · 2021年4月4日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

专知会员服务

10+阅读 · 2019年11月13日

热门VIP内容

开通专知VIP会员享更多权益服务

长时程具身智能安全综述：机器人操作的跨层分析

《锻造军官能力：军官发展的军事训练、学术教育及设计思维导向创新的多维度研究》最新300页

ICML 2026 | SARDI：扩散语言模型的自增强检索

从“杀伤链”到“杀伤网”：新时代防空反导体系的真正需求

相关资讯

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

GitHub趋势榜第一！图深度学习数百篇顶会论文最全Get！

GitHub趋势榜第一！图深度学习数百篇顶会论文最全Get！

新智元

45+阅读 · 2019年7月8日

6000星人气深度学习资源！架构模型技巧全都有，图灵奖得主LeCun推荐

6000星人气深度学习资源！架构模型技巧全都有，图灵奖得主LeCun推荐

量子位

13+阅读 · 2019年6月18日

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

未来产业促进会

18+阅读 · 2019年3月10日

最新23页《深度学习图像超分辨率应用综述》论文，带你全面了解深度学习超分方法（附下载）

最新23页《深度学习图像超分辨率应用综述》论文，带你全面了解深度学习超分方法（附下载）

专知

43+阅读 · 2019年2月20日

小米开源FALSR算法：快速精确轻量级的超分辨率模型

小米开源FALSR算法：快速精确轻量级的超分辨率模型

AI100

11+阅读 · 2019年1月31日

TensorFlow GPU基准测试：2080 Ti vs V100 vs 1080 Ti vs Titan V

TensorFlow GPU基准测试：2080 Ti vs V100 vs 1080 Ti vs Titan V

论智

12+阅读 · 2018年10月14日

深度学习的GPU：深度学习中使用GPU的经验和建议

深度学习的GPU：深度学习中使用GPU的经验和建议

数据挖掘入门与实战

11+阅读 · 2018年1月3日

经验 | Pytorch还是Tensorflow？英伟达工程师帮你总结了

经验 | Pytorch还是Tensorflow？英伟达工程师帮你总结了

AI100

10+阅读 · 2017年10月27日

相关论文

FliX: Flipped-Indexing for Scalable GPU Queries and Updates

Arxiv

0+阅读 · 4月17日

Blueprint, Bootstrap, and Bridge: A Security Look at NVIDIA GPU Confidential Computing

Arxiv

0+阅读 · 4月17日

Record-Remix-Replay: Hierarchical GPU Kernel Optimization using Evolutionary Search

Arxiv

0+阅读 · 4月13日

gMatch: Fine-Grained and Hardware-Efficient Subgraph Matching on GPUs

Arxiv

0+阅读 · 4月12日

Taming GPU Underutilization via Static Partitioning and Fine-grained CPU Offloading

Arxiv

0+阅读 · 4月9日

An Efficient Batch Solver for the Singular Value Decomposition on GPUs

Arxiv

0+阅读 · 4月9日

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

Arxiv

0+阅读 · 4月6日

GPU-RMQ: Accelerating Range Minimum Queries on Modern GPUs

Arxiv

0+阅读 · 4月2日

SPARe: Stacked Parallelism with Adaptive Reordering for Fault-Tolerant LLM Pretraining Systems with 100k+ GPUs

Arxiv

0+阅读 · 2月27日

GPU-Native Approximate Nearest Neighbor Search with IVF-RaBitQ: Fast Index Build and Search

Arxiv

0+阅读 · 2月27日

相关基金

大规模多视角高维图像特征提取

国家自然科学基金

4+阅读 · 2017年12月31日

高性能低比特视觉搜索及芯片结构研究

国家自然科学基金

1+阅读 · 2016年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于GPU的几类分数阶微分方程的并行算法研究及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员