Traditional GPU hash tables preserve every inserted key -- a dictionary assumption that wastes scarce High Bandwidth Memory (HBM) when embedding tables routinely exceed single-GPU capacity. We challenge this assumption with cache semantics, where policy-driven eviction is a first-class operation. We introduce HierarchicalKV (HKV), the first general-purpose GPU hash table library whose normal full-capacity operating contract is cache-semantic: each full-bucket upsert (update-or-insert) is resolved in place by eviction or admission rejection rather than by rehashing or capacity-induced failure. HKV co-designs four core mechanisms -- cache-line-aligned buckets, in-line score-driven upsert, score-based dynamic dual-bucket selection, and triple-group concurrency -- and uses tiered key-value separation as a scaling enabler beyond HBM. On an NVIDIA H100 NVL GPU, HKV achieves up to 3.9 billion key-value pairs per second (B-KV/s) find throughput, stable across load factors 0.50-1.00 (<5% variation), and delivers 1.4x higher find throughput than WarpCore (the strongest dictionary-semantic GPU baseline at lambda=0.50) and up to 2.6-9.4x over indirection-based GPU baselines. Since its open-source release in October 2022, HKV has been integrated into multiple open-source recommendation frameworks.


翻译:传统的GPU哈希表会保留所有已插入的键——这种字典假设在嵌入表经常超出单GPU容量时,会浪费稀缺的高带宽内存(HBM)。我们通过引入缓存语义来挑战这一假设,其中策略驱动的逐出是一等操作。我们提出了HierarchicalKV(HKV),这是第一个通用GPU哈希表库,其常规满容量操作契约是缓存语义的:每个满桶的更新或插入(upsert)操作都通过就地逐出或准入拒绝来解决,而不是通过重哈希或容量不足导致的失败。HKV协同设计了四个核心机制——缓存行对齐的桶、内联分数驱动的更新或插入、基于分数的动态双桶选择以及三重组并发——并使用分层键值分离作为超越HBM的扩展使能器。在NVIDIA H100 NVL GPU上,HKV实现了高达每秒39亿键值对(B-KV/s)的查找吞吐量,在负载因子0.50-1.00范围内保持稳定(变化<5%),查找吞吐量比WarpCore(在λ=0.50时最强的字典语义GPU基线)高1.4倍,比基于间接寻址的GPU基线高2.6-9.4倍。自2022年10月开源发布以来,HKV已被集成到多个开源推荐框架中。

0
下载
关闭预览

相关内容

盘点来自工业界的GPU共享方案
计算机视觉life
12+阅读 · 2021年9月2日
Github项目推荐 | DeepHash - 深度学习哈希开源库
AI研习社
27+阅读 · 2019年4月30日
Colab 免费提供 Tesla T4 GPU,是时候薅羊毛了
机器之心
10+阅读 · 2019年4月25日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
深度学习 | 免费使用Google Colab的GPU云计算平台
沈浩老师
12+阅读 · 2018年2月4日
深度学习的GPU:深度学习中使用GPU的经验和建议
数据挖掘入门与实战
11+阅读 · 2018年1月3日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
国外反无人机系统与技术动态
专知会员服务
2+阅读 · 今天12:48
大规模作战行动中的战术作战评估(研究论文)
专知会员服务
3+阅读 · 今天12:21
未来的海战无人自主系统
专知会员服务
2+阅读 · 今天12:05
美军多域作战现状分析:战略、概念还是幻想?
专知会员服务
3+阅读 · 今天11:52
无人机与反无人机系统(书籍)
专知会员服务
14+阅读 · 今天6:45
美陆军2026条令:安全与机动支援
专知会员服务
5+阅读 · 今天5:49
技术、多域威慑与海上战争(报告)
专知会员服务
8+阅读 · 4月13日
相关VIP内容
相关资讯
盘点来自工业界的GPU共享方案
计算机视觉life
12+阅读 · 2021年9月2日
Github项目推荐 | DeepHash - 深度学习哈希开源库
AI研习社
27+阅读 · 2019年4月30日
Colab 免费提供 Tesla T4 GPU,是时候薅羊毛了
机器之心
10+阅读 · 2019年4月25日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
深度学习 | 免费使用Google Colab的GPU云计算平台
沈浩老师
12+阅读 · 2018年2月4日
深度学习的GPU:深度学习中使用GPU的经验和建议
数据挖掘入门与实战
11+阅读 · 2018年1月3日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员