Adaptive Hashing: Faster Hash Functions with Fewer Collisions - 专知论文

会员服务 ·

0

哈希 · 自适应 · 分桶 · 碰撞 · 最优 ·

Adaptive Hashing: Faster Hash Functions with Fewer Collisions

翻译：自适应哈希：更少碰撞的快速哈希函数

Hash tables are ubiquitous, and the choice of hash function, which maps a key to a bucket, is key to their performance. We argue that the predominant approach of fixing the hash function for the lifetime of the hash table is suboptimal and propose adapting it to the current set of keys. In the prevailing view, good hash functions spread the keys ``randomly'' and are fast to evaluate. General-purpose ones (e.g. Murmur) are designed to do both while remaining agnostic to the distribution of the keys, which limits their bucketing ability and wastes computation. When these shortcomings are recognized, one may specify a hash function more tailored to some assumed key distribution, but doing so almost always introduces an unbounded risk in case this assumption does not bear out in practice. At the other, fully key-aware end of the spectrum, Perfect Hashing algorithms can discover hash functions to bucket a given set of keys optimally, but they are costly to run and require the keys to be known and fixed ahead of time. Our main conceptual contribution is that adapting the hash table's hash function to the keys online is necessary for the best performance, as adaptivity allows for better bucketing of keys \emph{and} faster hash functions. We instantiate the idea of online adaptation with minimal overhead and no change to the hash table API. The experiments show that the adaptive approach marries the common-case performance of weak hash functions with the robustness of general-purpose ones.

翻译：哈希表无处不在，而将键映射到桶的哈希函数选择对其性能至关重要。我们认为，在哈希表生命周期内固定哈希函数的主流方法并非最优，并建议根据当前键集对其进行自适应调整。主流观点认为，良好的哈希函数应“随机”分散键值且求值迅速。通用哈希函数（如Murmur）旨在兼顾两者，同时不依赖于键的分布，这限制了其分桶能力并造成计算浪费。当认识到这些不足时，人们可能会针对某些假设的键分布设计更专用的哈希函数，但若假设在实践中不成立，这种做法几乎总会引入无限制的风险。在完全感知键谱的另一极端，完美哈希算法虽能发现最优分桶给定键集的哈希函数，但运行成本高昂且要求键集预先已知并固定。我们的核心理论贡献在于：在线调整哈希表的哈希函数以适应键集是实现最佳性能的必要条件，因为自适应性既能提升键的分桶效率，又能加速哈希函数求值。我们以最小开销且不改变哈希表API的方式实现了在线自适应机制。实验表明，自适应方法融合了弱哈希函数的常见场景性能与通用哈希函数的鲁棒性。

0

相关内容

《深度文本哈希综述：基于二进制表示的高效语义文本检索》

《深度文本哈希综述：基于二进制表示的高效语义文本检索》

专知会员服务

9+阅读 · 2025年11月3日

训练扩散模型比你想象的更简单！谢赛宁老师：Representation matters！

训练扩散模型比你想象的更简单！谢赛宁老师：Representation matters！

专知会员服务

21+阅读 · 2024年10月25日

【牛津大学博士论文】结合统计学习的自适应鲁棒控制, 164页pdf

【牛津大学博士论文】结合统计学习的自适应鲁棒控制, 164页pdf

专知会员服务

21+阅读 · 2023年6月24日

如何用机器学习损失函数？最新《机器学习损失函数》综述，详述其33个损失函数与分类法

如何用机器学习损失函数？最新《机器学习损失函数》综述，详述其33个损失函数与分类法

专知会员服务

70+阅读 · 2023年1月17日

在线哈希算法研究综述

专知会员服务

19+阅读 · 2021年5月16日

【CVPR2020】跨模态哈希的无监督知识蒸馏

【CVPR2020】跨模态哈希的无监督知识蒸馏

专知会员服务

61+阅读 · 2020年6月25日

深度哈希图像检索综述论文，14页pdf

专知会员服务

50+阅读 · 2020年6月14日

【香港中文大学-VLDB2020】Dash:可扩展的持久内存哈希，Scalable Hashing

【香港中文大学-VLDB2020】Dash:可扩展的持久内存哈希，Scalable Hashing

专知会员服务

25+阅读 · 2020年3月17日

【北大-阿里巴巴】深度哈希方法综述，23页pdf，A Survey on Deep Hashing Methods

【北大-阿里巴巴】深度哈希方法综述，23页pdf，A Survey on Deep Hashing Methods

专知会员服务

27+阅读 · 2020年3月9日

【Google-普林斯顿】从学习速率中解开自适应梯度法，Disentangling Adaptive Gradient

专知会员服务

19+阅读 · 2020年3月5日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

概述自动机器学习（AutoML）

概述自动机器学习（AutoML）

人工智能学家

19+阅读 · 2019年8月11日

激活函数还是有一点意思的！

激活函数还是有一点意思的！

计算机视觉战队

12+阅读 · 2019年6月28日

Github项目推荐 | DeepHash - 深度学习哈希开源库

Github项目推荐 | DeepHash - 深度学习哈希开源库

AI研习社

27+阅读 · 2019年4月30日

干货 | 深入理解深度学习中的激活函数

干货 | 深入理解深度学习中的激活函数

计算机视觉life

16+阅读 · 2019年1月29日

详解常见的损失函数

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

基于二进制哈希编码快速学习的快速图像检索

基于二进制哈希编码快速学习的快速图像检索

极市平台

12+阅读 · 2018年5月17日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

赛尔原创 | Pointer Networks在自然语言处理领域中的应用

赛尔原创 | Pointer Networks在自然语言处理领域中的应用

哈工大SCIR

14+阅读 · 2017年11月6日

两类哈密顿偏微分方程拟周期解问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

几类随机指数函数空间的应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向不同对称性分子的自适应高性能单颗粒重构算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非局部Schrödinger方程的高效守恒算法

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

振荡哈密尔顿波方程的几何数值积分

国家自然科学基金

0+阅读 · 2015年12月31日

随机延迟微分方程数值解的延迟依赖稳定性及自适应技术

国家自然科学基金

0+阅读 · 2014年12月31日

哈密顿系统与微分方程中一些问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机Helmholtz型问题的数值方法

国家自然科学基金

0+阅读 · 2014年12月31日

随机辛算法和多辛算法

国家自然科学基金

2+阅读 · 2014年12月31日

Space Upper Bounds for $α$-Perfect Hashing

Arxiv

0+阅读 · 3月16日

Better Hessians Matter: Studying the Impact of Curvature Approximations in Influence Functions

Arxiv

0+阅读 · 2月15日

Adaptive Debiasing Tsallis Entropy for Test-Time Adaptation

Arxiv

0+阅读 · 2月12日

DET-LSH: A Locality-Sensitive Hashing Scheme with Dynamic Encoding Tree for Approximate Nearest Neighbor Search

Arxiv

0+阅读 · 2月10日

Adaptive tuning of Hamiltonian Monte Carlo methods

Arxiv

0+阅读 · 2月9日

Modern Minimal Perfect Hashing: A Survey

Modern Minimal Perfect Hashing: A Survey

Arxiv

0+阅读 · 2月5日

A Representer Theorem for Hawkes Processes via Penalized Least Squares Minimization

Arxiv

0+阅读 · 2月5日

Mining Generalizable Activation Functions

Arxiv

0+阅读 · 2月5日

Hippasus: Effective and Efficient Automatic Feature Augmentation for Machine Learning Tasks on Relational Data

Arxiv

0+阅读 · 2月2日

Avoiding Premature Collapse: Adaptive Annealing for Entropy-Regularized Structural Inference

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

9+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

6+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

20+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

《深度文本哈希综述：基于二进制表示的高效语义文本检索》

《深度文本哈希综述：基于二进制表示的高效语义文本检索》

专知会员服务

9+阅读 · 2025年11月3日

训练扩散模型比你想象的更简单！谢赛宁老师：Representation matters！

训练扩散模型比你想象的更简单！谢赛宁老师：Representation matters！

专知会员服务

21+阅读 · 2024年10月25日

【牛津大学博士论文】结合统计学习的自适应鲁棒控制, 164页pdf

【牛津大学博士论文】结合统计学习的自适应鲁棒控制, 164页pdf

专知会员服务

21+阅读 · 2023年6月24日

如何用机器学习损失函数？最新《机器学习损失函数》综述，详述其33个损失函数与分类法

如何用机器学习损失函数？最新《机器学习损失函数》综述，详述其33个损失函数与分类法

专知会员服务

70+阅读 · 2023年1月17日

在线哈希算法研究综述

专知会员服务

19+阅读 · 2021年5月16日

【CVPR2020】跨模态哈希的无监督知识蒸馏

【CVPR2020】跨模态哈希的无监督知识蒸馏

专知会员服务

61+阅读 · 2020年6月25日

深度哈希图像检索综述论文，14页pdf

专知会员服务

50+阅读 · 2020年6月14日

【香港中文大学-VLDB2020】Dash:可扩展的持久内存哈希，Scalable Hashing

【香港中文大学-VLDB2020】Dash:可扩展的持久内存哈希，Scalable Hashing

专知会员服务

25+阅读 · 2020年3月17日

【北大-阿里巴巴】深度哈希方法综述，23页pdf，A Survey on Deep Hashing Methods

【北大-阿里巴巴】深度哈希方法综述，23页pdf，A Survey on Deep Hashing Methods

专知会员服务

27+阅读 · 2020年3月9日

【Google-普林斯顿】从学习速率中解开自适应梯度法，Disentangling Adaptive Gradient

专知会员服务

19+阅读 · 2020年3月5日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

概述自动机器学习（AutoML）

概述自动机器学习（AutoML）

人工智能学家

19+阅读 · 2019年8月11日

激活函数还是有一点意思的！

激活函数还是有一点意思的！

计算机视觉战队

12+阅读 · 2019年6月28日

Github项目推荐 | DeepHash - 深度学习哈希开源库

Github项目推荐 | DeepHash - 深度学习哈希开源库

AI研习社

27+阅读 · 2019年4月30日

干货 | 深入理解深度学习中的激活函数

干货 | 深入理解深度学习中的激活函数

计算机视觉life

16+阅读 · 2019年1月29日

详解常见的损失函数

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

基于二进制哈希编码快速学习的快速图像检索

基于二进制哈希编码快速学习的快速图像检索

极市平台

12+阅读 · 2018年5月17日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

赛尔原创 | Pointer Networks在自然语言处理领域中的应用

赛尔原创 | Pointer Networks在自然语言处理领域中的应用

哈工大SCIR

14+阅读 · 2017年11月6日

相关论文

Space Upper Bounds for $α$-Perfect Hashing

Arxiv

0+阅读 · 3月16日

Better Hessians Matter: Studying the Impact of Curvature Approximations in Influence Functions

Arxiv

0+阅读 · 2月15日

Adaptive Debiasing Tsallis Entropy for Test-Time Adaptation

Arxiv

0+阅读 · 2月12日

DET-LSH: A Locality-Sensitive Hashing Scheme with Dynamic Encoding Tree for Approximate Nearest Neighbor Search

Arxiv

0+阅读 · 2月10日

Adaptive tuning of Hamiltonian Monte Carlo methods

Arxiv

0+阅读 · 2月9日

Modern Minimal Perfect Hashing: A Survey

Modern Minimal Perfect Hashing: A Survey

Arxiv

0+阅读 · 2月5日

A Representer Theorem for Hawkes Processes via Penalized Least Squares Minimization

Arxiv

0+阅读 · 2月5日

Mining Generalizable Activation Functions

Arxiv

0+阅读 · 2月5日

Hippasus: Effective and Efficient Automatic Feature Augmentation for Machine Learning Tasks on Relational Data

Arxiv

0+阅读 · 2月2日

Avoiding Premature Collapse: Adaptive Annealing for Entropy-Regularized Structural Inference

Arxiv

0+阅读 · 1月30日

相关基金

两类哈密顿偏微分方程拟周期解问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

几类随机指数函数空间的应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向不同对称性分子的自适应高性能单颗粒重构算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非局部Schrödinger方程的高效守恒算法

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

振荡哈密尔顿波方程的几何数值积分

国家自然科学基金

0+阅读 · 2015年12月31日

随机延迟微分方程数值解的延迟依赖稳定性及自适应技术

国家自然科学基金

0+阅读 · 2014年12月31日

哈密顿系统与微分方程中一些问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机Helmholtz型问题的数值方法

国家自然科学基金

0+阅读 · 2014年12月31日

随机辛算法和多辛算法

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员