Space Upper Bounds for $α$-Perfect Hashing - 专知论文

会员服务 ·

0

哈希 · 比特 · 存储 · DOT · 映射 ·

Space Upper Bounds for $α$-Perfect Hashing

翻译：α-完美哈希的空间上界

Ryan Song,Emre Telatar

from arxiv, 6 Pages. Submitted to IEEE International Symposium on Information Theory (ISIT)

In the problem of perfect hashing, we are given a size $k$ subset $\mathcal{A}$ of a universe of keys $[n] = \{1,2, \cdots, n\}$, for which we wish to construct a hash function $h: [n] \to [b]$ such that $h(\cdot)$ maps $\mathcal{A}$ to $[b]$ with no collisions, i.e., the restriction of $h(\cdot)$ to $\mathcal{A}$ is injective. When $b=k$, the problem is referred to as minimal perfect hashing. In this paper, we extend the study of minimal perfect hashing to the approximate setting. For some $α\in [0, 1]$, we say that a randomized hashing scheme is $α$-perfect if for any input $\mathcal{A}$ of size $k$, it outputs a hash function which exhibits at most $(1-α)k$ collisions on $\mathcal{A}$ in expectation. One important performance consideration for any hashing scheme is the space required to store the hash functions. For minimal perfect hashing, i.e., $b = k$, it is well known that approximately $k\log(e)$ bits, or $\log(e)$ bits per key, is required to store the hash function. In this paper, we propose schemes for constructing minimal $α$-perfect hash functions and analyze their space requirements. We begin by presenting a simple base-line scheme which randomizes between perfect hashing and zero-bit random hashing. We then present a more sophisticated hashing scheme based on sampling which significantly improves upon the space requirement of the aforementioned strategy for all values of $α$.

翻译：在完美哈希问题中，给定全域键集合$[n] = \{1,2, \cdots, n\}$中一个大小为$k$的子集$\mathcal{A}$，我们需要构造一个哈希函数$h: [n] \to [b]$，使得$h(\cdot)$将$\mathcal{A}$映射到$[b]$时无冲突，即$h(\cdot)$在$\mathcal{A}$上的限制是单射。当$b=k$时，该问题称为最小完美哈希。本文将对最小完美哈希的研究扩展到近似场景。对于某个$α\in [0, 1]$，若对于任意大小为$k$的输入$\mathcal{A}$，随机化哈希方案能输出一个哈希函数，其在$\mathcal{A}$上的期望冲突数不超过$(1-α)k$，则称该方案为$α$-完美哈希。任何哈希方案的一个重要性能考量是存储哈希函数所需的空间。对于最小完美哈希（即$b = k$），已知存储哈希函数约需$k\log(e)$比特，即每个键需$\log(e)$比特。本文提出了构建最小$α$-完美哈希函数的方案，并分析了其空间需求。我们首先提出一种简单的基线方案，该方案在完美哈希与零比特随机哈希之间进行随机化选择。随后提出一种基于采样的更复杂哈希方案，该方案在所有$α$取值下均显著改善了前述策略的空间需求。

0

相关内容

《深度文本哈希综述：基于二进制表示的高效语义文本检索》

《深度文本哈希综述：基于二进制表示的高效语义文本检索》

专知会员服务

9+阅读 · 2025年11月3日

李宏毅老师讲解！《AlphaTensor: 用强化学习找出更有效率的矩阵相乘，附Slides与视频

李宏毅老师讲解！《AlphaTensor: 用强化学习找出更有效率的矩阵相乘，附Slides与视频

专知会员服务

42+阅读 · 2022年10月15日

【NeurIPS 2021】随机最短路径:极大极小，无参数，走向水平无关遗憾

【NeurIPS 2021】随机最短路径:极大极小，无参数，走向水平无关遗憾

专知会员服务

16+阅读 · 2021年11月3日

在线哈希算法研究综述

专知会员服务

19+阅读 · 2021年5月16日

Query2box: 使用盒嵌入对向量空间中的知识图谱进行推理，Query2box: Reasoning over Knowledge Graphs in Vector Space Using Box Embeddings

专知会员服务

46+阅读 · 2020年5月11日

【微软亚洲研究院】无监督词嵌入对齐的几何感知域自适应，Geometry-aware Domain Adaptation for Unsupervised Alignment of Word Embeddings

【微软亚洲研究院】无监督词嵌入对齐的几何感知域自适应，Geometry-aware Domain Adaptation for Unsupervised Alignment of Word Embeddings

专知会员服务

23+阅读 · 2020年4月21日

【Google大脑】进化正则激活层，Evolving Normalization-Activation Layers

【Google大脑】进化正则激活层，Evolving Normalization-Activation Layers

专知会员服务

19+阅读 · 2020年4月9日

【北大-阿里巴巴】深度哈希方法综述，23页pdf，A Survey on Deep Hashing Methods

【北大-阿里巴巴】深度哈希方法综述，23页pdf，A Survey on Deep Hashing Methods

专知会员服务

27+阅读 · 2020年3月9日

【理解计算机视觉损失函数】《Understanding Loss Functions in Computer Vision!》by Sowmya Yellapragad

【理解计算机视觉损失函数】《Understanding Loss Functions in Computer Vision!》by Sowmya Yellapragad

专知会员服务

44+阅读 · 2020年3月4日

【AISTATS2020接受论文】时空对齐，过空间和时间的最优transport（Spatio-Temporal Alignments: Optimal transport through space and time）

【AISTATS2020接受论文】时空对齐，过空间和时间的最优transport（Spatio-Temporal Alignments: Optimal transport through space and time）

专知会员服务

30+阅读 · 2020年1月11日

概率/机器学习/文本挖掘/NLP技术学习路线图，值得收藏，附下载

概率/机器学习/文本挖掘/NLP技术学习路线图，值得收藏，附下载

专知

29+阅读 · 2019年9月25日

宾夕法尼亚大学教授用1900页讲透了计算机科学数学基础，还是免费的！

宾夕法尼亚大学教授用1900页讲透了计算机科学数学基础，还是免费的！

算法与数据结构

51+阅读 · 2019年8月9日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

Github项目推荐 | DeepHash - 深度学习哈希开源库

Github项目推荐 | DeepHash - 深度学习哈希开源库

AI研习社

27+阅读 · 2019年4月30日

DeepLabv1 & DeepLabv2 - 空洞卷积（语义分割）

DeepLabv1 & DeepLabv2 - 空洞卷积（语义分割）

AI研习社

12+阅读 · 2019年3月25日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

Github 项目推荐 | GAN 的 Keras 实现案例集合 —— Keras-GAN

Github 项目推荐 | GAN 的 Keras 实现案例集合 —— Keras-GAN

AI研习社

15+阅读 · 2018年2月26日

概率图模型体系：HMM、MEMM、CRF

概率图模型体系：HMM、MEMM、CRF

机器学习研究会

30+阅读 · 2018年2月10日

用于数学的 10 个优秀编程语言

用于数学的 10 个优秀编程语言

算法与数据结构

13+阅读 · 2018年1月5日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

算子空间上与谱，局部谱以及零斜Lie积相关的完全保持问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

有理 Krylov 子空间算法的最优参数选取

国家自然科学基金

0+阅读 · 2015年12月31日

几类含∞-Laplace算子的特征值问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

Heisenberg群与Minkowski空间中的非线性椭圆方程

国家自然科学基金

0+阅读 · 2014年12月31日

全空间中临界Surface Quasi-geostrophic方程的全局吸引子及其分形维数

国家自然科学基金

0+阅读 · 2014年12月31日

隐度条件下图的哈密尔顿圈

国家自然科学基金

0+阅读 · 2014年12月31日

函数空间、几何和Mahler测度

国家自然科学基金

0+阅读 · 2014年12月31日

莫比乌斯不变空间上复合算子若干问题

国家自然科学基金

0+阅读 · 2014年12月31日

套子代数的Hochschild上同调及套的分类

国家自然科学基金

3+阅读 · 2014年12月31日

解析函数空间上的Toeplitz型奇异积分算子

国家自然科学基金

0+阅读 · 2014年12月31日

Space Upper Bounds for $α$-Perfect Hashing

Arxiv

0+阅读 · 4月13日

Expanders Meet Reed--Muller: Easy Instances of Noisy k-XOR

Arxiv

0+阅读 · 4月5日

Functional Donoho-Stark-Elad-Bruckstein-Ricaud-Torrésani Uncertainty Principle

Arxiv

0+阅读 · 3月30日

Locality Sensitive Hashing in Hyperbolic Space

Arxiv

0+阅读 · 3月20日

Almost-Optimal Upper and Lower Bounds for Clustering in Low Dimensional Euclidean Spaces

Arxiv

0+阅读 · 3月10日

On the Diameter of Arrangements of Topological Disks

Arxiv

0+阅读 · 3月10日

Beyond Positional Encoding: A 5D Spatio-Directional Hash Encoding

Arxiv

0+阅读 · 3月5日

Quantum Sketches, Hashing, and Approximate Nearest Neighbors

Arxiv

0+阅读 · 2月22日

Erdős Matching (Conjecture) Theorem

Arxiv

0+阅读 · 2月20日

Combinatorial Optimization using Comparison Oracles

Arxiv

0+阅读 · 2月20日

VIP会员

文章信息

相关主题

最新内容

DeepSeek 版Claude Code，免费小白安装教程来了！

DeepSeek 版Claude Code，免费小白安装教程来了！

专知会员服务

9+阅读 · 5月5日

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

专知会员服务

5+阅读 · 5月5日

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

专知会员服务

5+阅读 · 5月5日

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

专知会员服务

6+阅读 · 5月5日

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

专知会员服务

9+阅读 · 5月5日

《美空军条令出版物 2-0：情报（2026版）》

《美空军条令出版物 2-0：情报（2026版）》

专知会员服务

14+阅读 · 5月5日

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

专知会员服务

6+阅读 · 5月5日

帕兰提尔 Gotham：一个游戏规则改变器

帕兰提尔 Gotham：一个游戏规则改变器

专知会员服务

9+阅读 · 5月5日

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

专知会员服务

3+阅读 · 5月5日

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

专知会员服务

3+阅读 · 5月5日

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

专知会员服务

8+阅读 · 5月4日

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

12+阅读 · 5月4日

伊朗的导弹-无人机行动及其对美国威慑的影响

伊朗的导弹-无人机行动及其对美国威慑的影响

专知会员服务

9+阅读 · 5月4日

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

专知会员服务

9+阅读 · 5月4日

战争贩子：2026年第一季度美国对中东潜在军售激增

战争贩子：2026年第一季度美国对中东潜在军售激增

专知会员服务

7+阅读 · 5月4日

相关VIP内容

《深度文本哈希综述：基于二进制表示的高效语义文本检索》

《深度文本哈希综述：基于二进制表示的高效语义文本检索》

专知会员服务

9+阅读 · 2025年11月3日

李宏毅老师讲解！《AlphaTensor: 用强化学习找出更有效率的矩阵相乘，附Slides与视频

李宏毅老师讲解！《AlphaTensor: 用强化学习找出更有效率的矩阵相乘，附Slides与视频

专知会员服务

42+阅读 · 2022年10月15日

【NeurIPS 2021】随机最短路径:极大极小，无参数，走向水平无关遗憾

【NeurIPS 2021】随机最短路径:极大极小，无参数，走向水平无关遗憾

专知会员服务

16+阅读 · 2021年11月3日

在线哈希算法研究综述

专知会员服务

19+阅读 · 2021年5月16日

Query2box: 使用盒嵌入对向量空间中的知识图谱进行推理，Query2box: Reasoning over Knowledge Graphs in Vector Space Using Box Embeddings

专知会员服务

46+阅读 · 2020年5月11日

【微软亚洲研究院】无监督词嵌入对齐的几何感知域自适应，Geometry-aware Domain Adaptation for Unsupervised Alignment of Word Embeddings

【微软亚洲研究院】无监督词嵌入对齐的几何感知域自适应，Geometry-aware Domain Adaptation for Unsupervised Alignment of Word Embeddings

专知会员服务

23+阅读 · 2020年4月21日

【Google大脑】进化正则激活层，Evolving Normalization-Activation Layers

【Google大脑】进化正则激活层，Evolving Normalization-Activation Layers

专知会员服务

19+阅读 · 2020年4月9日

【北大-阿里巴巴】深度哈希方法综述，23页pdf，A Survey on Deep Hashing Methods

【北大-阿里巴巴】深度哈希方法综述，23页pdf，A Survey on Deep Hashing Methods

专知会员服务

27+阅读 · 2020年3月9日

【理解计算机视觉损失函数】《Understanding Loss Functions in Computer Vision!》by Sowmya Yellapragad

【理解计算机视觉损失函数】《Understanding Loss Functions in Computer Vision!》by Sowmya Yellapragad

专知会员服务

44+阅读 · 2020年3月4日

【AISTATS2020接受论文】时空对齐，过空间和时间的最优transport（Spatio-Temporal Alignments: Optimal transport through space and time）

【AISTATS2020接受论文】时空对齐，过空间和时间的最优transport（Spatio-Temporal Alignments: Optimal transport through space and time）

专知会员服务

30+阅读 · 2020年1月11日

热门VIP内容

开通专知VIP会员享更多权益服务

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

DeepSeek 版Claude Code，免费小白安装教程来了！

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

相关资讯

概率/机器学习/文本挖掘/NLP技术学习路线图，值得收藏，附下载

概率/机器学习/文本挖掘/NLP技术学习路线图，值得收藏，附下载

专知

29+阅读 · 2019年9月25日

宾夕法尼亚大学教授用1900页讲透了计算机科学数学基础，还是免费的！

宾夕法尼亚大学教授用1900页讲透了计算机科学数学基础，还是免费的！

算法与数据结构

51+阅读 · 2019年8月9日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

Github项目推荐 | DeepHash - 深度学习哈希开源库

Github项目推荐 | DeepHash - 深度学习哈希开源库

AI研习社

27+阅读 · 2019年4月30日

DeepLabv1 & DeepLabv2 - 空洞卷积（语义分割）

DeepLabv1 & DeepLabv2 - 空洞卷积（语义分割）

AI研习社

12+阅读 · 2019年3月25日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

Github 项目推荐 | GAN 的 Keras 实现案例集合 —— Keras-GAN

Github 项目推荐 | GAN 的 Keras 实现案例集合 —— Keras-GAN

AI研习社

15+阅读 · 2018年2月26日

概率图模型体系：HMM、MEMM、CRF

概率图模型体系：HMM、MEMM、CRF

机器学习研究会

30+阅读 · 2018年2月10日

用于数学的 10 个优秀编程语言

用于数学的 10 个优秀编程语言

算法与数据结构

13+阅读 · 2018年1月5日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

相关论文

Space Upper Bounds for $α$-Perfect Hashing

Arxiv

0+阅读 · 4月13日

Expanders Meet Reed--Muller: Easy Instances of Noisy k-XOR

Arxiv

0+阅读 · 4月5日

Functional Donoho-Stark-Elad-Bruckstein-Ricaud-Torrésani Uncertainty Principle

Arxiv

0+阅读 · 3月30日

Locality Sensitive Hashing in Hyperbolic Space

Arxiv

0+阅读 · 3月20日

Almost-Optimal Upper and Lower Bounds for Clustering in Low Dimensional Euclidean Spaces

Arxiv

0+阅读 · 3月10日

On the Diameter of Arrangements of Topological Disks

Arxiv

0+阅读 · 3月10日

Beyond Positional Encoding: A 5D Spatio-Directional Hash Encoding

Arxiv

0+阅读 · 3月5日

Quantum Sketches, Hashing, and Approximate Nearest Neighbors

Arxiv

0+阅读 · 2月22日

Erdős Matching (Conjecture) Theorem

Arxiv

0+阅读 · 2月20日

Combinatorial Optimization using Comparison Oracles

Arxiv

0+阅读 · 2月20日

相关基金

算子空间上与谱，局部谱以及零斜Lie积相关的完全保持问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

有理 Krylov 子空间算法的最优参数选取

国家自然科学基金

0+阅读 · 2015年12月31日

几类含∞-Laplace算子的特征值问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

Heisenberg群与Minkowski空间中的非线性椭圆方程

国家自然科学基金

0+阅读 · 2014年12月31日

全空间中临界Surface Quasi-geostrophic方程的全局吸引子及其分形维数

国家自然科学基金

0+阅读 · 2014年12月31日

隐度条件下图的哈密尔顿圈

国家自然科学基金

0+阅读 · 2014年12月31日

函数空间、几何和Mahler测度

国家自然科学基金

0+阅读 · 2014年12月31日

莫比乌斯不变空间上复合算子若干问题

国家自然科学基金

0+阅读 · 2014年12月31日

套子代数的Hochschild上同调及套的分类

国家自然科学基金

3+阅读 · 2014年12月31日

解析函数空间上的Toeplitz型奇异积分算子

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员