We propose a general framework for end-to-end learning of data structures. Our framework adapts to the underlying data distribution and provides fine-grained control over query and space complexity. Crucially, the data structure is learned from scratch, and does not require careful initialization or seeding with candidate data structures/algorithms. We first apply this framework to the problem of nearest neighbor search. In several settings, we are able to reverse-engineer the learned data structures and query algorithms. For 1D nearest neighbor search, the model discovers optimal distribution (in)dependent algorithms such as binary search and variants of interpolation search. In higher dimensions, the model learns solutions that resemble k-d trees in some regimes, while in others, they have elements of locality-sensitive hashing. The model can also learn useful representations of high-dimensional data and exploit them to design effective data structures. We also adapt our framework to the problem of estimating frequencies over a data stream, and believe it could also be a powerful discovery tool for new problems.


翻译:我们提出一个用于数据结构的端到端学习的通用框架。我们的框架能够适应底层数据分布,并对查询和空间复杂度提供精细控制。关键在于,数据结构是从零开始学习的,无需仔细初始化或用候选数据结构/算法进行种子设定。我们首先将此框架应用于最近邻搜索问题。在多种设置下,我们能够逆向工程出学习到的数据结构及查询算法。对于一维最近邻搜索,模型发现了最优的(不)依赖分布的算法,例如二分查找和插值搜索的变体。在更高维度中,模型在某些情况下学习到类似k-d树的解决方案,而在其他情况下则具有局部敏感哈希的元素。该模型还能学习高维数据的有用表示,并利用它们设计有效的数据结构。我们还将框架应用于数据流频率估计问题,并相信它也能成为新问题的强大发现工具。

0
下载
关闭预览

相关内容

【新书】深入理解数据结构,282页pdf
专知会员服务
58+阅读 · 2024年8月21日
【干货书】Python中的数据结构和算法,928页pdf
专知会员服务
121+阅读 · 2022年9月25日
【干货书】开放数据结构,Open Data Structures,337页pdf
专知会员服务
19+阅读 · 2021年9月17日
专知会员服务
28+阅读 · 2021年3月7日
【知乎】超越Lexical:用于文本搜索引擎的语义检索框架
专知会员服务
22+阅读 · 2020年8月28日
【新书】深度学习搜索,Deep Learning for Search,附327页pdf
专知会员服务
214+阅读 · 2020年1月13日
最全数据科学学习资源:Python、线性代数、机器学习...
人工智能头条
12+阅读 · 2018年5月14日
不要担心没数据!史上最全数据集网站汇总
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
9+阅读 · 6月15日
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员