We study the following range searching problem in high-dimensional Euclidean spaces: given a finite set $P\subset \mathbb{R}^d$, where each $p\in P$ is assigned a weight $w_p$, and radius $r>0$, we need to preprocess $P$ into a data structure such that when a new query point $q\in \mathbb{R}^d$ arrives, the data structure reports the cumulative weight of points of $P$ within Euclidean distance $r$ from $q$. Solving the problem exactly seems to require space usage that is exponential to the dimension, a phenomenon known as the curse of dimensionality. Thus, we focus on approximate solutions where points up to $(1+\varepsilon)r$ away from $q$ may be taken into account, where $\varepsilon>0$ is an input parameter known during preprocessing. We build a data structure with near-linear space usage, and query time in $n^{1-Θ(\varepsilon^4/\log(1/\varepsilon))}+t_q^{\varrho}\cdot n^{1-\varrho}$, for some $\varrho=Θ(\varepsilon^2)$, where $t_q$ is the number of points of $P$ in the ambiguity zone, i.e., at distance between $r$ and $(1+\varepsilon)r$ from the query $q$. To the best of our knowledge, this is the first data structure with efficient space usage (subquadratic or near-linear for any $\varepsilon>0$) and query time that remains sublinear for any sublinear $t_q$. We supplement our worst-case bounds with a query-driven preprocessing algorithm to build data structures that are well-adapted to the query distribution.


翻译:我们研究高维欧几里得空间中的以下范围搜索问题:给定一个有限集合 $P\subset \mathbb{R}^d$,其中每个点 $p\in P$ 被赋予一个权重 $w_p$,以及半径 $r>0$,我们需要将 $P$ 预处理成一个数据结构,使得当一个新的查询点 $q\in \mathbb{R}^d$ 到达时,该数据结构能够报告 $P$ 中与 $q$ 的欧几里得距离在 $r$ 以内的点的累积权重。精确求解该问题似乎需要空间使用量随维度指数增长,这种现象被称为维度灾难。因此,我们专注于近似解决方案,其中距离 $q$ 在 $(1+\varepsilon)r$ 以内的点可能被计入,这里 $\varepsilon>0$ 是在预处理阶段已知的输入参数。我们构建了一个数据结构,其空间使用量接近线性,查询时间为 $n^{1-Θ(\varepsilon^4/\log(1/\varepsilon))}+t_q^{\varrho}\cdot n^{1-\varrho}$,其中 $\varrho=Θ(\varepsilon^2)$,$t_q$ 是 $P$ 中位于模糊区域内的点的数量,即距离查询点 $q$ 在 $r$ 到 $(1+\varepsilon)r$ 之间的点。据我们所知,这是第一个具有高效空间使用量(对于任何 $\varepsilon>0$ 均为次二次或接近线性)且查询时间对于任何次线性的 $t_q$ 保持次线性的数据结构。我们通过一个查询驱动的预处理算法来补充我们的最坏情况界限,该算法用于构建能够良好适应查询分布的数据结构。

0
下载
关闭预览

相关内容

【干货书】高维统计学,572页pdf
专知
20+阅读 · 2021年12月3日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Geometric modelling of spatial extremes
Arxiv
0+阅读 · 2月19日
VIP会员
最新内容
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
1+阅读 · 今天14:22
《新兴技术武器化及其对全球风险的影响》
专知会员服务
8+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
21+阅读 · 4月29日
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员