Quantiles, such as the median or percentiles, provide concise and useful information about the distribution of a collection of items, drawn from a totally ordered universe. We study data structures, called quantile summaries, which keep track of all quantiles, up to an error of at most $\varepsilon$. That is, an $\varepsilon$-approximate quantile summary first processes a stream of items and then, given any quantile query $0\le φ\le 1$, returns an item from the stream, which is a $φ'$-quantile for some $φ' = φ\pm \varepsilon$. We focus on comparison-based quantile summaries that can only compare two items and are otherwise completely oblivious of the universe. The best such deterministic quantile summary to date, due to Greenwald and Khanna (SIGMOD '01), stores at most $O(\frac{1}{\varepsilon}\cdot \log \varepsilon N)$ items, where $N$ is the number of items in the stream. We prove that this space bound is optimal by showing a matching lower bound. Our result thus rules out the possibility of constructing a deterministic comparison-based quantile summary in space $f(\varepsilon)\cdot o(\log N)$, for any function $f$ that does not depend on $N$. As a corollary, we improve the lower bound for biased quantiles, which provide a stronger, relative-error guarantee of $(1\pm \varepsilon)\cdot φ$, and for other related computational tasks.


翻译:分位数,如中位数或百分位数,提供了从全序宇宙中抽取的项目集合分布的简洁且有用的信息。我们研究称为分位数摘要的数据结构,该结构能够跟踪所有分位数,误差至多为$\varepsilon$。即,一个$\varepsilon$近似分位数摘要首先处理一个项目流,然后给定任意分位数查询$0\le φ\le 1$,返回流中的一个项目,该项目是某个$φ' = φ\pm \varepsilon$的$φ'$分位数。我们专注于基于比较的分位数摘要,此类摘要只能比较两个项目,除此之外对宇宙完全不可知。迄今为止,由Greenwald和Khanna(SIGMOD '01)提出的最佳确定性分位数摘要最多存储$O(\frac{1}{\varepsilon}\cdot \log \varepsilon N)$个项目,其中$N$是流中的项目数量。我们通过证明一个匹配的下界,证实该空间界限是最优的。因此,我们的结果排除了以空间$f(\varepsilon)\cdot o(\log N)$(其中$f$是不依赖于$N$的任何函数)构建确定性基于比较的分位数摘要的可能性。作为推论,我们改进了有偏分位数(其提供更强的相对误差保证$(1\pm \varepsilon)\cdot φ$)以及其他相关计算任务的下界。

0
下载
关闭预览

相关内容

【干货书】大数据小摘要,272页pdf,剑桥大学出版社
专知会员服务
42+阅读 · 2021年7月6日
专知会员服务
149+阅读 · 2020年9月6日
【论文推荐】文本摘要简述
专知会员服务
69+阅读 · 2020年7月20日
【康奈尔大学】度量数据粒度,Measuring Dataset Granularity
专知会员服务
13+阅读 · 2019年12月27日
面试题:文本摘要中的NLP技术
七月在线实验室
15+阅读 · 2019年5月13日
一文了解成分句法分析
人工智能头条
15+阅读 · 2019年4月24日
用深度学习做文本摘要
专知
24+阅读 · 2019年3月30日
赛尔原创 | 文本摘要简述
哈工大SCIR
22+阅读 · 2019年3月25日
手把手 | 基于TextRank算法的文本摘要(附Python代码)
大数据文摘
11+阅读 · 2018年12月27日
数据分析师应该知道的16种回归技术:分位数回归
数萃大数据
29+阅读 · 2018年8月8日
Tensorflow 文本分类-Python深度学习
Python程序员
12+阅读 · 2017年11月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月13日
VIP会员
相关资讯
面试题:文本摘要中的NLP技术
七月在线实验室
15+阅读 · 2019年5月13日
一文了解成分句法分析
人工智能头条
15+阅读 · 2019年4月24日
用深度学习做文本摘要
专知
24+阅读 · 2019年3月30日
赛尔原创 | 文本摘要简述
哈工大SCIR
22+阅读 · 2019年3月25日
手把手 | 基于TextRank算法的文本摘要(附Python代码)
大数据文摘
11+阅读 · 2018年12月27日
数据分析师应该知道的16种回归技术:分位数回归
数萃大数据
29+阅读 · 2018年8月8日
Tensorflow 文本分类-Python深度学习
Python程序员
12+阅读 · 2017年11月22日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员