A Tight Lower Bound for Comparison-Based Quantile Summaries - 专知论文

会员服务 ·

0

下界 · 结构 · 中位数 · 近似 · SIGMOD ·

A Tight Lower Bound for Comparison-Based Quantile Summaries

翻译：基于比较的分位数摘要的紧致下界

Graham Cormode,Pavel Veselý

from arxiv, 22 pages, 2 figures, corrected proof of the relative-error lower bound

Quantiles, such as the median or percentiles, provide concise and useful information about the distribution of a collection of items, drawn from a totally ordered universe. We study data structures, called quantile summaries, which keep track of all quantiles, up to an error of at most $\varepsilon$. That is, an $\varepsilon$-approximate quantile summary first processes a stream of items and then, given any quantile query $0\le φ\le 1$, returns an item from the stream, which is a $φ'$-quantile for some $φ' = φ\pm \varepsilon$. We focus on comparison-based quantile summaries that can only compare two items and are otherwise completely oblivious of the universe. The best such deterministic quantile summary to date, due to Greenwald and Khanna (SIGMOD '01), stores at most $O(\frac{1}{\varepsilon}\cdot \log \varepsilon N)$ items, where $N$ is the number of items in the stream. We prove that this space bound is optimal by showing a matching lower bound. Our result thus rules out the possibility of constructing a deterministic comparison-based quantile summary in space $f(\varepsilon)\cdot o(\log N)$, for any function $f$ that does not depend on $N$. As a corollary, we improve the lower bound for biased quantiles, which provide a stronger, relative-error guarantee of $(1\pm \varepsilon)\cdot φ$, and for other related computational tasks.

翻译：分位数，如中位数或百分位数，提供了从全序宇宙中抽取的项目集合分布的简洁且有用的信息。我们研究称为分位数摘要的数据结构，该结构能够跟踪所有分位数，误差至多为$\varepsilon$。即，一个$\varepsilon$近似分位数摘要首先处理一个项目流，然后给定任意分位数查询$0\le φ\le 1$，返回流中的一个项目，该项目是某个$φ' = φ\pm \varepsilon$的$φ'$分位数。我们专注于基于比较的分位数摘要，此类摘要只能比较两个项目，除此之外对宇宙完全不可知。迄今为止，由Greenwald和Khanna（SIGMOD '01）提出的最佳确定性分位数摘要最多存储$O(\frac{1}{\varepsilon}\cdot \log \varepsilon N)$个项目，其中$N$是流中的项目数量。我们通过证明一个匹配的下界，证实该空间界限是最优的。因此，我们的结果排除了以空间$f(\varepsilon)\cdot o(\log N)$（其中$f$是不依赖于$N$的任何函数）构建确定性基于比较的分位数摘要的可能性。作为推论，我们改进了有偏分位数（其提供更强的相对误差保证$(1\pm \varepsilon)\cdot φ$）以及其他相关计算任务的下界。

0

相关内容

【阿姆斯特丹博士论文】使用变分自编码器学习有用的表示，200页pdf

【阿姆斯特丹博士论文】使用变分自编码器学习有用的表示，200页pdf

专知会员服务

36+阅读 · 2024年4月18日

【干货书】大数据小摘要，272页pdf，剑桥大学出版社

【干货书】大数据小摘要，272页pdf，剑桥大学出版社

专知会员服务

42+阅读 · 2021年7月6日

多模态摘要简述

专知会员服务

149+阅读 · 2020年9月6日

【论文推荐】文本摘要简述

【论文推荐】文本摘要简述

专知会员服务

69+阅读 · 2020年7月20日

【论文推荐】层次知识图谱，Hierarchical Knowledge Graphs: A Novel Information Representation for Exploratory Search Tasks

【论文推荐】层次知识图谱，Hierarchical Knowledge Graphs: A Novel Information Representation for Exploratory Search Tasks

专知会员服务

49+阅读 · 2020年5月26日

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations

专知会员服务

19+阅读 · 2020年3月6日

【论文推荐】Short Text Classiﬁcation via Term Graph 基于术语图的短文本分类

【论文推荐】Short Text Classiﬁcation via Term Graph 基于术语图的短文本分类

专知会员服务

20+阅读 · 2020年1月20日

【康奈尔大学】度量数据粒度，Measuring Dataset Granularity

【康奈尔大学】度量数据粒度，Measuring Dataset Granularity

专知会员服务

13+阅读 · 2019年12月27日

【ECML-PKDD 2019】可解释序列分类的背景知识注入（Background Knowledge Injection forInterpretable Sequence Classification）

【ECML-PKDD 2019】可解释序列分类的背景知识注入（Background Knowledge Injection forInterpretable Sequence Classification）

专知会员服务

15+阅读 · 2019年12月3日

【干货】面向深度学习研究者的概率分布基础教程（附代码），庆熙大学| Tae Hwan Jung

【干货】面向深度学习研究者的概率分布基础教程（附代码），庆熙大学| Tae Hwan Jung

专知会员服务

36+阅读 · 2019年9月9日

面向深度学习研究者的*概率分布*基础教程（附代码）

面向深度学习研究者的*概率分布*基础教程（附代码）

专知

10+阅读 · 2019年9月9日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

AINLP

38+阅读 · 2019年9月3日

面试题：文本摘要中的NLP技术

面试题：文本摘要中的NLP技术

七月在线实验室

15+阅读 · 2019年5月13日

一文了解成分句法分析

一文了解成分句法分析

人工智能头条

15+阅读 · 2019年4月24日

用深度学习做文本摘要

用深度学习做文本摘要

专知

24+阅读 · 2019年3月30日

赛尔原创 | 文本摘要简述

赛尔原创 | 文本摘要简述

哈工大SCIR

22+阅读 · 2019年3月25日

手把手 | 基于TextRank算法的文本摘要（附Python代码）

手把手 | 基于TextRank算法的文本摘要（附Python代码）

大数据文摘

11+阅读 · 2018年12月27日

数据分析师应该知道的16种回归技术：分位数回归

数据分析师应该知道的16种回归技术：分位数回归

数萃大数据

29+阅读 · 2018年8月8日

Tensorflow 文本分类-Python深度学习

Tensorflow 文本分类-Python深度学习

Python程序员

12+阅读 · 2017年11月22日

知识提取的一种应用，从上市公司年报中抽取因果关系

知识提取的一种应用，从上市公司年报中抽取因果关系

文因互联

10+阅读 · 2017年7月7日

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

低秩张量补全问题的算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

低差分均匀度密码函数的构造与分析

国家自然科学基金

0+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于分层图结构化稀疏低秩表示的目标联合分割方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

一般误差分布下若干半参数模型的复合分位数方法

国家自然科学基金

0+阅读 · 2014年12月31日

关于分数阶偏泛函微分方程基本理论的研究

国家自然科学基金

0+阅读 · 2014年12月31日

tensorFM: Low-Rank Approximations of Cross-Order Feature Interactions

Arxiv

0+阅读 · 2月16日

A Tighter Upper Bound for Distinct Squares

Arxiv

0+阅读 · 2月13日

Tight Efficiency Bounds for the Probabilistic Serial and Related Mechanisms

Arxiv

0+阅读 · 2月12日

Partition Trees: Conditional Density Estimation over General Outcome Spaces

Arxiv

0+阅读 · 2月3日

Mixture Quantiles Estimated by Constrained Linear Regression

Arxiv

0+阅读 · 2月3日

Direct Doubly Robust Estimation of Conditional Quantile Contrasts

Arxiv

0+阅读 · 1月27日

Bilateral Distribution Compression: Reducing Both Data Size and Dimensionality

Arxiv

0+阅读 · 1月27日

Tighter confidence intervals for quantiles of heterogeneous data

Arxiv

0+阅读 · 1月24日

Tight Bounds for Gaussian Mean Estimation under Personalized Differential Privacy

Arxiv

0+阅读 · 1月22日

Exponential lower bound via exponential sums

Arxiv

0+阅读 · 1月21日

VIP会员

文章信息

相关主题

最新内容

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

0+阅读 · 16分钟前

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

0+阅读 · 19分钟前

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

6+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

5+阅读 · 6月16日

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

5+阅读 · 6月16日

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

15+阅读 · 6月16日

《通过小型无人机系统将情报能力“作战化”》

《通过小型无人机系统将情报能力“作战化”》

专知会员服务

6+阅读 · 6月16日

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

专知会员服务

10+阅读 · 6月16日

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

专知会员服务

21+阅读 · 6月15日

消耗优势：美军的“精确规模化”概念

消耗优势：美军的“精确规模化”概念

专知会员服务

8+阅读 · 6月15日

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

专知会员服务

9+阅读 · 6月15日

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《网络空间兵棋推演：挑战、局限性与混合路径》报告

专知会员服务

9+阅读 · 6月15日

《离线语言支持系统：面向空战战术决策》

《离线语言支持系统：面向空战战术决策》

专知会员服务

10+阅读 · 6月15日

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

专知会员服务

9+阅读 · 6月15日

相关VIP内容

【阿姆斯特丹博士论文】使用变分自编码器学习有用的表示，200页pdf

【阿姆斯特丹博士论文】使用变分自编码器学习有用的表示，200页pdf

专知会员服务

36+阅读 · 2024年4月18日

【干货书】大数据小摘要，272页pdf，剑桥大学出版社

【干货书】大数据小摘要，272页pdf，剑桥大学出版社

专知会员服务

42+阅读 · 2021年7月6日

多模态摘要简述

专知会员服务

149+阅读 · 2020年9月6日

【论文推荐】文本摘要简述

【论文推荐】文本摘要简述

专知会员服务

69+阅读 · 2020年7月20日

【论文推荐】层次知识图谱，Hierarchical Knowledge Graphs: A Novel Information Representation for Exploratory Search Tasks

【论文推荐】层次知识图谱，Hierarchical Knowledge Graphs: A Novel Information Representation for Exploratory Search Tasks

专知会员服务

49+阅读 · 2020年5月26日

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations

专知会员服务

19+阅读 · 2020年3月6日

【论文推荐】Short Text Classiﬁcation via Term Graph 基于术语图的短文本分类

【论文推荐】Short Text Classiﬁcation via Term Graph 基于术语图的短文本分类

专知会员服务

20+阅读 · 2020年1月20日

【康奈尔大学】度量数据粒度，Measuring Dataset Granularity

【康奈尔大学】度量数据粒度，Measuring Dataset Granularity

专知会员服务

13+阅读 · 2019年12月27日

【ECML-PKDD 2019】可解释序列分类的背景知识注入（Background Knowledge Injection forInterpretable Sequence Classification）

【ECML-PKDD 2019】可解释序列分类的背景知识注入（Background Knowledge Injection forInterpretable Sequence Classification）

专知会员服务

15+阅读 · 2019年12月3日

【干货】面向深度学习研究者的概率分布基础教程（附代码），庆熙大学| Tae Hwan Jung

【干货】面向深度学习研究者的概率分布基础教程（附代码），庆熙大学| Tae Hwan Jung

专知会员服务

36+阅读 · 2019年9月9日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

多模态代码智能综述：从视觉输入到可执行代码系统

相关资讯

面向深度学习研究者的*概率分布*基础教程（附代码）

面向深度学习研究者的*概率分布*基础教程（附代码）

专知

10+阅读 · 2019年9月9日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

AINLP

38+阅读 · 2019年9月3日

面试题：文本摘要中的NLP技术

面试题：文本摘要中的NLP技术

七月在线实验室

15+阅读 · 2019年5月13日

一文了解成分句法分析

一文了解成分句法分析

人工智能头条

15+阅读 · 2019年4月24日

用深度学习做文本摘要

用深度学习做文本摘要

专知

24+阅读 · 2019年3月30日

赛尔原创 | 文本摘要简述

赛尔原创 | 文本摘要简述

哈工大SCIR

22+阅读 · 2019年3月25日

手把手 | 基于TextRank算法的文本摘要（附Python代码）

手把手 | 基于TextRank算法的文本摘要（附Python代码）

大数据文摘

11+阅读 · 2018年12月27日

数据分析师应该知道的16种回归技术：分位数回归

数据分析师应该知道的16种回归技术：分位数回归

数萃大数据

29+阅读 · 2018年8月8日

Tensorflow 文本分类-Python深度学习

Tensorflow 文本分类-Python深度学习

Python程序员

12+阅读 · 2017年11月22日

知识提取的一种应用，从上市公司年报中抽取因果关系

知识提取的一种应用，从上市公司年报中抽取因果关系

文因互联

10+阅读 · 2017年7月7日

相关论文

tensorFM: Low-Rank Approximations of Cross-Order Feature Interactions

Arxiv

0+阅读 · 2月16日

A Tighter Upper Bound for Distinct Squares

Arxiv

0+阅读 · 2月13日

Tight Efficiency Bounds for the Probabilistic Serial and Related Mechanisms

Arxiv

0+阅读 · 2月12日

Partition Trees: Conditional Density Estimation over General Outcome Spaces

Arxiv

0+阅读 · 2月3日

Mixture Quantiles Estimated by Constrained Linear Regression

Arxiv

0+阅读 · 2月3日

Direct Doubly Robust Estimation of Conditional Quantile Contrasts

Arxiv

0+阅读 · 1月27日

Bilateral Distribution Compression: Reducing Both Data Size and Dimensionality

Arxiv

0+阅读 · 1月27日

Tighter confidence intervals for quantiles of heterogeneous data

Arxiv

0+阅读 · 1月24日

Tight Bounds for Gaussian Mean Estimation under Personalized Differential Privacy

Arxiv

0+阅读 · 1月22日

Exponential lower bound via exponential sums

Arxiv

0+阅读 · 1月21日

相关基金

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

低秩张量补全问题的算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

低差分均匀度密码函数的构造与分析

国家自然科学基金

0+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于分层图结构化稀疏低秩表示的目标联合分割方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

一般误差分布下若干半参数模型的复合分位数方法

国家自然科学基金

0+阅读 · 2014年12月31日

关于分数阶偏泛函微分方程基本理论的研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员