Estimating the size of a set using cascading exclusion - 专知论文

会员服务 ·

0

样本 · 级联 · DOT · 独立同分布 · 结构 ·

Estimating the size of a set using cascading exclusion

翻译：基于级联排除的集合规模估计

Sourav Chatterjee,Persi Diaconis,Susan Holmes

from arxiv, 48 pages, 10 figures. Minor corrections in this revision

Let $S$ be a finite set, and $X_1,\ldots,X_n$ an i.i.d. uniform sample from $S$. To estimate the size $|S|$, without further structure, one can wait for repeats and use the birthday problem. This requires a sample size of the order $|S|^\frac{1}{2}$. On the other hand, if $S=\{1,2,\ldots,|S|\}$, the maximum of the sample blown up by $n/(n-1)$ gives an efficient estimator based on any growing sample size. This paper gives refinements that interpolate between these extremes. A general non-asymptotic theory is developed. This includes estimating the volume of a compact convex set, the unseen species problem, and a host of testing problems that follow from the question `Is this new observation a typical pick from a large prespecified population?' We also treat regression style predictors. A general theorem gives non-parametric finite $n$ error bounds in all cases.

翻译：令$S$为一有限集合，$X_1,\ldots,X_n$为从$S$中独立同分布抽取的均匀样本。在无额外结构信息时，可通过等待重复样本并利用生日问题来估计集合规模$|S|$，该方法所需样本量级为$|S|^\frac{1}{2}$。另一方面，若$S=\{1,2,\ldots,|S|\}$，则样本最大值经$n/(n-1)$放大后可构成基于任意增长样本量的高效估计量。本文提出了介于这两种极端情况之间的改进方法，并建立了通用的非渐近理论体系。该框架涵盖紧凸集体积估计、未观测物种问题，以及从“该新观测是否来自大型预设群体的典型抽样？”这一核心问题衍生出的众多检验问题。同时，本文亦处理回归式预测问题。通过一个通用定理，我们在所有案例中均给出了非参数有限$n$误差界。

0

相关内容

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

具有组合结构的统计推断和在线算法

具有组合结构的统计推断和在线算法

专知会员服务

12+阅读 · 2022年12月13日

什么是扩散模型？谷歌大脑Calvin Luo最新《扩散模型理解》，带你对基于评分与基于能量的扩散模型的统一视角数学理解

什么是扩散模型？谷歌大脑Calvin Luo最新《扩散模型理解》，带你对基于评分与基于能量的扩散模型的统一视角数学理解

专知会员服务

83+阅读 · 2022年8月27日

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

专知会员服务

29+阅读 · 2022年4月28日

分布外泛化(Out-Of-Distribution Generalization) 综述论文，22页pdf240篇文献

专知会员服务

64+阅读 · 2021年9月2日

复杂的序列数据分析：现有算法的系统文献综述，Complex Sequential Data Analysis: A Systematic Literature Review of Existing Algorithms

复杂的序列数据分析：现有算法的系统文献综述，Complex Sequential Data Analysis: A Systematic Literature Review of Existing Algorithms

专知会员服务

27+阅读 · 2020年7月24日

【KDD2020】CAST:一种基于相关关系的多尺度数据自适应光谱聚类算法,CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data

【KDD2020】CAST:一种基于相关关系的多尺度数据自适应光谱聚类算法,CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data

专知会员服务

20+阅读 · 2020年6月11日

【IJCAI2020】统计相关模型，A Complete Characterization of Projectivity for Statistical Relational Models

【IJCAI2020】统计相关模型，A Complete Characterization of Projectivity for Statistical Relational Models

专知会员服务

20+阅读 · 2020年4月25日

【康奈尔大学】度量数据粒度，Measuring Dataset Granularity

【康奈尔大学】度量数据粒度，Measuring Dataset Granularity

专知会员服务

13+阅读 · 2019年12月27日

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

专知会员服务

14+阅读 · 2019年10月25日

实体关系的联合抽取总结

实体关系的联合抽取总结

深度学习自然语言处理

18+阅读 · 2020年7月12日

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

AINLP

18+阅读 · 2020年4月10日

视线估计(Gaze Estimation)简介(一)：概述

视线估计(Gaze Estimation)简介(一)：概述

CVer

10+阅读 · 2020年3月18日

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

开放知识图谱

77+阅读 · 2019年9月14日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

AINLP

38+阅读 · 2019年9月3日

【论文】Awesome Relation Classification Paper（关系分类）（PART II）

【论文】Awesome Relation Classification Paper（关系分类）（PART II）

AINLP

15+阅读 · 2019年8月12日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

赛尔原创 | IJCAI 2018基于图结构的实体和关系联合抽取模型简介

赛尔原创 | IJCAI 2018基于图结构的实体和关系联合抽取模型简介

哈工大SCIR

22+阅读 · 2018年6月12日

概率论之概念解析：用贝叶斯推断进行参数估计

概率论之概念解析：用贝叶斯推断进行参数估计

专知

14+阅读 · 2018年1月8日

福利 | 最全面超大规模数据集下载链接汇总

福利 | 最全面超大规模数据集下载链接汇总

AI研习社

26+阅读 · 2017年9月7日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀疏互质阵列的DOA估计算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

排序集抽样下随机删失数据的非参数估计

国家自然科学基金

1+阅读 · 2014年12月31日

一个组合猜想及其相关问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于似然函数的统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

Tighter Confidence Intervals under Without Replacement Sampling via Empirical Rate Functions

Arxiv

0+阅读 · 3月15日

Estimation and exclusion restrictions in clustered linear models

Arxiv

0+阅读 · 3月6日

Unifying small area estimators based on area-level and unit-level models through calibration

Arxiv

0+阅读 · 3月4日

Standardization of Weighted Ranking Correlation Coefficients

Arxiv

0+阅读 · 3月1日

Post-reduction inference for confidence sets of models

Arxiv

0+阅读 · 2月21日

Dynamic and Streaming Algorithms for Union Volume Estimation

Arxiv

0+阅读 · 2月18日

Ratio Covers of Convex Sets and Optimal Mixture Density Estimation

Arxiv

0+阅读 · 2月18日

Computationally sufficient statistics for Ising models

Arxiv

0+阅读 · 2月12日

On multiplicities of interpoint distances

Arxiv

0+阅读 · 2月3日

Benchmarking of algorithms for set partitions

Arxiv

0+阅读 · 2月1日

VIP会员

文章信息

相关主题

独立同分布

最新内容

DeepSeek 版Claude Code，免费小白安装教程来了！

DeepSeek 版Claude Code，免费小白安装教程来了！

专知会员服务

7+阅读 · 5月5日

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

专知会员服务

4+阅读 · 5月5日

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

专知会员服务

4+阅读 · 5月5日

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

专知会员服务

5+阅读 · 5月5日

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

专知会员服务

7+阅读 · 5月5日

《美空军条令出版物 2-0：情报（2026版）》

《美空军条令出版物 2-0：情报（2026版）》

专知会员服务

13+阅读 · 5月5日

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

专知会员服务

5+阅读 · 5月5日

帕兰提尔 Gotham：一个游戏规则改变器

帕兰提尔 Gotham：一个游戏规则改变器

专知会员服务

7+阅读 · 5月5日

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

专知会员服务

3+阅读 · 5月5日

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

专知会员服务

3+阅读 · 5月5日

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

专知会员服务

8+阅读 · 5月4日

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

11+阅读 · 5月4日

伊朗的导弹-无人机行动及其对美国威慑的影响

伊朗的导弹-无人机行动及其对美国威慑的影响

专知会员服务

9+阅读 · 5月4日

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

专知会员服务

9+阅读 · 5月4日

战争贩子：2026年第一季度美国对中东潜在军售激增

战争贩子：2026年第一季度美国对中东潜在军售激增

专知会员服务

7+阅读 · 5月4日

相关VIP内容

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

具有组合结构的统计推断和在线算法

具有组合结构的统计推断和在线算法

专知会员服务

12+阅读 · 2022年12月13日

什么是扩散模型？谷歌大脑Calvin Luo最新《扩散模型理解》，带你对基于评分与基于能量的扩散模型的统一视角数学理解

什么是扩散模型？谷歌大脑Calvin Luo最新《扩散模型理解》，带你对基于评分与基于能量的扩散模型的统一视角数学理解

专知会员服务

83+阅读 · 2022年8月27日

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

专知会员服务

29+阅读 · 2022年4月28日

分布外泛化(Out-Of-Distribution Generalization) 综述论文，22页pdf240篇文献

专知会员服务

64+阅读 · 2021年9月2日

复杂的序列数据分析：现有算法的系统文献综述，Complex Sequential Data Analysis: A Systematic Literature Review of Existing Algorithms

复杂的序列数据分析：现有算法的系统文献综述，Complex Sequential Data Analysis: A Systematic Literature Review of Existing Algorithms

专知会员服务

27+阅读 · 2020年7月24日

【KDD2020】CAST:一种基于相关关系的多尺度数据自适应光谱聚类算法,CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data

【KDD2020】CAST:一种基于相关关系的多尺度数据自适应光谱聚类算法,CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data

专知会员服务

20+阅读 · 2020年6月11日

【IJCAI2020】统计相关模型，A Complete Characterization of Projectivity for Statistical Relational Models

【IJCAI2020】统计相关模型，A Complete Characterization of Projectivity for Statistical Relational Models

专知会员服务

20+阅读 · 2020年4月25日

【康奈尔大学】度量数据粒度，Measuring Dataset Granularity

【康奈尔大学】度量数据粒度，Measuring Dataset Granularity

专知会员服务

13+阅读 · 2019年12月27日

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

专知会员服务

14+阅读 · 2019年10月25日

热门VIP内容

开通专知VIP会员享更多权益服务

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

DeepSeek 版Claude Code，免费小白安装教程来了！

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

相关资讯

实体关系的联合抽取总结

实体关系的联合抽取总结

深度学习自然语言处理

18+阅读 · 2020年7月12日

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

AINLP

18+阅读 · 2020年4月10日

视线估计(Gaze Estimation)简介(一)：概述

视线估计(Gaze Estimation)简介(一)：概述

CVer

10+阅读 · 2020年3月18日

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

开放知识图谱

77+阅读 · 2019年9月14日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

AINLP

38+阅读 · 2019年9月3日

【论文】Awesome Relation Classification Paper（关系分类）（PART II）

【论文】Awesome Relation Classification Paper（关系分类）（PART II）

AINLP

15+阅读 · 2019年8月12日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

赛尔原创 | IJCAI 2018基于图结构的实体和关系联合抽取模型简介

赛尔原创 | IJCAI 2018基于图结构的实体和关系联合抽取模型简介

哈工大SCIR

22+阅读 · 2018年6月12日

概率论之概念解析：用贝叶斯推断进行参数估计

概率论之概念解析：用贝叶斯推断进行参数估计

专知

14+阅读 · 2018年1月8日

福利 | 最全面超大规模数据集下载链接汇总

福利 | 最全面超大规模数据集下载链接汇总

AI研习社

26+阅读 · 2017年9月7日

相关论文

Tighter Confidence Intervals under Without Replacement Sampling via Empirical Rate Functions

Arxiv

0+阅读 · 3月15日

Estimation and exclusion restrictions in clustered linear models

Arxiv

0+阅读 · 3月6日

Unifying small area estimators based on area-level and unit-level models through calibration

Arxiv

0+阅读 · 3月4日

Standardization of Weighted Ranking Correlation Coefficients

Arxiv

0+阅读 · 3月1日

Post-reduction inference for confidence sets of models

Arxiv

0+阅读 · 2月21日

Dynamic and Streaming Algorithms for Union Volume Estimation

Arxiv

0+阅读 · 2月18日

Ratio Covers of Convex Sets and Optimal Mixture Density Estimation

Arxiv

0+阅读 · 2月18日

Computationally sufficient statistics for Ising models

Arxiv

0+阅读 · 2月12日

On multiplicities of interpoint distances

Arxiv

0+阅读 · 2月3日

Benchmarking of algorithms for set partitions

Arxiv

0+阅读 · 2月1日

相关基金

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀疏互质阵列的DOA估计算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

排序集抽样下随机删失数据的非参数估计

国家自然科学基金

1+阅读 · 2014年12月31日

一个组合猜想及其相关问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于似然函数的统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员