Confidence intervals for maximum unseen probabilities, with application to sequential sampling design - 专知论文

会员服务 ·

0

类别 · 概率 · 构建 · 设计 · 阈值 ·

Confidence intervals for maximum unseen probabilities, with application to sequential sampling design

翻译：最大未观测概率的置信区间及其在序贯抽样设计中的应用

Alessandro Colombi,Mario Beraha,Amichai Painsky,Stefano Favaro

Discovery problems often require deciding whether additional sampling is needed to detect all categories whose prevalence exceeds a prespecified threshold. We study this question under a Bernoulli product (incidence) model, where categories are observed only through presence--absence across sampling units. Our inferential target is the \emph{maximum unseen probability}, the largest prevalence among categories not yet observed. We develop nonasymptotic, distribution-free upper confidence bounds for this quantity in two regimes: bounded alphabets (finite and known number of categories) and unbounded alphabets (countably infinite under a mild summability condition). We characterise the limits of data-independent worst-case bounds, showing that in the unbounded regime no nontrivial data-independent procedure can be uniformly valid. We then propose data-dependent bounds in both regimes and establish matching lower bounds demonstrating their near-optimality. We compare empirically the resulting procedures in both simulated and real datasets. Finally, we use these bounds to construct sequential stopping rules with finite-sample guarantees, and demonstrate robustness to contamination that introduces spurious low-prevalence categories.

翻译：发现类问题通常需要判断是否需要额外抽样以检测出所有出现率超过预设阈值的类别。我们在伯努利乘积（发生率）模型下研究该问题，其中类别仅通过抽样单元的存在-缺失模式被观测到。我们的推断目标是**最大未观测概率**，即尚未观测到的类别中最大的出现率。我们在两种情形下为该量构建了非渐近、无分布的上置信界：有界字母表（类别数量有限且已知）与无界字母表（在温和可和性条件下为可数无限）。我们刻画了与数据无关的最坏情形界的极限，证明在无界情形下不存在非平凡的、具有一致有效性的与数据无关方法。随后我们在两种情形下提出数据依赖的置信界，并建立匹配的下界证明其近乎最优性。我们在模拟和真实数据集中对所得方法进行实证比较。最后，我们利用这些界构建具有有限样本保证的序贯停止规则，并证明其对引入虚假低出现率类别的污染具有鲁棒性。

0

相关内容

《主观概率约束下寻找可行系统及其军事应用》69页

《主观概率约束下寻找可行系统及其军事应用》69页

专知会员服务

28+阅读 · 2025年9月27日

【剑桥大学博士论文】模型不确定性下的统计假设检验，198页pdf

【剑桥大学博士论文】模型不确定性下的统计假设检验，198页pdf

专知会员服务

26+阅读 · 2023年2月7日

【华盛顿大学博士论文】因果模型的似然分析，190页pdf

【华盛顿大学博士论文】因果模型的似然分析，190页pdf

专知会员服务

35+阅读 · 2022年11月14日

《通过最优传输失配措施进行鲁棒性贝叶斯推断：应用和算法》麻省理工学院2022最新博士论文

《通过最优传输失配措施进行鲁棒性贝叶斯推断：应用和算法》麻省理工学院2022最新博士论文

专知会员服务

15+阅读 · 2022年6月21日

ACL2021 | OntoED：利用本体表示学习实现低资源的事件抽取

专知会员服务

24+阅读 · 2021年6月19日

【哈佛大学干货书】概率导论，589页pdf，Introduction to Probability

【哈佛大学干货书】概率导论，589页pdf，Introduction to Probability

专知会员服务

141+阅读 · 2021年1月24日

知识图谱嵌入模型的概率标定,Probability Calibration for Knowledge Graph Embedding Models

专知会员服务

36+阅读 · 2020年5月11日

【CVPR2020-清华大学】具有后验置信度的噪声数据的概率视频预测

【CVPR2020-清华大学】具有后验置信度的噪声数据的概率视频预测

专知会员服务

20+阅读 · 2020年4月4日

【斯坦福大学AAAI2020】跨越因果层次的概率推理，Probabilistic Reasoning across the Causal Hierarchy

【斯坦福大学AAAI2020】跨越因果层次的概率推理，Probabilistic Reasoning across the Causal Hierarchy

专知会员服务

46+阅读 · 2020年1月11日

【论文推荐】NGBoost:用于概率预测的自然梯度增强（NGBoost: Natural Gradient Boosting for Probabilistic Prediction）

【论文推荐】NGBoost:用于概率预测的自然梯度增强（NGBoost: Natural Gradient Boosting for Probabilistic Prediction）

专知会员服务

18+阅读 · 2019年12月25日

【经典书】概率论基础教程，A First Course in Probability，545页pdf

【经典书】概率论基础教程，A First Course in Probability，545页pdf

专知

21+阅读 · 2021年3月24日

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

异常检测的阈值，你怎么选？给你整理好了...

异常检测的阈值，你怎么选？给你整理好了...

机器学习算法与Python学习

10+阅读 · 2018年9月19日

什么是最大似然估计、最大后验估计以及贝叶斯参数估计

什么是最大似然估计、最大后验估计以及贝叶斯参数估计

数盟

16+阅读 · 2018年4月20日

入门 | 什么是最大似然估计、最大后验估计以及贝叶斯参数估计

入门 | 什么是最大似然估计、最大后验估计以及贝叶斯参数估计

机器之心

11+阅读 · 2018年4月15日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

概率论之概念解析：用贝叶斯推断进行参数估计

概率论之概念解析：用贝叶斯推断进行参数估计

专知

14+阅读 · 2018年1月8日

几类随机指数函数空间的应用

国家自然科学基金

0+阅读 · 2015年12月31日

半参数回归模型中随机误差分布的检验问题

国家自然科学基金

2+阅读 · 2015年12月31日

积分型样条函数逼近新理论、新方法及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于部分核实数据的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

高维混合数据异常知识发现的粒计算模型关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

排序集抽样下随机删失数据的非参数估计

国家自然科学基金

1+阅读 · 2014年12月31日

概率抽样设计及其统计推断方法

国家自然科学基金

6+阅读 · 2014年12月31日

基于似然函数的统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

Finite-sample performance of the maximum likelihood estimator in logistic regression

Arxiv

0+阅读 · 2月19日

General sample size analysis for probabilities of causation: a delta method approach

Arxiv

0+阅读 · 2月19日

Online Prediction of Stochastic Sequences with High Probability Regret Bounds

Arxiv

0+阅读 · 2月18日

Derandomizing Simultaneous Confidence Regions for Band-Limited Functions by Improved Norm Bounds and Majority-Voting Schemes

Arxiv

0+阅读 · 1月23日

Inference for competing risks based on area between curves statistics

Arxiv

0+阅读 · 1月22日

Probably Approximately Correct Maximum A Posteriori Inference

Arxiv

0+阅读 · 1月22日

Sequential model confidence sets

Arxiv

0+阅读 · 1月22日

Policy Learning with Confidence

Arxiv

0+阅读 · 1月18日

Winners with Confidence: Discrete Argmin Inference with an Application to Model Selection

Arxiv

0+阅读 · 1月16日

Low-order outcomes and clustered designs: combining design and analysis for causal inference under network interference

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

最新内容

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

4+阅读 · 今天4:39

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

12+阅读 · 今天2:52

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

5+阅读 · 今天2:48

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

8+阅读 · 今天2:43

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

6+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

7+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

6+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

9+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

13+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

9+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

4+阅读 · 4月24日

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

4+阅读 · 4月24日

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

6+阅读 · 4月24日

相关VIP内容

《主观概率约束下寻找可行系统及其军事应用》69页

《主观概率约束下寻找可行系统及其军事应用》69页

专知会员服务

28+阅读 · 2025年9月27日

【剑桥大学博士论文】模型不确定性下的统计假设检验，198页pdf

【剑桥大学博士论文】模型不确定性下的统计假设检验，198页pdf

专知会员服务

26+阅读 · 2023年2月7日

【华盛顿大学博士论文】因果模型的似然分析，190页pdf

【华盛顿大学博士论文】因果模型的似然分析，190页pdf

专知会员服务

35+阅读 · 2022年11月14日

《通过最优传输失配措施进行鲁棒性贝叶斯推断：应用和算法》麻省理工学院2022最新博士论文

《通过最优传输失配措施进行鲁棒性贝叶斯推断：应用和算法》麻省理工学院2022最新博士论文

专知会员服务

15+阅读 · 2022年6月21日

ACL2021 | OntoED：利用本体表示学习实现低资源的事件抽取

专知会员服务

24+阅读 · 2021年6月19日

【哈佛大学干货书】概率导论，589页pdf，Introduction to Probability

【哈佛大学干货书】概率导论，589页pdf，Introduction to Probability

专知会员服务

141+阅读 · 2021年1月24日

知识图谱嵌入模型的概率标定,Probability Calibration for Knowledge Graph Embedding Models

专知会员服务

36+阅读 · 2020年5月11日

【CVPR2020-清华大学】具有后验置信度的噪声数据的概率视频预测

【CVPR2020-清华大学】具有后验置信度的噪声数据的概率视频预测

专知会员服务

20+阅读 · 2020年4月4日

【斯坦福大学AAAI2020】跨越因果层次的概率推理，Probabilistic Reasoning across the Causal Hierarchy

【斯坦福大学AAAI2020】跨越因果层次的概率推理，Probabilistic Reasoning across the Causal Hierarchy

专知会员服务

46+阅读 · 2020年1月11日

【论文推荐】NGBoost:用于概率预测的自然梯度增强（NGBoost: Natural Gradient Boosting for Probabilistic Prediction）

【论文推荐】NGBoost:用于概率预测的自然梯度增强（NGBoost: Natural Gradient Boosting for Probabilistic Prediction）

专知会员服务

18+阅读 · 2019年12月25日

热门VIP内容

开通专知VIP会员享更多权益服务

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《军事模拟：将军事条令与目标融入AI智能体》

非对称优势：美海军开发低成本反无人机技术

《美战争部小企业创新研究（SBIR）计划》

相关资讯

【经典书】概率论基础教程，A First Course in Probability，545页pdf

【经典书】概率论基础教程，A First Course in Probability，545页pdf

专知

21+阅读 · 2021年3月24日

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

异常检测的阈值，你怎么选？给你整理好了...

异常检测的阈值，你怎么选？给你整理好了...

机器学习算法与Python学习

10+阅读 · 2018年9月19日

什么是最大似然估计、最大后验估计以及贝叶斯参数估计

什么是最大似然估计、最大后验估计以及贝叶斯参数估计

数盟

16+阅读 · 2018年4月20日

入门 | 什么是最大似然估计、最大后验估计以及贝叶斯参数估计

入门 | 什么是最大似然估计、最大后验估计以及贝叶斯参数估计

机器之心

11+阅读 · 2018年4月15日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

概率论之概念解析：用贝叶斯推断进行参数估计

概率论之概念解析：用贝叶斯推断进行参数估计

专知

14+阅读 · 2018年1月8日

相关论文

Finite-sample performance of the maximum likelihood estimator in logistic regression

Arxiv

0+阅读 · 2月19日

General sample size analysis for probabilities of causation: a delta method approach

Arxiv

0+阅读 · 2月19日

Online Prediction of Stochastic Sequences with High Probability Regret Bounds

Arxiv

0+阅读 · 2月18日

Derandomizing Simultaneous Confidence Regions for Band-Limited Functions by Improved Norm Bounds and Majority-Voting Schemes

Arxiv

0+阅读 · 1月23日

Inference for competing risks based on area between curves statistics

Arxiv

0+阅读 · 1月22日

Probably Approximately Correct Maximum A Posteriori Inference

Arxiv

0+阅读 · 1月22日

Sequential model confidence sets

Arxiv

0+阅读 · 1月22日

Policy Learning with Confidence

Arxiv

0+阅读 · 1月18日

Winners with Confidence: Discrete Argmin Inference with an Application to Model Selection

Arxiv

0+阅读 · 1月16日

Low-order outcomes and clustered designs: combining design and analysis for causal inference under network interference

Arxiv

0+阅读 · 1月15日

相关基金

几类随机指数函数空间的应用

国家自然科学基金

0+阅读 · 2015年12月31日

半参数回归模型中随机误差分布的检验问题

国家自然科学基金

2+阅读 · 2015年12月31日

积分型样条函数逼近新理论、新方法及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于部分核实数据的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

高维混合数据异常知识发现的粒计算模型关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

排序集抽样下随机删失数据的非参数估计

国家自然科学基金

1+阅读 · 2014年12月31日

概率抽样设计及其统计推断方法

国家自然科学基金

6+阅读 · 2014年12月31日

基于似然函数的统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员