Discovery problems often require deciding whether additional sampling is needed to detect all categories whose prevalence exceeds a prespecified threshold. We study this question under a Bernoulli product (incidence) model, where categories are observed only through presence--absence across sampling units. Our inferential target is the \emph{maximum unseen probability}, the largest prevalence among categories not yet observed. We develop nonasymptotic, distribution-free upper confidence bounds for this quantity in two regimes: bounded alphabets (finite and known number of categories) and unbounded alphabets (countably infinite under a mild summability condition). We characterise the limits of data-independent worst-case bounds, showing that in the unbounded regime no nontrivial data-independent procedure can be uniformly valid. We then propose data-dependent bounds in both regimes and establish matching lower bounds demonstrating their near-optimality. We compare empirically the resulting procedures in both simulated and real datasets. Finally, we use these bounds to construct sequential stopping rules with finite-sample guarantees, and demonstrate robustness to contamination that introduces spurious low-prevalence categories.


翻译:发现类问题通常需要判断是否需要额外抽样以检测出所有出现率超过预设阈值的类别。我们在伯努利乘积(发生率)模型下研究该问题,其中类别仅通过抽样单元的存在-缺失模式被观测到。我们的推断目标是**最大未观测概率**,即尚未观测到的类别中最大的出现率。我们在两种情形下为该量构建了非渐近、无分布的上置信界:有界字母表(类别数量有限且已知)与无界字母表(在温和可和性条件下为可数无限)。我们刻画了与数据无关的最坏情形界的极限,证明在无界情形下不存在非平凡的、具有一致有效性的与数据无关方法。随后我们在两种情形下提出数据依赖的置信界,并建立匹配的下界证明其近乎最优性。我们在模拟和真实数据集中对所得方法进行实证比较。最后,我们利用这些界构建具有有限样本保证的序贯停止规则,并证明其对引入虚假低出现率类别的污染具有鲁棒性。

0
下载
关闭预览

相关内容

《主观概率约束下寻找可行系统及其军事应用》69页
专知会员服务
26+阅读 · 2025年9月27日
【华盛顿大学博士论文】因果模型的似然分析,190页pdf
专知会员服务
35+阅读 · 2022年11月14日
专知会员服务
24+阅读 · 2021年6月19日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月22日
Arxiv
0+阅读 · 1月18日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员