Many model evaluation tasks reduce to estimating an average loss, error rate, or subgroup metric on a stratified pool when each label, human rating, or simulator call is costly. The precision-optimal Neyman allocation depends on within-stratum variances, which must be learned from the same observations used for estimation. We formulate this as a sequential allocation problem and use the exact one-step marginal variance reduction as the priority index. Replacing the unknown variances by independent inverse-chi-squared posterior draws yields TS-Neyman, a Thompson-sampling rule that preserves the oracle marginal-gain structure while randomizing over variance uncertainty. For any fixed finite number of strata, we prove almost-sure convergence of the TS-Neyman allocation proportions to the Neyman target, asymptotic optimality of the variance proxy, and a central limit theorem for the resulting adaptive stratified estimator. In two five-stratum budget-scaling benchmarks, one bounded-loss benchmark and one binary model-error benchmark in the spirit of Dai et al. 2023, TS-Neyman's relative efficiency stays within 5 percent of the oracle on the bounded-loss population and within about 15 percent on the binary benchmark. In an additional CivilComments real-data replay with confidence-based strata, it stays within about 8 percent of the oracle and improves on equal allocation by roughly 7 to 14 percent in MSE across budgets, while plug-in greedy and two-stage plug-in can degrade by over an order of magnitude under sparse pilots. Common-pilot warm-start and prior-sensitivity studies show that this behavior is stable under working-model and working-prior misspecification.


翻译:[摘要] 许多模型评估任务可归结为:在标注成本(人工评分、模拟器调用)高昂的分层池中,估计平均损失、错误率或子组指标。精度最优的内曼分配取决于层内方差,而该方差必须从用于估计的同一观测中学习。我们将此建模为序贯分配问题,并以精确的一步边际方差缩减作为优先指标。通过独立逆卡方后验采样替换未知方差,得到TS-Neyman——一种汤普森采样规则,它在保留最优边际增益结构的同时,对方差不确定性进行随机化。对任意固定有限层数,我们证明了TS-Neyman分配比例几乎必然收敛至内曼目标,方差代理的渐近最优性,以及所得自适应分层估计量的中心极限定理。在两个五层预算缩放基准(一个有界损失基准,另一个遵循Dai et al. 2023思路的二元模型误差基准)中,TS-Neyman的相对效率在有界损失群体上保持在最优值的5%以内,在二元基准上保持在15%以内。在额外基于置信度分层的CivilComments真实数据回溯实验中,其效率保持在最优值的8%以内,各预算下均方误差相比等额分配提升约7%至14%,而贪婪插件法和两阶段插件法在稀疏预试验下可能退化超一个数量级。公共预试验热启动和先验敏感性研究表明,该行为在工作模型与工作先验设定错误下保持稳定。

0
下载
关闭预览

相关内容

【NeurIPS2024】通过方差减少实现零样本模型的稳健微调
专知会员服务
19+阅读 · 2024年11月12日
一文带你读懂 DeconvNet 上采样层(语义分割)
AI研习社
26+阅读 · 2019年3月16日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 今天14:45
定向能反无人机系统最新发展动态
专知会员服务
5+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 今天13:33
相关VIP内容
【NeurIPS2024】通过方差减少实现零样本模型的稳健微调
专知会员服务
19+阅读 · 2024年11月12日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员