Auxiliary information is increasingly available from administrative and other data sources, but it is often incomplete and of non-probability origin. We propose a two-step small area estimation approach in which the first step relies on design-based model calibration and exploits a large non-probability source providing a noisy proxy of the study variable for only part of the population. A unit-level measurement-error working model is fitted on the linked overlap between the probability survey and the external source, and its predictions are incorporated through domain-specific model-calibration constraints to obtain approximately design-unbiased domain totals. These totals and their variance estimates are then used in a Fay-Herriot area-level model with exactly known covariates to produce empirical best linear unbiased predictors. The approach is demonstrated in three enterprise survey settings from official statistics by integrating probability sample data with (i) administrative records, (ii) a cut-off data source, and (iii) web-scraped online information. Empirical comparisons show consistent improvements in domain-level precision over direct estimation and over a Fay-Herriot benchmark that directly incorporates the proxy information as an error-prone covariate. These gains are achieved without modeling the selection mechanism of the non-probability sample.


翻译:辅助信息越来越多地来自行政数据和其他数据源,但这些信息往往不完整且具有非概率来源。本文提出了一种两步小区域估计方法:第一步基于设计模型校准,利用一个大型非概率数据源,该源仅对部分总体提供研究变量的噪声代理。通过在概率调查与外部源的链接重叠部分拟合单元级测量误差工作模型,并将其预测值通过特定域模型校准约束进行整合,从而获得近似设计无偏的域总量估计。这些总量及其方差估计随后被用于具有精确已知协变量的Fay-Herriot区域级模型,以生成经验最佳线性无偏预测。该方法通过在三个官方统计的企业调查场景中整合概率样本数据与(i)行政记录,(ii)截断数据源,以及(iii)网络爬取的在线信息进行了实证展示。经验比较表明,在域级精度上,该方法相较于直接估计以及直接将代理信息作为含误差协变量纳入的Fay-Herriot基准方法均有持续改进。这些增益的获得无需对非概率样本的选择机制进行建模。

0
下载
关闭预览

相关内容

本话题关于日常用语「概率」,用于讨论生活中的运气、机会,及赌博、彩票、游戏中的「技巧」。关于抽象数学概念「概率」的讨论,请转 概率(数学)话题。
【博士论文】小型和大型模型的不确定性估计
专知会员服务
21+阅读 · 2025年7月11日
【硬核书】不确定性:不确定性估计的现代主题,160页pdf
专知会员服务
87+阅读 · 2022年12月4日
专知会员服务
26+阅读 · 2021年9月9日
专知会员服务
44+阅读 · 2021年7月1日
视线估计(Gaze Estimation)简介(一):概述
CVer
10+阅读 · 2020年3月18日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员