We propose Distributionally Balanced Designs (DBD), a new class of probability sampling designs that target representativeness at the level of the full auxiliary distribution rather than selected moments. In disciplines such as ecology, forestry, and environmental sciences, where field data collection is expensive, maximizing the information extracted from a limited sample is critical. More precisely, DBD can be viewed as minimum discrepancy designs that minimize the expected discrepancy between the sample and population auxiliary distributions. The key idea is to construct samples whose empirical auxiliary distribution closely matches that of the population. We present a first implementation of DBD based on an optimized circular ordering of the population, combined with random selection of a contiguous block of units. The ordering is chosen to minimize the design-expected energy distance, a discrepancy measure that captures differences between distributions beyond low-order moments. This criterion promotes strong spatial spread, and yields low variance for Horvitz-Thompson estimators of totals of functions that vary smoothly with respect to auxiliaries. Simulation results show that approximate DBD achieves better distributional fit than state-of-the-art methods such as the local pivotal and local cube designs. Hence, DBD can improve the reliability of estimates from costly field data, making distributional balancing effective for constructing representative surveys in resource-constrained applications.


翻译:本文提出了一种新的概率抽样设计类别——分布平衡设计(DBD),其目标在于实现辅助变量整体分布层面的代表性,而非仅针对特定矩。在生态学、林业和环境科学等野外数据收集成本高昂的学科中,从有限样本中最大化提取信息至关重要。更准确地说,DBD可被视为最小化差异设计,旨在最小化样本与总体辅助分布之间的期望差异。其核心思想是构建样本,使其经验辅助分布与总体分布高度匹配。我们首次实现了基于总体优化循环排序并结合连续单元块随机选择的DBD方法。该排序的选择旨在最小化设计期望能量距离——一种能够捕捉超越低阶矩的分布差异的度量准则。该准则促进了强烈的空间展布性,并对辅助变量平滑变化函数总值的霍维茨-汤普森估计量产生较低方差。仿真结果表明,近似DBD相较于局部关键设计、局部立方设计等先进方法实现了更优的分布拟合。因此,DBD能够提升高成本野外数据估计的可靠性,使分布平衡在资源受限的应用中成为构建代表性调查的有效手段。

0
下载
关闭预览

相关内容

设计是对现有状的一种重新认识和打破重组的过程,设计让一切变得更美。
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
【博士论文】吉布斯分布的局部、动态与快速采样算法
专知会员服务
29+阅读 · 2021年11月26日
详解ORB-SLAM2中的特征均匀提取策略
计算机视觉life
11+阅读 · 2019年10月9日
一文教你如何处理不平衡数据集(附代码)
大数据文摘
11+阅读 · 2019年6月2日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
数据分析师应该知道的16种回归方法:泊松回归
数萃大数据
35+阅读 · 2018年9月13日
关于处理样本不平衡问题的Trick整理
机器学习算法与Python学习
14+阅读 · 2017年12月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月4日
Arxiv
0+阅读 · 2月22日
Arxiv
0+阅读 · 2月2日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员