Least Squares Estimation For Hierarchical Data - 专知论文

会员服务 ·

0

分层 · 最小二乘估计 · 噪声 · 产品 · 算法 ·

Least Squares Estimation For Hierarchical Data

翻译：分层数据的最小二乘估计

Ryan Cumings-Menon,Pavel Zhuravlev

The U.S. Census Bureau's 2020 Disclosure Avoidance System (DAS) bases its output on noisy measurements, which are population tabulations added to realizations of mean-zero random variables. These noisy measurements are observed for a set of hierarchical geographic levels, e.g., the U.S. as a whole, states, counties, census tracts, and census blocks. The Census Bureau released the noisy measurements generated in the DAS executions for the two primary 2020 Census data products, in part to allow data users to assess uncertainty in 2020 Census tabulations introduced by disclosure avoidance. This paper describes an algorithm that can leverage the hierarchical structure of the input data in order to compute very high dimensional least squares estimates in a computationally efficient manner. Afterward, we show that this algorithm's output is equal to the generalized least squares estimator, describe how to find the variance of linear functions of this estimator, and provide a numerical experiment in which we compute confidence intervals of tabulations based on this estimator. We also describe an accompanying Census Bureau experimental data product that applies this estimator to the publicly available noisy measurements to provide data users with the inputs required to derive confidence intervals for all tabulations that were included in the 2020 Redistricting Data File, for the U.S., state, county, and census tract geographic levels.

翻译：美国人口普查局2020年披露规避系统（DAS）的输出基于噪声测量值，这些测量值是在均值零随机变量的实现基础上添加的人口统计表。这些噪声测量值针对一组分层地理层级进行观测，例如美国整体、州、县、人口普查区以及人口普查街区。人口普查局发布了2020年两次主要人口普查数据产品中DAS执行生成的噪声测量值，部分原因是为了让数据用户能够评估2020年人口普查表格中因披露规避引入的不确定性。本文描述了一种算法，该算法能够利用输入数据的分层结构，以计算高效的方式计算极高维度的最小二乘估计。随后，我们证明了该算法的输出等于广义最小二乘估计量，描述了如何找到该估计量线性函数的方差，并提供了一个数值实验，在该实验中我们基于此估计量计算了表格的置信区间。我们还介绍了一个配套的人口普查局实验数据产品，该产品将该估计量应用于公开可用的噪声测量值，为数据用户提供所需输入，以推导出2020年重划选区数据文件中所有表格（针对美国、州、县和人口普查区地理层级）的置信区间。

0

相关内容

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

专知会员服务

30+阅读 · 2024年7月31日

【博士论文】从噪声数据中深度学习的信息特征和示例的优先排序，94页pdf

【博士论文】从噪声数据中深度学习的信息特征和示例的优先排序，94页pdf

专知会员服务

32+阅读 · 2024年3月11日

【牛津大学博士论文】基于评分规则的生成模型统计推断, 274页pdf

【牛津大学博士论文】基于评分规则的生成模型统计推断, 274页pdf

专知会员服务

40+阅读 · 2023年7月5日

【AISTATS2023】基于上下文和混杂因素的因果效应估计，77页ppt

【AISTATS2023】基于上下文和混杂因素的因果效应估计，77页ppt

专知会员服务

30+阅读 · 2023年4月29日

《对分布式空间雷达数据域进行分类》2023最新论文（附PPT）

《对分布式空间雷达数据域进行分类》2023最新论文（附PPT）

专知会员服务

45+阅读 · 2023年2月7日

Mix数据增强怎么做？香港城市大学最新《混合数据增强》综述，全面阐述MixDA方法、应用与可解释性

Mix数据增强怎么做？香港城市大学最新《混合数据增强》综述，全面阐述MixDA方法、应用与可解释性

专知会员服务

30+阅读 · 2022年12月29日

【AAAI 2022】基于数据分布生成的可预测概念漂移适应

【AAAI 2022】基于数据分布生成的可预测概念漂移适应

专知会员服务

34+阅读 · 2022年1月12日

哈工大最新《自然语言处理数据增强方法》综述论文，155页pdf阐述复述、噪声和抽样三大数据增强方法

专知会员服务

48+阅读 · 2021年10月16日

【WSDM2020】小数据学习，124页ppt，Learning with Small Data，宾夕法尼亚州立大学

【WSDM2020】小数据学习，124页ppt，Learning with Small Data，宾夕法尼亚州立大学

专知会员服务

137+阅读 · 2020年2月6日

最新！人工智能顶会WSDM2020最佳论文出炉！UCSC斩获-主轴的幂用于精确团计数

最新！人工智能顶会WSDM2020最佳论文出炉！UCSC斩获-主轴的幂用于精确团计数

专知会员服务

26+阅读 · 2020年2月6日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

北航发布「深度学习人群计数」2020综述论文，220+基于CNN的密度估计和人群计数的方法大调研

北航发布「深度学习人群计数」2020综述论文，220+基于CNN的密度估计和人群计数的方法大调研

专知

10+阅读 · 2020年4月1日

AAAI2020最新「因果推理表示学习」122页ppt，Georgia、Buffalo、阿里巴巴与Virginia

AAAI2020最新「因果推理表示学习」122页ppt，Georgia、Buffalo、阿里巴巴与Virginia

专知

16+阅读 · 2020年2月12日

【泡泡点云时空】DeepMapping: 来自多重点云的无监督地图估计

【泡泡点云时空】DeepMapping: 来自多重点云的无监督地图估计

泡泡机器人SLAM

29+阅读 · 2019年5月29日

【UC伯克利郁彬老师最新论文】数据科学的三原则：可预测性、可计算、稳定性

【UC伯克利郁彬老师最新论文】数据科学的三原则：可预测性、可计算、稳定性

专知

12+阅读 · 2019年1月25日

数据分析师应该知道的16种回归技术：偏最小二乘回归

数据分析师应该知道的16种回归技术：偏最小二乘回归

数萃大数据

14+阅读 · 2018年8月29日

六种人体姿态估计的深度学习模型和代码总结

六种人体姿态估计的深度学习模型和代码总结

论智

19+阅读 · 2018年6月27日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

专知

14+阅读 · 2018年2月18日

[有意思的数学] 参数估计

[有意思的数学] 参数估计

机器学习和数学

15+阅读 · 2017年6月4日

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

井震联合数据驱动下，多智能技术融合的煤层气储层参数预测与评价

国家自然科学基金

2+阅读 · 2015年12月31日

基于低秩表示的鲁棒特征抽取和分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

Alpha稳定分布环境下的非圆信号波达方向估计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于稳健估计方程的复杂纵向数据研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维高频数据下金融资产积分波动率矩阵的统计分析

国家自然科学基金

2+阅读 · 2015年12月31日

带加法噪声高维密度的最优小波点态估计

国家自然科学基金

0+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

协方差阵的推断及在方向数据分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

Are Two Datasets Close Enough With Statistical Significance? A Kernel Distributional Closeness Testing Approach

Arxiv

0+阅读 · 6月7日

Data driven extreme value distribution estimation: Derivation of the Mean Integrated Squared Error, optimal bandwidth selection and stability conditions

Arxiv

0+阅读 · 5月20日

Estimating Association Between Paired Outcomes in Clustered Data with Informative Subgroup Size

Arxiv

0+阅读 · 5月15日

The Pearson IV distribution: Random variate generation and applications

Arxiv

0+阅读 · 5月2日

Efficient Parameter Estimation of Truncated Boolean Product Distributions

Arxiv

0+阅读 · 5月2日

Estimating Power-Law Exponent with Edge Differential Privacy

Arxiv

0+阅读 · 4月22日

Order-Optimal Sequential 1-Bit Mean Estimation in General Tail Regimes

Arxiv

0+阅读 · 4月9日

Data Distribution Valuation Using Generalized Bayesian Inference

Arxiv

0+阅读 · 4月7日

Fair regression under localized demographic parity constraints

Arxiv

0+阅读 · 3月26日

Strict Optimality of Frequency and Distribution Estimation Under Local Differential Privacy

Arxiv

0+阅读 · 3月22日

VIP会员

文章信息

相关主题

最小二乘估计

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

3+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

3+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

3+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

3+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

4+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

专知会员服务

30+阅读 · 2024年7月31日

【博士论文】从噪声数据中深度学习的信息特征和示例的优先排序，94页pdf

【博士论文】从噪声数据中深度学习的信息特征和示例的优先排序，94页pdf

专知会员服务

32+阅读 · 2024年3月11日

【牛津大学博士论文】基于评分规则的生成模型统计推断, 274页pdf

【牛津大学博士论文】基于评分规则的生成模型统计推断, 274页pdf

专知会员服务

40+阅读 · 2023年7月5日

【AISTATS2023】基于上下文和混杂因素的因果效应估计，77页ppt

【AISTATS2023】基于上下文和混杂因素的因果效应估计，77页ppt

专知会员服务

30+阅读 · 2023年4月29日

《对分布式空间雷达数据域进行分类》2023最新论文（附PPT）

《对分布式空间雷达数据域进行分类》2023最新论文（附PPT）

专知会员服务

45+阅读 · 2023年2月7日

Mix数据增强怎么做？香港城市大学最新《混合数据增强》综述，全面阐述MixDA方法、应用与可解释性

Mix数据增强怎么做？香港城市大学最新《混合数据增强》综述，全面阐述MixDA方法、应用与可解释性

专知会员服务

30+阅读 · 2022年12月29日

【AAAI 2022】基于数据分布生成的可预测概念漂移适应

【AAAI 2022】基于数据分布生成的可预测概念漂移适应

专知会员服务

34+阅读 · 2022年1月12日

哈工大最新《自然语言处理数据增强方法》综述论文，155页pdf阐述复述、噪声和抽样三大数据增强方法

专知会员服务

48+阅读 · 2021年10月16日

【WSDM2020】小数据学习，124页ppt，Learning with Small Data，宾夕法尼亚州立大学

【WSDM2020】小数据学习，124页ppt，Learning with Small Data，宾夕法尼亚州立大学

专知会员服务

137+阅读 · 2020年2月6日

最新！人工智能顶会WSDM2020最佳论文出炉！UCSC斩获-主轴的幂用于精确团计数

最新！人工智能顶会WSDM2020最佳论文出炉！UCSC斩获-主轴的幂用于精确团计数

专知会员服务

26+阅读 · 2020年2月6日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

北航发布「深度学习人群计数」2020综述论文，220+基于CNN的密度估计和人群计数的方法大调研

北航发布「深度学习人群计数」2020综述论文，220+基于CNN的密度估计和人群计数的方法大调研

专知

10+阅读 · 2020年4月1日

AAAI2020最新「因果推理表示学习」122页ppt，Georgia、Buffalo、阿里巴巴与Virginia

AAAI2020最新「因果推理表示学习」122页ppt，Georgia、Buffalo、阿里巴巴与Virginia

专知

16+阅读 · 2020年2月12日

【泡泡点云时空】DeepMapping: 来自多重点云的无监督地图估计

【泡泡点云时空】DeepMapping: 来自多重点云的无监督地图估计

泡泡机器人SLAM

29+阅读 · 2019年5月29日

【UC伯克利郁彬老师最新论文】数据科学的三原则：可预测性、可计算、稳定性

【UC伯克利郁彬老师最新论文】数据科学的三原则：可预测性、可计算、稳定性

专知

12+阅读 · 2019年1月25日

数据分析师应该知道的16种回归技术：偏最小二乘回归

数据分析师应该知道的16种回归技术：偏最小二乘回归

数萃大数据

14+阅读 · 2018年8月29日

六种人体姿态估计的深度学习模型和代码总结

六种人体姿态估计的深度学习模型和代码总结

论智

19+阅读 · 2018年6月27日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

专知

14+阅读 · 2018年2月18日

[有意思的数学] 参数估计

[有意思的数学] 参数估计

机器学习和数学

15+阅读 · 2017年6月4日

相关论文

Are Two Datasets Close Enough With Statistical Significance? A Kernel Distributional Closeness Testing Approach

Arxiv

0+阅读 · 6月7日

Data driven extreme value distribution estimation: Derivation of the Mean Integrated Squared Error, optimal bandwidth selection and stability conditions

Arxiv

0+阅读 · 5月20日

Estimating Association Between Paired Outcomes in Clustered Data with Informative Subgroup Size

Arxiv

0+阅读 · 5月15日

The Pearson IV distribution: Random variate generation and applications

Arxiv

0+阅读 · 5月2日

Efficient Parameter Estimation of Truncated Boolean Product Distributions

Arxiv

0+阅读 · 5月2日

Estimating Power-Law Exponent with Edge Differential Privacy

Arxiv

0+阅读 · 4月22日

Order-Optimal Sequential 1-Bit Mean Estimation in General Tail Regimes

Arxiv

0+阅读 · 4月9日

Data Distribution Valuation Using Generalized Bayesian Inference

Arxiv

0+阅读 · 4月7日

Fair regression under localized demographic parity constraints

Arxiv

0+阅读 · 3月26日

Strict Optimality of Frequency and Distribution Estimation Under Local Differential Privacy

Arxiv

0+阅读 · 3月22日

相关基金

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

井震联合数据驱动下，多智能技术融合的煤层气储层参数预测与评价

国家自然科学基金

2+阅读 · 2015年12月31日

基于低秩表示的鲁棒特征抽取和分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

Alpha稳定分布环境下的非圆信号波达方向估计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于稳健估计方程的复杂纵向数据研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维高频数据下金融资产积分波动率矩阵的统计分析

国家自然科学基金

2+阅读 · 2015年12月31日

带加法噪声高维密度的最优小波点态估计

国家自然科学基金

0+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

协方差阵的推断及在方向数据分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员