A Bernstein polynomial approach for the estimation of cumulative distribution functions in the presence of missing data - 专知论文

会员服务 ·

0

A Bernstein polynomial approach for the estimation of cumulative distribution functions in the presence of missing data

翻译：一种基于伯恩斯坦多项式的缺失数据下累积分布函数估计方法

Rihab Gharbi,Wissem Jedidi,Salah Khardani,Frédéric Ouimet

from arxiv, 33 pages, 2 figures, 10 tables

We study nonparametric estimation of univariate cumulative distribution functions (CDFs) pertaining to data missing at random. The proposed estimators smooth the inverse probability weighted (IPW) empirical CDF with the Bernstein operator, yielding monotone, $[0,1]$-valued curves that automatically adapt to bounded supports. We analyze two versions: a pseudo estimator that uses known propensities and a feasible estimator that uses propensities estimated nonparametrically from discrete auxiliary variables, the latter scenario being much more common in practice. For both, we derive pointwise bias and variance expansions, establish the optimal polynomial degree $m$ with respect to the mean integrated squared error, and prove the asymptotic normality. A key finding is that the feasible estimator has a smaller variance than the pseudo estimator by an explicit nonnegative correction term. We also develop an efficient degree selection procedure via least-squares cross-validation. Monte Carlo experiments show that, for small to moderate sample sizes, the Bernstein-smoothed pseudo and feasible estimators outperform their unsmoothed counterparts and the integrated version of the IPW kernel density estimator proposed by Dubnicka (2009), under certain models. A real-data application to fasting plasma glucose from the 2017-2018 NHANES survey illustrates the method in a practical setting. All code needed to reproduce our analyses is readily accessible on GitHub.

翻译：我们研究了随机缺失数据情形下单变量累积分布函数（CDF）的非参数估计。提出的估计器利用伯恩斯坦算子对逆概率加权（IPW）经验CDF进行平滑处理，生成单调且取值于[0,1]的自适应有界支撑曲线。我们分析了两个版本：使用已知倾向得分的伪估计器，以及使用从离散辅助变量非参数估计的倾向得分的可行估计器——后者在实践中更为常见。针对两者，我们推导了逐点偏差和方差展开式，建立了关于均方积分误差的最优多项式阶数$m$，并证明了渐近正态性。一个关键发现是，可行估计器通过显式的非负修正项实现了比伪估计器更小的方差。我们还通过最小二乘交叉验证开发了一种高效的阶数选择程序。蒙特卡洛实验表明，在中小样本量下，伯恩斯坦平滑后的伪估计器和可行估计器在某些模型中优于未经平滑的对应方法以及Dubnicka（2009）提出的积分版本IPW核密度估计器。针对2017-2018年NHANES调查中空腹血糖数据的实际应用展示了该方法在实践中的效果。所有复现分析所需的代码均可通过GitHub公开获取。

0

相关内容

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

专知会员服务

30+阅读 · 2024年7月31日

如何用机器学习损失函数？最新《机器学习损失函数》综述，详述其33个损失函数与分类法

如何用机器学习损失函数？最新《机器学习损失函数》综述，详述其33个损失函数与分类法

专知会员服务

70+阅读 · 2023年1月17日

J. Med. Chem.｜TocoDecoy:针对机器学习打分函数训练和测试的无隐藏偏差的数据集构建新方法

J. Med. Chem.｜TocoDecoy:针对机器学习打分函数训练和测试的无隐藏偏差的数据集构建新方法

专知会员服务

15+阅读 · 2022年6月20日

分布外泛化(Out-Of-Distribution Generalization) 综述论文，22页pdf240篇文献

专知会员服务

64+阅读 · 2021年9月2日

和积网络综述论文，Sum-product networks: A survey，24页pdf

和积网络综述论文，Sum-product networks: A survey，24页pdf

专知会员服务

24+阅读 · 2020年4月3日

【独立研究者I-Sheng Yang论文】因果机器学习损失函数（A Loss-Function for Causal Machine-Learning）

【独立研究者I-Sheng Yang论文】因果机器学习损失函数（A Loss-Function for Causal Machine-Learning）

专知会员服务

20+阅读 · 2020年1月7日

【论文推荐】深度学习中贝叶斯不确定性简单基线（A simple baseline for bayesian uncertainty in deep learning）

【论文推荐】深度学习中贝叶斯不确定性简单基线（A simple baseline for bayesian uncertainty in deep learning）

专知会员服务

46+阅读 · 2019年12月25日

【斯坦福大学】面向机器学习的概率和统计要点速览(中文版)《CS 229 - Probabilities and Statistics refresher》by Afshine Amidi, Shervine Amidi

【斯坦福大学】面向机器学习的概率和统计要点速览(中文版)《CS 229 - Probabilities and Statistics refresher》by Afshine Amidi, Shervine Amidi

专知会员服务

48+阅读 · 2019年12月19日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

专知会员服务

35+阅读 · 2019年11月30日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

专知

174+阅读 · 2019年10月28日

从信息论的角度来理解损失函数

从信息论的角度来理解损失函数

深度学习每日摘要

17+阅读 · 2019年4月7日

【伯克利博士论文】统计与优化—统计学习算法的计算保障（附143页PDF全文下载）

【伯克利博士论文】统计与优化—统计学习算法的计算保障（附143页PDF全文下载）

专知

30+阅读 · 2019年1月2日

换个角度看GAN：另一种损失函数

换个角度看GAN：另一种损失函数

机器之心

16+阅读 · 2019年1月1日

数据分析师应该知道的16种回归方法：泊松回归

数据分析师应该知道的16种回归方法：泊松回归

数萃大数据

35+阅读 · 2018年9月13日

详解常见的损失函数

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

入门 | 什么是最大似然估计、最大后验估计以及贝叶斯参数估计

入门 | 什么是最大似然估计、最大后验估计以及贝叶斯参数估计

机器之心

11+阅读 · 2018年4月15日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

概率论之概念解析：用贝叶斯推断进行参数估计

概率论之概念解析：用贝叶斯推断进行参数估计

专知

14+阅读 · 2018年1月8日

高维积分波动率矩阵的估计及其在资产投资中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

大规模参数估计的约束无导数优化信赖域方法

国家自然科学基金

1+阅读 · 2015年12月31日

几类随机指数函数空间的应用

国家自然科学基金

0+阅读 · 2015年12月31日

半参数回归模型中随机误差分布的检验问题

国家自然科学基金

2+阅读 · 2015年12月31日

基于稳健估计方程的复杂纵向数据研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维高频数据下金融资产积分波动率矩阵的统计分析

国家自然科学基金

2+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

一般误差分布下若干半参数模型的复合分位数方法

国家自然科学基金

0+阅读 · 2014年12月31日

基于似然函数的统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

Efficient Parameter Estimation of Truncated Boolean Product Distributions

Arxiv

0+阅读 · 5月2日

Data Distribution Valuation Using Generalized Bayesian Inference

Arxiv

0+阅读 · 4月7日

balnet: Pathwise Estimation of Covariate Balancing Propensity Scores

Arxiv

0+阅读 · 3月27日

Inverse Probability Weighting of Count Exposures in the Presence of Missing Data: A Simulation Study

Arxiv

0+阅读 · 3月24日

A Theory of Nonparametric Covariance Function Estimation for Discretely Observed Data

Arxiv

0+阅读 · 3月24日

Estimation of Multivariate Functional Principal Components from Sparse Functional Data

Arxiv

0+阅读 · 3月20日

Estimation of Functional Principal Components from Sparse Functional Data

Arxiv

0+阅读 · 3月19日

High-dimensional estimation with missing data: Statistical and computational limits

Arxiv

0+阅读 · 3月17日

Low-Complexity and Consistent Graphon Estimation from Multiple Networks

Arxiv

0+阅读 · 3月16日

The Voronoi Spherical CDF for Lattices and Linear Codes: New Bounds for Quantization and Coding

Arxiv

0+阅读 · 2月27日

VIP会员

文章信息

相关主题

最新内容

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

5+阅读 · 今天7:25

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

2+阅读 · 今天6:54

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

1+阅读 · 今天6:52

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

1+阅读 · 今天6:33

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

6+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

5+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

9+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

7+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

8+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

10+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

9+阅读 · 6月25日

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

10+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

10+阅读 · 6月24日

相关VIP内容

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

专知会员服务

30+阅读 · 2024年7月31日

如何用机器学习损失函数？最新《机器学习损失函数》综述，详述其33个损失函数与分类法

如何用机器学习损失函数？最新《机器学习损失函数》综述，详述其33个损失函数与分类法

专知会员服务

70+阅读 · 2023年1月17日

J. Med. Chem.｜TocoDecoy:针对机器学习打分函数训练和测试的无隐藏偏差的数据集构建新方法

J. Med. Chem.｜TocoDecoy:针对机器学习打分函数训练和测试的无隐藏偏差的数据集构建新方法

专知会员服务

15+阅读 · 2022年6月20日

分布外泛化(Out-Of-Distribution Generalization) 综述论文，22页pdf240篇文献

专知会员服务

64+阅读 · 2021年9月2日

和积网络综述论文，Sum-product networks: A survey，24页pdf

和积网络综述论文，Sum-product networks: A survey，24页pdf

专知会员服务

24+阅读 · 2020年4月3日

【独立研究者I-Sheng Yang论文】因果机器学习损失函数（A Loss-Function for Causal Machine-Learning）

【独立研究者I-Sheng Yang论文】因果机器学习损失函数（A Loss-Function for Causal Machine-Learning）

专知会员服务

20+阅读 · 2020年1月7日

【论文推荐】深度学习中贝叶斯不确定性简单基线（A simple baseline for bayesian uncertainty in deep learning）

【论文推荐】深度学习中贝叶斯不确定性简单基线（A simple baseline for bayesian uncertainty in deep learning）

专知会员服务

46+阅读 · 2019年12月25日

【斯坦福大学】面向机器学习的概率和统计要点速览(中文版)《CS 229 - Probabilities and Statistics refresher》by Afshine Amidi, Shervine Amidi

【斯坦福大学】面向机器学习的概率和统计要点速览(中文版)《CS 229 - Probabilities and Statistics refresher》by Afshine Amidi, Shervine Amidi

专知会员服务

48+阅读 · 2019年12月19日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

专知会员服务

35+阅读 · 2019年11月30日

热门VIP内容

开通专知VIP会员享更多权益服务

巡飞弹与反无人机系统——现代战场的两大支柱

《北约数字教官网络发展路径》128页报告

无人机自主控制与人工智能：系统性综述

《打造“黄金舰队”》57页报告

相关资讯

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

专知

174+阅读 · 2019年10月28日

从信息论的角度来理解损失函数

从信息论的角度来理解损失函数

深度学习每日摘要

17+阅读 · 2019年4月7日

【伯克利博士论文】统计与优化—统计学习算法的计算保障（附143页PDF全文下载）

【伯克利博士论文】统计与优化—统计学习算法的计算保障（附143页PDF全文下载）

专知

30+阅读 · 2019年1月2日

换个角度看GAN：另一种损失函数

换个角度看GAN：另一种损失函数

机器之心

16+阅读 · 2019年1月1日

数据分析师应该知道的16种回归方法：泊松回归

数据分析师应该知道的16种回归方法：泊松回归

数萃大数据

35+阅读 · 2018年9月13日

详解常见的损失函数

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

入门 | 什么是最大似然估计、最大后验估计以及贝叶斯参数估计

入门 | 什么是最大似然估计、最大后验估计以及贝叶斯参数估计

机器之心

11+阅读 · 2018年4月15日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

概率论之概念解析：用贝叶斯推断进行参数估计

概率论之概念解析：用贝叶斯推断进行参数估计

专知

14+阅读 · 2018年1月8日

相关论文

Efficient Parameter Estimation of Truncated Boolean Product Distributions

Arxiv

0+阅读 · 5月2日

Data Distribution Valuation Using Generalized Bayesian Inference

Arxiv

0+阅读 · 4月7日

balnet: Pathwise Estimation of Covariate Balancing Propensity Scores

Arxiv

0+阅读 · 3月27日

Inverse Probability Weighting of Count Exposures in the Presence of Missing Data: A Simulation Study

Arxiv

0+阅读 · 3月24日

A Theory of Nonparametric Covariance Function Estimation for Discretely Observed Data

Arxiv

0+阅读 · 3月24日

Estimation of Multivariate Functional Principal Components from Sparse Functional Data

Arxiv

0+阅读 · 3月20日

Estimation of Functional Principal Components from Sparse Functional Data

Arxiv

0+阅读 · 3月19日

High-dimensional estimation with missing data: Statistical and computational limits

Arxiv

0+阅读 · 3月17日

Low-Complexity and Consistent Graphon Estimation from Multiple Networks

Arxiv

0+阅读 · 3月16日

The Voronoi Spherical CDF for Lattices and Linear Codes: New Bounds for Quantization and Coding

Arxiv

0+阅读 · 2月27日

相关基金

高维积分波动率矩阵的估计及其在资产投资中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

大规模参数估计的约束无导数优化信赖域方法

国家自然科学基金

1+阅读 · 2015年12月31日

几类随机指数函数空间的应用

国家自然科学基金

0+阅读 · 2015年12月31日

半参数回归模型中随机误差分布的检验问题

国家自然科学基金

2+阅读 · 2015年12月31日

基于稳健估计方程的复杂纵向数据研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维高频数据下金融资产积分波动率矩阵的统计分析

国家自然科学基金

2+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

一般误差分布下若干半参数模型的复合分位数方法

国家自然科学基金

0+阅读 · 2014年12月31日

基于似然函数的统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员