Multiple Imputation Methods under Extreme Values - 专知论文

会员服务 ·

0

情境 · 缺失数据 · 数据库 · 分析 · 蒙特卡洛模拟 ·

Multiple Imputation Methods under Extreme Values

翻译：极端值情境下的多重插补方法

Enzo Porto Brasil

from arxiv, 36 pages main text, 20 pages appendix, 12 figures, 28 tables. Submitted to the Austrian Journal of Statistics (under review)

Missing data are ubiquitous in empirical databases, yet statistical analyses typically require complete data matrices. Multiple imputation offers a principled solution for filling these gaps. This study evaluates the performance of several multiple imputation methods, both in the presence and absence of extreme values, using the MICE package in R. Through Monte Carlo simulations, we generated incomplete data sets with three variables and assessed each imputation method within regression models. The results indicate that the linear regression based imputation method showed the best overall predictive performance (CV-MSE), whereas the sparse model approach was generally less efficient. Our findings underscore the relevance of extreme values when selecting an imputation strategy and highlight sample size, proportion of missingness, presence of extremes, and the type of fitted model as key determinants of performance. Despite its limitations, the study offers practical recommendations for researchers, stressing the need to examine the missingness mechanism and the occurrence of extreme values before choosing an imputation method.

翻译：缺失数据在实证数据库中普遍存在，而统计分析通常需要完整的数据矩阵。多重插补为填补这些空缺提供了一种基于原则的解决方案。本研究利用R语言中的MICE包，评估了在存在与不存在极端值的情况下多种多重插补方法的性能。通过蒙特卡洛模拟，我们生成了包含三个变量的不完整数据集，并在回归模型中评估了每种插补方法。结果表明，基于线性回归的插补方法展现出最佳的整体预测性能（CV-MSE），而稀疏模型方法通常效率较低。我们的发现强调了在选择插补策略时极端值的重要性，并指出样本量、缺失比例、极端值的存在以及所拟合模型的类型是影响性能的关键决定因素。尽管存在局限性，本研究为研究者提供了实用的建议，强调在选择插补方法前，需要仔细考察缺失机制与极端值的出现情况。

0

相关内容

《不确定条件下优化问题的高效精确与近似算法》MIT最新130页

《不确定条件下优化问题的高效精确与近似算法》MIT最新130页

专知会员服务

31+阅读 · 2025年11月19日

【ICML2025】学习最优多模态信息瓶颈表示

【ICML2025】学习最优多模态信息瓶颈表示

专知会员服务

11+阅读 · 2025年5月28日

【NeurIPS2024】用于缺失值数据集的可解释广义加性模型

【NeurIPS2024】用于缺失值数据集的可解释广义加性模型

专知会员服务

18+阅读 · 2024年12月7日

如何处理模态缺失？首篇《缺失模态的深度多模态学习》全面综述

如何处理模态缺失？首篇《缺失模态的深度多模态学习》全面综述

专知会员服务

31+阅读 · 2024年9月13日

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

【牛津大学博士论文】深度多任务学习的极简主义方法，229页pdf

【牛津大学博士论文】深度多任务学习的极简主义方法，229页pdf

专知会员服务

43+阅读 · 2023年6月12日

【ICML2022】几何多模态对比表示学习

【ICML2022】几何多模态对比表示学习

专知会员服务

45+阅读 · 2022年7月17日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

多模态学习方法综述

专知会员服务

236+阅读 · 2020年5月6日

【论文|CMU】用于多模序列学习的因数分解多模态变压器，Factorized Multimodal Transformer for Multimodal Sequential Learning

【论文|CMU】用于多模序列学习的因数分解多模态变压器，Factorized Multimodal Transformer for Multimodal Sequential Learning

专知会员服务

23+阅读 · 2019年11月26日

【CVPR2023】探索和利用不确定性的不完整多视角分类

【CVPR2023】探索和利用不确定性的不完整多视角分类

专知

42+阅读 · 2023年4月13日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

人工智能顶刊TPAMI2019最新《多模态机器学习综述》

人工智能顶刊TPAMI2019最新《多模态机器学习综述》

人工智能学家

29+阅读 · 2019年1月19日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

开放知识图谱

12+阅读 · 2018年12月13日

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

极市平台

16+阅读 · 2018年1月20日

重复数据删除存储系统的可靠性关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

不可忽略缺失机制下的广义矩方法和调整经验似然方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

低秩张量补全问题的算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

三类多尺度问题的多尺度算法

国家自然科学基金

1+阅读 · 2015年12月31日

多输入-多输出网络量化系统的分析与综合研究

国家自然科学基金

0+阅读 · 2015年12月31日

备份系统中基于语义挖掘的多层次冗余消除关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

多源基因表达数据横向整合的统计方法比较

国家自然科学基金

0+阅读 · 2015年12月31日

多重比较中控制FDR的有效检验方法

国家自然科学基金

0+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

Predictive Uncertainty in Short-Term PV Forecasting under Missing Data: A Multiple Imputation Approach

Predictive Uncertainty in Short-Term PV Forecasting under Missing Data: A Multiple Imputation Approach

Arxiv

0+阅读 · 3月16日

Synthetic data for ratemaking: imputation-based methods vs adversarial networks and autoencoders

Arxiv

0+阅读 · 3月8日

T1: One-to-One Channel-Head Binding for Multivariate Time-Series Imputation

Arxiv

0+阅读 · 2月24日

MIBoost: A Gradient Boosting Algorithm for Variable Selection After Multiple Imputation

Arxiv

0+阅读 · 2月23日

TabImpute: Universal Zero-Shot Imputation for Tabular Data

Arxiv

0+阅读 · 2月17日

Two-sample Testing with Block-wise Missingness in Multi-source Data

Arxiv

0+阅读 · 2月9日

On the complexity of Multipacking

Arxiv

0+阅读 · 2月8日

Multipacking on graphs and Euclidean metric space

Arxiv

0+阅读 · 2月8日

Revisiting Multivariate Time Series Forecasting with Missing Values

Arxiv

0+阅读 · 1月30日

A VAE Approach to Sample Multivariate Extremes

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

蒙特卡洛模拟

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

8+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

6+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

20+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

《不确定条件下优化问题的高效精确与近似算法》MIT最新130页

《不确定条件下优化问题的高效精确与近似算法》MIT最新130页

专知会员服务

31+阅读 · 2025年11月19日

【ICML2025】学习最优多模态信息瓶颈表示

【ICML2025】学习最优多模态信息瓶颈表示

专知会员服务

11+阅读 · 2025年5月28日

【NeurIPS2024】用于缺失值数据集的可解释广义加性模型

【NeurIPS2024】用于缺失值数据集的可解释广义加性模型

专知会员服务

18+阅读 · 2024年12月7日

如何处理模态缺失？首篇《缺失模态的深度多模态学习》全面综述

如何处理模态缺失？首篇《缺失模态的深度多模态学习》全面综述

专知会员服务

31+阅读 · 2024年9月13日

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

【牛津大学博士论文】深度多任务学习的极简主义方法，229页pdf

【牛津大学博士论文】深度多任务学习的极简主义方法，229页pdf

专知会员服务

43+阅读 · 2023年6月12日

【ICML2022】几何多模态对比表示学习

【ICML2022】几何多模态对比表示学习

专知会员服务

45+阅读 · 2022年7月17日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

多模态学习方法综述

专知会员服务

236+阅读 · 2020年5月6日

【论文|CMU】用于多模序列学习的因数分解多模态变压器，Factorized Multimodal Transformer for Multimodal Sequential Learning

【论文|CMU】用于多模序列学习的因数分解多模态变压器，Factorized Multimodal Transformer for Multimodal Sequential Learning

专知会员服务

23+阅读 · 2019年11月26日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

【CVPR2023】探索和利用不确定性的不完整多视角分类

【CVPR2023】探索和利用不确定性的不完整多视角分类

专知

42+阅读 · 2023年4月13日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

人工智能顶刊TPAMI2019最新《多模态机器学习综述》

人工智能顶刊TPAMI2019最新《多模态机器学习综述》

人工智能学家

29+阅读 · 2019年1月19日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

开放知识图谱

12+阅读 · 2018年12月13日

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

极市平台

16+阅读 · 2018年1月20日

相关论文

Predictive Uncertainty in Short-Term PV Forecasting under Missing Data: A Multiple Imputation Approach

Predictive Uncertainty in Short-Term PV Forecasting under Missing Data: A Multiple Imputation Approach

Arxiv

0+阅读 · 3月16日

Synthetic data for ratemaking: imputation-based methods vs adversarial networks and autoencoders

Arxiv

0+阅读 · 3月8日

T1: One-to-One Channel-Head Binding for Multivariate Time-Series Imputation

Arxiv

0+阅读 · 2月24日

MIBoost: A Gradient Boosting Algorithm for Variable Selection After Multiple Imputation

Arxiv

0+阅读 · 2月23日

TabImpute: Universal Zero-Shot Imputation for Tabular Data

Arxiv

0+阅读 · 2月17日

Two-sample Testing with Block-wise Missingness in Multi-source Data

Arxiv

0+阅读 · 2月9日

On the complexity of Multipacking

Arxiv

0+阅读 · 2月8日

Multipacking on graphs and Euclidean metric space

Arxiv

0+阅读 · 2月8日

Revisiting Multivariate Time Series Forecasting with Missing Values

Arxiv

0+阅读 · 1月30日

A VAE Approach to Sample Multivariate Extremes

Arxiv

0+阅读 · 1月30日

相关基金

重复数据删除存储系统的可靠性关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

不可忽略缺失机制下的广义矩方法和调整经验似然方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

低秩张量补全问题的算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

三类多尺度问题的多尺度算法

国家自然科学基金

1+阅读 · 2015年12月31日

多输入-多输出网络量化系统的分析与综合研究

国家自然科学基金

0+阅读 · 2015年12月31日

备份系统中基于语义挖掘的多层次冗余消除关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

多源基因表达数据横向整合的统计方法比较

国家自然科学基金

0+阅读 · 2015年12月31日

多重比较中控制FDR的有效检验方法

国家自然科学基金

0+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员