Bias-Reduced Estimation of Finite Mixtures: An Application to Latent Group Structures in Panel Data - 专知论文

会员服务 ·

0

混合 · 混合模型 · 样本 · 有限混合模型 · 极大似然估计 ·

Bias-Reduced Estimation of Finite Mixtures: An Application to Latent Group Structures in Panel Data

翻译：有限混合模型的偏误缩减估计：在面板数据潜在群组结构中的应用

Raphaël Langevin

Finite mixture models are widely used in econometric analyses to capture unobserved heterogeneity. This paper shows that maximum likelihood estimation of finite mixtures of parametric densities can suffer from substantial finite-sample bias in all parameters under mild regularity conditions. The bias arises from the influence of outliers in component densities with unbounded or large support and increases with the degree of overlap among mixture components. I show that maximizing the classification-mixture likelihood function, equipped with a consistent classifier, yields parameter estimates that are less biased than those obtained by standard maximum likelihood estimation (MLE). I then derive the asymptotic distribution of the resulting estimator and provide conditions under which oracle efficiency is achieved. Monte Carlo simulations show that conventional mixture MLE exhibits pronounced finite-sample bias, which diminishes as the sample size or the statistical distance between component densities tends to infinity. The simulations further show that the proposed estimation strategy generally outperforms standard MLE in finite samples in terms of both bias and mean squared errors under relatively weak assumptions. An empirical application to latent group panel structures using health administrative data shows that the proposed approach reduces out-of-sample prediction error by approximately 17.6% relative to the best results obtained from standard MLE procedures.

翻译：有限混合模型在计量经济学分析中被广泛用于捕捉未观测到的异质性。本文证明，在温和的正则性条件下，参数密度有限混合模型的最大似然估计在所有参数上均可能遭受显著的有限样本偏误。该偏误源于具有无界或较大支撑集的组分密度中异常值的影响，并随着混合组分间重叠程度的增加而加剧。本文表明，在配备一致分类器的条件下，最大化分类-混合似然函数所得的参数估计量，其偏误小于标准最大似然估计（MLE）所得结果。随后，我推导了该估计量的渐近分布，并给出了达到Oracle效率的条件。蒙特卡洛模拟显示，传统混合模型MLE存在明显的有限样本偏误，该偏误会随样本量或组分密度间统计距离趋于无穷大而逐渐消失。模拟结果进一步表明，在相对较弱的假设下，所提出的估计策略在有限样本中通常能在偏误和均方误差两方面均优于标准MLE。通过使用健康管理数据对潜在群组面板结构进行的实证应用表明，相较于标准MLE程序获得的最佳结果，所提方法将样本外预测误差降低了约17.6%。

0

相关内容

【NeurIPS2025】MIDAS：一种基于错配的用于失衡多模态学习的数据增强策略

【NeurIPS2025】MIDAS：一种基于错配的用于失衡多模态学习的数据增强策略

专知会员服务

10+阅读 · 2025年10月1日

【博士论文】利用图结构加速稀疏计算

【博士论文】利用图结构加速稀疏计算

专知会员服务

18+阅读 · 2025年3月6日

【NeurIPS2024】用于缺失值数据集的可解释广义加性模型

【NeurIPS2024】用于缺失值数据集的可解释广义加性模型

专知会员服务

18+阅读 · 2024年12月7日

大型语言模型在预测和异常检测中的应用综述

大型语言模型在预测和异常检测中的应用综述

专知会员服务

70+阅读 · 2024年2月19日

【PSL博士论文】论数据受限环境下机器学习的归纳偏差，112页pdf

【PSL博士论文】论数据受限环境下机器学习的归纳偏差，112页pdf

专知会员服务

40+阅读 · 2023年2月22日

《通过最优传输失配措施进行鲁棒性贝叶斯推断：应用和算法》麻省理工学院2022最新博士论文

《通过最优传输失配措施进行鲁棒性贝叶斯推断：应用和算法》麻省理工学院2022最新博士论文

专知会员服务

15+阅读 · 2022年6月21日

【博士论文】机器学习中的熵最优传输:在分布回归、重心估计和概率匹配中的应用，209页pdf

【博士论文】机器学习中的熵最优传输:在分布回归、重心估计和概率匹配中的应用，209页pdf

专知会员服务

37+阅读 · 2022年5月23日

【AI+军事】附论文《处理混合冲突中的不确定性：情报分析中不确定性量化的新方法和模型》

【AI+军事】附论文《处理混合冲突中的不确定性：情报分析中不确定性量化的新方法和模型》

专知会员服务

66+阅读 · 2022年5月2日

【Nature Machine Intelligence】机器学习模型能否克服有偏置的数据集？哈佛、MIT专家为你解读

【Nature Machine Intelligence】机器学习模型能否克服有偏置的数据集？哈佛、MIT专家为你解读

专知会员服务

31+阅读 · 2022年3月11日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

专知

23+阅读 · 2021年2月16日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

机器学习中如何处理不平衡数据？

机器学习中如何处理不平衡数据？

机器之心

13+阅读 · 2019年2月17日

数据分析师应该知道的16种回归技术：偏最小二乘回归

数据分析师应该知道的16种回归技术：偏最小二乘回归

数萃大数据

14+阅读 · 2018年8月29日

详解常见的损失函数

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

FCS 论坛 | 孟德宇：误差建模原理

FCS 论坛 | 孟德宇：误差建模原理

FCS

15+阅读 · 2017年8月17日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

含非正态及缺失数据的结构方程模型分析

国家自然科学基金

0+阅读 · 2015年12月31日

有限元先验与后验误差估计中常数的精细估计及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

整数关系探测的误差可控算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

一般误差分布下若干半参数模型的复合分位数方法

国家自然科学基金

0+阅读 · 2014年12月31日

半参数面板数据交互固定效应模型的理论与应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

Bias-Reduced Estimation of Finite Mixtures: An Application to Latent Group Structures in Panel Data

Arxiv

0+阅读 · 2月3日

Transcendental Regularization of Finite Mixtures:Theoretical Guarantees and Practical Limitations

Arxiv

0+阅读 · 2月3日

Attenuation Bias with Latent Predictors

Arxiv

0+阅读 · 2月2日

Assessing the impact of variance heterogeneity and misspecification in mixed-effects location-scale models

Arxiv

0+阅读 · 1月23日

Robust semi-parametric mixtures of linear experts using the contaminated Gaussian distribution

Arxiv

0+阅读 · 1月18日

Spatial Covariance Constraints for Gaussian Mixture Models

Arxiv

0+阅读 · 1月12日

Empirical Bayes Estimation in Heterogeneous Coefficient Panel Models

Arxiv

0+阅读 · 1月11日

Nonparametric contaminated Gaussian mixture of regressions

Arxiv

0+阅读 · 1月10日

Estimating Causal Effects in Gaussian Linear SCMs with Finite Data

Arxiv

0+阅读 · 1月8日

Exact finite mixture representations for species sampling processes

Arxiv

0+阅读 · 2025年12月30日

VIP会员

文章信息

相关主题

有限混合模型

极大似然估计

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

0+阅读 · 今天13:13

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

0+阅读 · 今天13:08

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

3+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

5+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

8+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

17+阅读 · 4月22日

相关VIP内容

【NeurIPS2025】MIDAS：一种基于错配的用于失衡多模态学习的数据增强策略

【NeurIPS2025】MIDAS：一种基于错配的用于失衡多模态学习的数据增强策略

专知会员服务

10+阅读 · 2025年10月1日

【博士论文】利用图结构加速稀疏计算

【博士论文】利用图结构加速稀疏计算

专知会员服务

18+阅读 · 2025年3月6日

【NeurIPS2024】用于缺失值数据集的可解释广义加性模型

【NeurIPS2024】用于缺失值数据集的可解释广义加性模型

专知会员服务

18+阅读 · 2024年12月7日

大型语言模型在预测和异常检测中的应用综述

大型语言模型在预测和异常检测中的应用综述

专知会员服务

70+阅读 · 2024年2月19日

【PSL博士论文】论数据受限环境下机器学习的归纳偏差，112页pdf

【PSL博士论文】论数据受限环境下机器学习的归纳偏差，112页pdf

专知会员服务

40+阅读 · 2023年2月22日

《通过最优传输失配措施进行鲁棒性贝叶斯推断：应用和算法》麻省理工学院2022最新博士论文

《通过最优传输失配措施进行鲁棒性贝叶斯推断：应用和算法》麻省理工学院2022最新博士论文

专知会员服务

15+阅读 · 2022年6月21日

【博士论文】机器学习中的熵最优传输:在分布回归、重心估计和概率匹配中的应用，209页pdf

【博士论文】机器学习中的熵最优传输:在分布回归、重心估计和概率匹配中的应用，209页pdf

专知会员服务

37+阅读 · 2022年5月23日

【AI+军事】附论文《处理混合冲突中的不确定性：情报分析中不确定性量化的新方法和模型》

【AI+军事】附论文《处理混合冲突中的不确定性：情报分析中不确定性量化的新方法和模型》

专知会员服务

66+阅读 · 2022年5月2日

【Nature Machine Intelligence】机器学习模型能否克服有偏置的数据集？哈佛、MIT专家为你解读

【Nature Machine Intelligence】机器学习模型能否克服有偏置的数据集？哈佛、MIT专家为你解读

专知会员服务

31+阅读 · 2022年3月11日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

专知

23+阅读 · 2021年2月16日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

机器学习中如何处理不平衡数据？

机器学习中如何处理不平衡数据？

机器之心

13+阅读 · 2019年2月17日

数据分析师应该知道的16种回归技术：偏最小二乘回归

数据分析师应该知道的16种回归技术：偏最小二乘回归

数萃大数据

14+阅读 · 2018年8月29日

详解常见的损失函数

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

FCS 论坛 | 孟德宇：误差建模原理

FCS 论坛 | 孟德宇：误差建模原理

FCS

15+阅读 · 2017年8月17日

相关论文

Bias-Reduced Estimation of Finite Mixtures: An Application to Latent Group Structures in Panel Data

Arxiv

0+阅读 · 2月3日

Transcendental Regularization of Finite Mixtures:Theoretical Guarantees and Practical Limitations

Arxiv

0+阅读 · 2月3日

Attenuation Bias with Latent Predictors

Arxiv

0+阅读 · 2月2日

Assessing the impact of variance heterogeneity and misspecification in mixed-effects location-scale models

Arxiv

0+阅读 · 1月23日

Robust semi-parametric mixtures of linear experts using the contaminated Gaussian distribution

Arxiv

0+阅读 · 1月18日

Spatial Covariance Constraints for Gaussian Mixture Models

Arxiv

0+阅读 · 1月12日

Empirical Bayes Estimation in Heterogeneous Coefficient Panel Models

Arxiv

0+阅读 · 1月11日

Nonparametric contaminated Gaussian mixture of regressions

Arxiv

0+阅读 · 1月10日

Estimating Causal Effects in Gaussian Linear SCMs with Finite Data

Arxiv

0+阅读 · 1月8日

Exact finite mixture representations for species sampling processes

Arxiv

0+阅读 · 2025年12月30日

相关基金

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

含非正态及缺失数据的结构方程模型分析

国家自然科学基金

0+阅读 · 2015年12月31日

有限元先验与后验误差估计中常数的精细估计及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

整数关系探测的误差可控算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

一般误差分布下若干半参数模型的复合分位数方法

国家自然科学基金

0+阅读 · 2014年12月31日

半参数面板数据交互固定效应模型的理论与应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员