Irregular errors such as heteroscedasticity and nonnormality remain major challenges in linear modeling. These issues often lead to biased inference and unreliable measures of uncertainty. Traditional remedies, such as log transformations, robust standard errors, or weighted least squares, only partially address the problem and may fail when heteroscedasticity interacts with skewness or nonlinear mean patterns. To address this, we propose a two-stage cumulative distribution function-based beta regression framework. The response is first transformed using an empirical distribution function and modeled with a flexible beta distribution, then mapped back to the original scale via the empirical quantile function. Because the beta distribution links variance directly to its mean and precision, heteroscedasticity and nonnormality are handled naturally, without requiring ad hoc variance assumptions or weighting schemes. A comprehensive Monte Carlo simulation study evaluates the proposed method against other methods such as weighted least squares. The results show that the cumulative distribution function-based beta method outperforms traditional competitors. By directly modeling the full conditional distribution, it offers reliable inference, calibrated prediction even under extreme assumption violations, and meaningful interpretation of effects through percentile shifts.


翻译:异方差性和非正态性等不规则误差仍是线性建模中的主要挑战。这些问题常导致推断偏差和不确定性度量不可靠。传统解决方法(如对数变换、稳健标准误或加权最小二乘法)仅能部分解决问题,且当异方差性与偏度或非线性均值模式相互作用时可能失效。为此,我们提出一种基于累积分布函数的两阶段贝塔回归框架:首先使用经验分布函数对响应变量进行变换,并通过灵活贝塔分布建模,随后通过经验分位数函数映射回原始尺度。由于贝塔分布将方差直接与其均值和精度参数关联,异方差性和非正态性能被自然处理,无需特殊方差假设或加权方案。通过全面的蒙特卡洛模拟研究,将所提方法与加权最小二乘法等方法进行比较。结果表明,基于累积分布函数的贝塔方法优于传统方法。通过对完整条件分布的直接建模,该方法能提供可靠的统计推断、即使在极端假设违反情况下仍具有校准预测能力,并能通过百分位数偏移对效应进行有意义的解释。

0
下载
关闭预览

相关内容

不平衡数据学习的全面综述
专知会员服务
44+阅读 · 2025年2月15日
【CMU博士论文】分布偏移下的不确定性量化,226页pdf
专知会员服务
31+阅读 · 2023年9月30日
专知会员服务
37+阅读 · 2021年6月6日
一文读懂线性回归、岭回归和Lasso回归
CSDN
34+阅读 · 2019年10月13日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
数据分析师应该知道的16种回归方法:负二项回归
数萃大数据
74+阅读 · 2018年9月16日
数据分析师应该知道的16种回归方法:泊松回归
数萃大数据
35+阅读 · 2018年9月13日
数据分析师应该知道的16种回归技术:岭回归
数萃大数据
15+阅读 · 2018年8月11日
数据分析师应该知道的16种回归技术:分位数回归
数萃大数据
29+阅读 · 2018年8月8日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
8+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
19+阅读 · 4月29日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
11+阅读 · 4月28日
相关VIP内容
不平衡数据学习的全面综述
专知会员服务
44+阅读 · 2025年2月15日
【CMU博士论文】分布偏移下的不确定性量化,226页pdf
专知会员服务
31+阅读 · 2023年9月30日
专知会员服务
37+阅读 · 2021年6月6日
相关资讯
一文读懂线性回归、岭回归和Lasso回归
CSDN
34+阅读 · 2019年10月13日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
数据分析师应该知道的16种回归方法:负二项回归
数萃大数据
74+阅读 · 2018年9月16日
数据分析师应该知道的16种回归方法:泊松回归
数萃大数据
35+阅读 · 2018年9月13日
数据分析师应该知道的16种回归技术:岭回归
数萃大数据
15+阅读 · 2018年8月11日
数据分析师应该知道的16种回归技术:分位数回归
数萃大数据
29+阅读 · 2018年8月8日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员