Small sample sizes pose significant challenges in regression analysis, often leading to violations of classical assumptions such as normality, homoscedasticity, and independence of residuals. These violations compromise parameter estimation accuracy, reduce statistical power, and limit the generalizability of findings. This study introduces the Gaussian Process-based Modified Extreme Value Theorem (GP-MEVT) method, a novel hybrid data augmentation approach that combines Gaussian Process with Extreme Value Theory to address these limitations. The GP-MEVT method generates augmented observations that extend the predictor space beyond the observed range while preserving the underlying linear structure and introducing controlled variability based on residual variation, through comprehensive simulation studies across three variance scenarios (sigma = 2, 5, 8) and sample sizes (n = 10, 15, 20). Here, we demonstrate that GP-MEVT achieves a higher rate of assumption satisfaction, substantially outperforming standard bootstrap and bootstrap with noise methods. The proposed method also exhibits reasonable parameter estimation accuracy, with intercept and slope estimates consistently closer to true parameter values, and maintains competitive or superior model fitting performance as measured by root mean square error. Application to a real-world dataset confirms these advantages, with GP-MEVT achieving a 67.1% assumption satisfaction rate compared to 17.3% and 21.2% for bootstrap alternatives. These findings establish GP-MEVT as a robust and reliable framework for fitting linear regression models to small datasets, offering practitioners a principled approach to statistical inference when sample size limitations are unavoidable.


翻译:小样本量给回归分析带来严峻挑战,常导致经典假设(如正态性、方差齐性和残差独立性)难以满足。这些违反假设的情况会损害参数估计精度,降低统计检验力,并限制结论的泛化能力。本研究提出基于高斯过程的改进极值定理(GP-MEVT)方法,这是一种将高斯过程与极值理论相结合的新型混合数据增强技术。通过生成预测变量空间超越观测范围的增强观测值,GP-MEVT方法在保持基础线性结构的同时,基于残差变异引入受控变异性。我们在三种方差场景(sigma=2, 5, 8)和样本量(n=10, 15, 20)下开展系统模拟研究,证实GP-MEVT方法能显著提高假设满足率,明显优于标准自助法和加噪自助法。该方法展现出合理的参数估计精度,截距和斜率估计值持续接近真实参数值,并且在均方根误差指标下保持具有竞争力乃至更优的模型拟合性能。真实数据集的应用进一步验证了这些优势:GP-MEVT方法的假设满足率达到67.1%,而两种自助法分别为17.3%和21.2%。这些发现确立了GP-MEVT作为小样本线性回归模型稳健可靠框架的地位,为受样本量限制的统计推断提供了原则性解决方案。

0
下载
关闭预览

相关内容

《面向基础模型的高效参数微调》综述
专知会员服务
34+阅读 · 2025年1月24日
基于图神经网络的小样本学习方法研究进展
专知会员服务
44+阅读 · 2023年11月18日
最新《高斯过程回归简明教程》,19页pdf
专知会员服务
73+阅读 · 2020年9月30日
数据分析师应该知道的16种回归方法:负二项回归
数萃大数据
74+阅读 · 2018年9月16日
数据分析师应该知道的16种回归方法:泊松回归
数萃大数据
35+阅读 · 2018年9月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员