Visual and quantitative goodness-of-fit diagnostics are an important tool in the practitioner's toolbox. The need for convincing and reliable diagnostics is particularly clear when fitting extreme value regression models, which are used for extrapolation far beyond the observable range of the response variable, and often evaluated at unobserved covariate values. Despite this, few diagnostics have been developed for extreme value regression models, and those available often suffer in terms of interpretability or scalability on low-dimensional or non-Euclidean covariate domains, often encountered in modern applications. Moreover, existing methods tend to offer a global perspective on model fit; that is, they quantify goodness-of-fit across the entire dataset, without offering insight into regions of the covariate space where the model fit may be poor. We propose two novel visual diagnostics for extreme value regression models: the standardised tail plot and the normalised residual plot. By considering the asymptotic distribution of normalised exceedance probabilities, we show that uncertainty bounds for our plots are approximately independent of the sample size used in their construction. This allows us to propose visual diagnostics which can efficiently and consistently compare goodness-of-fit at both a global and regional level, despite varying sample sizes over regions of the covariate domain. Following a discussion of summary statistics for global and regional goodness-of-fit, we provide two applications of extreme value regression models that illustrate how our diagnostics can be used to perform model comparison (across thousands of candidate models) and provide actionable findings that support model design.


翻译:可视化和定量的拟合优度诊断是实践者工具箱中的重要工具。在拟合并用于超出响应变量可观测范围进行外推、且通常要在未观测协变量值上评估的极值回归模型时,对令人信服且可靠的诊断的需求尤为迫切。尽管如此,针对极值回归模型的诊断方法发展甚少,而现有方法在可解释性或可扩展性方面,对于现代应用中常遇到的低维或非欧几里得协变量域往往表现不佳。此外,现有方法倾向于提供模型拟合的全局视角;即,它们量化整个数据集的拟合优度,却无法洞察协变量空间中模型拟合可能较差的区域。我们为极值回归模型提出了两种新型可视化诊断工具:标准化尾部图和标准化残差图。通过考虑标准化超越概率的渐近分布,我们证明所提图的置信界限在构造时近似独立于所用的样本量。这使得我们能够提出可视化诊断方法,尽管协变量域各区域样本量不同,仍能高效一致地在全局和区域层面比较拟合优度。在讨论用于全局和区域拟合优度的汇总统计量之后,我们提供了两个极值回归模型的应用实例,展示了我们的诊断工具如何用于(在数千个候选模型中进行)模型比较,并提供支持模型设计的可操作结论。

0
下载
关闭预览

相关内容

大模型错因诊断分析
专知会员服务
9+阅读 · 4月9日
【AAAI2022】Diaformer: 采用症状序列生成的方式做自动诊断
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
【PHM算法】PHM算法 | 故障诊断建模方法
产业智能官
68+阅读 · 2020年3月16日
推荐召回算法之深度召回模型串讲
AINLP
22+阅读 · 2019年6月14日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
数据分析师应该知道的16种回归技术:岭回归
数萃大数据
15+阅读 · 2018年8月11日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月10日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
专知会员服务
4+阅读 · 今天7:28
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
8+阅读 · 6月15日
相关VIP内容
大模型错因诊断分析
专知会员服务
9+阅读 · 4月9日
【AAAI2022】Diaformer: 采用症状序列生成的方式做自动诊断
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员