Dirichlet regression models are suitable for compositional data, in which the response variable represents proportions that sum to one. However, there are still no well-established methods for constructing valid prediction sets in this context, especially considering the geometry of the compositional space. In this work, we investigate conformal prediction-based strategies for constructing valid predictive regions in Dirichlet regression models. We evaluate three distinct approaches: a method based on quantile residuals, an approximate construction of highest density regions (HDR), and an adaptation of the approximate HDR using grid-based discretization over the simplex. The performance of the methods was analyzed through simulation studies under different scenarios, varying the model complexity, response dimensionality, and covariate structure. The results indicated that the HDR approximation approach exhibits good robustness in terms of coverage, while the grid discretization proved effective in reducing overcoverage and the area of the prediction region compared to the original method. The quantile method provided larger prediction regions compared to the grid method, while maintaining adequate coverage. The methodologies were also applied to two real datasets: one concerning sleep stages and another on biomass allocation in plants. In both cases, the proposed methods demonstrated practical feasibility and produced coherent interpretations within the compositional space. Finally, we discuss possible extensions of this work


翻译:狄利克雷回归模型适用于组合数据,其中响应变量表示总和为一的比例。然而,在此背景下,尤其是在考虑组合空间几何结构的情况下,目前仍缺乏成熟的构建有效预测集的方法。本研究探讨了基于保形预测的策略,用于在狄利克雷回归模型中构建有效的预测区域。我们评估了三种不同的方法:一种基于分位数残差的方法、一种最高密度区域(HDR)的近似构建方法,以及一种利用单纯形上基于网格的离散化对近似HDR进行的改进方法。通过在不同情景下的模拟研究,分析了这些方法的性能,这些情景变化了模型复杂度、响应变量维度和协变量结构。结果表明,HDR近似方法在覆盖率方面表现出良好的鲁棒性,而网格离散化方法相较于原始方法,在减少过度覆盖和缩小预测区域面积方面被证明是有效的。分位数方法相较于网格方法提供了更大的预测区域,同时保持了足够的覆盖率。这些方法还被应用于两个真实数据集:一个涉及睡眠阶段,另一个关于植物生物量分配。在这两种情况下,所提出的方法都展示了实际可行性,并在组合空间内产生了一致的解释。最后,我们讨论了本工作可能的扩展方向。

0
下载
关闭预览

相关内容

保形时间序列预测入门指南
专知会员服务
15+阅读 · 2025年11月28日
【新书】共形预测的理论基础,179页pdf
专知会员服务
46+阅读 · 2024年11月20日
【干货书】用于数据科学分析和预测的时间序列,529页pdf
专知会员服务
123+阅读 · 2022年10月10日
专知会员服务
16+阅读 · 2021年8月13日
时空序列预测方法综述
专知
22+阅读 · 2020年10月19日
使用LSTM模型预测股价基于Keras
量化投资与机器学习
35+阅读 · 2018年11月17日
数据分析师应该知道的16种回归方法:定序回归
数萃大数据
16+阅读 · 2018年9月9日
手把手教你用Python库Keras做预测(附代码)
数据派THU
14+阅读 · 2018年5月30日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月4日
Arxiv
0+阅读 · 2月3日
VIP会员
相关资讯
时空序列预测方法综述
专知
22+阅读 · 2020年10月19日
使用LSTM模型预测股价基于Keras
量化投资与机器学习
35+阅读 · 2018年11月17日
数据分析师应该知道的16种回归方法:定序回归
数萃大数据
16+阅读 · 2018年9月9日
手把手教你用Python库Keras做预测(附代码)
数据派THU
14+阅读 · 2018年5月30日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员