We propose a method for non-parametric conditional distribution estimation based on partitioning covariate-sorted observations into contiguous bins and using the within-bin empirical CDF as the predictive distribution. Bin boundaries are chosen to minimise the total leave-one-out Continuous Ranked Probability Score (LOO-CRPS), which admits a closed-form cost function with $O(n^2 \log n)$ precomputation and $O(n^2)$ storage; the globally optimal $K$-partition is recovered by a dynamic programme in $O(n^2 K)$ time. Minimisation of within-sample LOO-CRPS turns out to be inappropriate for selecting $K$ as it results in in-sample optimism. We instead select $K$ by $K$-fold cross-validation of test CRPS, which yields a U-shaped criterion with a well-defined minimum. Having selected $K^*$ and fitted the full-data partition, we form two complementary predictive objects: the Venn prediction band and a conformal prediction set based on CRPS as the nonconformity score, which carries a finite-sample marginal coverage guarantee at any prescribed level $\varepsilon$. The conformal prediction is transductive and data-efficient, as all observations are used for both partitioning and p-value calculation, with no need to reserve a hold-out set. On real benchmarks against split-conformal competitors (Gaussian split conformal, CQR, CQR-QRF, and conformalized isotonic distributional regression), the method produces substantially narrower prediction intervals while maintaining near-nominal coverage.


翻译:我们提出一种基于协变量排序观测的分区非参数条件分布估计方法,通过将排序数据划分为连续分箱并利用箱内经验累积分布函数作为预测分布。分箱边界选择旨在最小化总留一连续排序概率得分(LOO-CRPS),该指标具有闭式代价函数,其预计算复杂度为$O(n^2 \log n)$,存储复杂度为$O(n^2)$;通过动态规划算法可在$O(n^2 K)$时间内恢复全局最优$K$分区。研究发现,直接最小化样本内LOO-CRPS不适用于选择$K$,因其会导致样本内乐观偏差。我们转而采用$K$折交叉验证测试CRPS来选取$K$,该准则呈U型特征且具有明确最小值。确定最优分箱数$K^*$并拟合全数据分区后,可构建两种互补预测对象:维恩预测带和基于CRPS非一致性分数的保形预测集,后者能在任意预设水平$\varepsilon$下提供有限样本边际覆盖保证。该保形预测采用转导式且数据高效策略,所有观测值既用于分区也用于p值计算,无需预留保留集。在真实基准测试中,与分裂保形竞争方法(高斯分裂保形、CQR、CQR-QRF及保形等渗分布回归)相比,本方法在保持近名义覆盖率的条件下生成明显更窄的预测区间。

0
下载
关闭预览

相关内容

【博士论文】用于概率程序与生成模型的变分推断
专知会员服务
18+阅读 · 2025年10月27日
【CMU博士论文】最优传输的统计推断
专知会员服务
28+阅读 · 2024年5月29日
专知会员服务
16+阅读 · 2021年5月21日
【NeurIPS 2020】大规模分布式鲁棒优化方法
专知会员服务
26+阅读 · 2020年10月13日
基于R语言进行Box-Cox变换
R语言中文社区
45+阅读 · 2018年11月19日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月20日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
2+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
2+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
3+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
3+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关VIP内容
【博士论文】用于概率程序与生成模型的变分推断
专知会员服务
18+阅读 · 2025年10月27日
【CMU博士论文】最优传输的统计推断
专知会员服务
28+阅读 · 2024年5月29日
专知会员服务
16+阅读 · 2021年5月21日
【NeurIPS 2020】大规模分布式鲁棒优化方法
专知会员服务
26+阅读 · 2020年10月13日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员