Sequential model confidence sets - 专知论文

会员服务 ·

0

序列 · 序列模型 · 最优 · 统计模型 · 模型集 ·

Sequential model confidence sets

翻译：序列模型置信集

Sebastian Arnold,Georgios Gavrilopoulos,Benedikt Schulz,Johanna Ziegel

In most prediction and estimation situations, scientists consider various statistical models for the same problem, and naturally want to select amongst the best. Hansen et al. (2011) provide a powerful solution to this problem by the so-called model confidence set, a subset of the original set of available models that contains the best models with a given level of confidence. Importantly, model confidence sets respect the underlying selection uncertainty by being flexible in size. However, they presuppose a fixed sample size which stands in contrast to the fact that model selection and forecast evaluation are inherently sequential tasks where we successively collect new data and where the decision to continue or conclude a study may depend on the previous outcomes. In this article, we extend model confidence sets sequentially over time by relying on sequential testing methods. Recently, e-processes and confidence sequences have been introduced as new, safe methods for assessing statistical evidence. Sequential model confidence sets allow to continuously monitor the models' performances and come with time-uniform, nonasymptotic coverage guarantees.

翻译：在多数预测与估计场景中，研究者常针对同一问题考量多种统计模型，并自然期望从中筛选出最优模型。Hansen等人（2011）通过提出所谓模型置信集为此问题提供了强有力的解决方案——该集合作为原始可用模型集的子集，能以给定置信水平包含最优模型。值得注意的是，模型置信集通过规模可变性体现了潜在的选择不确定性。然而，该方法预设了固定样本量，这与模型选择及预测评估本质上属于序列任务的特性相悖：在这些任务中，我们持续收集新数据，且是否继续或终止研究的决策常取决于前期结果。本文借助序列检验方法，将模型置信集扩展为随时间推进的序列化框架。近期，e-过程与置信序列作为评估统计证据的新型安全方法被提出。序列模型置信集能够持续监测模型性能，并提供时间均匀、非渐近的覆盖保证。

0

相关内容

数学上，序列是被排成一列的对象（或事件）；这样每个元素不是在其他元素之前，就是在其他元素之后。这里，元素之间的顺序非常重要。

决策智能中的时间序列预测大模型

决策智能中的时间序列预测大模型

专知会员服务

34+阅读 · 1月7日

时间序列大模型综述

时间序列大模型综述

专知会员服务

46+阅读 · 2025年4月8日

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

专知会员服务

34+阅读 · 2024年1月26日

大模型如何决策？上交大等最新《面向序列决策的大序列模型》综述

大模型如何决策？上交大等最新《面向序列决策的大序列模型》综述

专知会员服务

117+阅读 · 2023年6月28日

神经模型中组合求解器和离散分布的集成，77页ppt

神经模型中组合求解器和离散分布的集成，77页ppt

专知会员服务

23+阅读 · 2022年12月30日

【AAAI2023】学习为可解释序列数据建模选择原型部件

【AAAI2023】学习为可解释序列数据建模选择原型部件

专知会员服务

20+阅读 · 2022年12月13日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

【Nature Machine Intelligence】机器学习模型能否克服有偏置的数据集？哈佛、MIT专家为你解读

【Nature Machine Intelligence】机器学习模型能否克服有偏置的数据集？哈佛、MIT专家为你解读

专知会员服务

31+阅读 · 2022年3月11日

【博士论文】具有关系和上下文信息的因子分解模型，178页pdf

专知会员服务

35+阅读 · 2021年9月13日

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器！

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器！

AINLP

10+阅读 · 2021年2月6日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

从Seq2seq到Attention模型到Self Attention（一）

从Seq2seq到Attention模型到Self Attention（一）

量化投资与机器学习

76+阅读 · 2018年10月8日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

【论文读书笔记】个性化序列推荐：卷积序列嵌入方法

【论文读书笔记】个性化序列推荐：卷积序列嵌入方法

专知

17+阅读 · 2018年2月8日

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

科技创新与创业

17+阅读 · 2017年11月17日

回归预测&时间序列预测

回归预测&时间序列预测

GBASE数据工程部数据团队

44+阅读 · 2017年5月17日

生物序列大数据集模体发现算法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

基于信息密度的广义不确定直觉模糊集成算子及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

Conformal Prediction Sets for Instance Segmentation

Arxiv

0+阅读 · 2月10日

Evaluating and Calibrating LLM Confidence on Questions with Multiple Correct Answers

Arxiv

0+阅读 · 2月8日

Optimal Decision-Making Based on Prediction Sets

Arxiv

0+阅读 · 2月3日

Making Foundation Models Probabilistic via Singular Value Ensembles

Arxiv

0+阅读 · 1月29日

Anytime-Valid Quantum Tomography via Confidence Sequences

Arxiv

0+阅读 · 1月28日

Confidence intervals for forced alignment boundaries using model ensembles

Arxiv

0+阅读 · 1月28日

A Context-Aware Dual-Metric Framework for Confidence Estimation in Large Language Models

Arxiv

0+阅读 · 1月27日

Exact Minimum-Volume Confidence Set Intersection for Multinomial Outcomes

Arxiv

0+阅读 · 1月26日

Tighter confidence intervals for quantiles of heterogeneous data

Arxiv

0+阅读 · 1月24日

Policy Learning with Confidence

Arxiv

0+阅读 · 1月18日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

0+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

2+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

5+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

6+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

9+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

9+阅读 · 6月17日

相关VIP内容

决策智能中的时间序列预测大模型

决策智能中的时间序列预测大模型

专知会员服务

34+阅读 · 1月7日

时间序列大模型综述

时间序列大模型综述

专知会员服务

46+阅读 · 2025年4月8日

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

专知会员服务

34+阅读 · 2024年1月26日

大模型如何决策？上交大等最新《面向序列决策的大序列模型》综述

大模型如何决策？上交大等最新《面向序列决策的大序列模型》综述

专知会员服务

117+阅读 · 2023年6月28日

神经模型中组合求解器和离散分布的集成，77页ppt

神经模型中组合求解器和离散分布的集成，77页ppt

专知会员服务

23+阅读 · 2022年12月30日

【AAAI2023】学习为可解释序列数据建模选择原型部件

【AAAI2023】学习为可解释序列数据建模选择原型部件

专知会员服务

20+阅读 · 2022年12月13日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

【Nature Machine Intelligence】机器学习模型能否克服有偏置的数据集？哈佛、MIT专家为你解读

【Nature Machine Intelligence】机器学习模型能否克服有偏置的数据集？哈佛、MIT专家为你解读

专知会员服务

31+阅读 · 2022年3月11日

【博士论文】具有关系和上下文信息的因子分解模型，178页pdf

专知会员服务

35+阅读 · 2021年9月13日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器！

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器！

AINLP

10+阅读 · 2021年2月6日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

从Seq2seq到Attention模型到Self Attention（一）

从Seq2seq到Attention模型到Self Attention（一）

量化投资与机器学习

76+阅读 · 2018年10月8日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

【论文读书笔记】个性化序列推荐：卷积序列嵌入方法

【论文读书笔记】个性化序列推荐：卷积序列嵌入方法

专知

17+阅读 · 2018年2月8日

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

科技创新与创业

17+阅读 · 2017年11月17日

回归预测&时间序列预测

回归预测&时间序列预测

GBASE数据工程部数据团队

44+阅读 · 2017年5月17日

相关论文

Conformal Prediction Sets for Instance Segmentation

Arxiv

0+阅读 · 2月10日

Evaluating and Calibrating LLM Confidence on Questions with Multiple Correct Answers

Arxiv

0+阅读 · 2月8日

Optimal Decision-Making Based on Prediction Sets

Arxiv

0+阅读 · 2月3日

Making Foundation Models Probabilistic via Singular Value Ensembles

Arxiv

0+阅读 · 1月29日

Anytime-Valid Quantum Tomography via Confidence Sequences

Arxiv

0+阅读 · 1月28日

Confidence intervals for forced alignment boundaries using model ensembles

Arxiv

0+阅读 · 1月28日

A Context-Aware Dual-Metric Framework for Confidence Estimation in Large Language Models

Arxiv

0+阅读 · 1月27日

Exact Minimum-Volume Confidence Set Intersection for Multinomial Outcomes

Arxiv

0+阅读 · 1月26日

Tighter confidence intervals for quantiles of heterogeneous data

Arxiv

0+阅读 · 1月24日

Policy Learning with Confidence

Arxiv

0+阅读 · 1月18日

相关基金

生物序列大数据集模体发现算法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

基于信息密度的广义不确定直觉模糊集成算子及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员