Anytime-valid Optimal Policy Identification - 专知论文

会员服务 ·

0

最优 · 最优策略 · 识别 · 样本 · 分析 ·

Anytime-valid Optimal Policy Identification

翻译：任意时间有效的最优策略识别

from arxiv, 15 pages, 3 figures

We develop an anytime-valid framework for optimal policy identification from logged contextual bandit data. In many applied settings, the analyst wants to select the optimal policy from a candidate policy class $Π$, but data are generated by an externally determined logging policy that they do not control. The analyst may also wish to monitor evidence continuously, stopping once the optimal policy is clear rather than committing to a fixed sample size in advance. This paper addresses these challenges by constructing a time-indexed set $S_t$ that retains the true optimal policy set uniformly over time with high probability. The resulting procedure allows the analyst to monitor policy values, eliminate clearly suboptimal policies, and stop at data-dependent times without invalidating inference. When the optimal policy is unique, we define a stopping time for its identification and derive a sample-complexity bound scaling as $O\!\left(\frac{\log |Π|+\log\log(1/Δ_{\min})}{Δ_{\min}^2}\right)$, where $Δ_{\min}$ is the gap between the best and second-best policy values. Simulations demonstrate that the anytime-valid approach can yield substantial sample savings relative to fixed-$N$ designs. An application to a large adaptive experiment on reducing misinformation online illustrates how the method provides a dynamic view as evidence on the optimal policy accumulates.

翻译：我们针对基于记录的上下文多臂赌博机数据提出了一种任意时间有效的最优策略识别框架。在许多应用场景中，分析师希望从候选策略类 $Π$ 中选择最优策略，但数据由不受其控制的外部记录的投放策略生成。分析师可能还希望持续监控证据，一旦最优策略明确便停止，而非预先承诺固定样本量。本文通过构建一个随时间索引的集合 $S_t$ 来解决这些挑战，该集合以高概率随时间一致地保留真实的最优策略集。由此产生的程序允许分析师监控策略值、排除明显次优策略，并在依赖于数据的时间点停止而不影响推断的有效性。当最优策略唯一时，我们定义了其识别的停止时间，并推导出样本复杂度界为 $O\!\left(\frac{\log |Π|+\log\log(1/Δ_{\min})}{Δ_{\min}^2}\right)$，其中 $Δ_{\min}$ 是最优与次优策略值之间的差距。模拟实验表明，与固定样本量设计相比，任意时间有效的方法能显著节省样本量。在大型减少网络错误信息的自适应实验中的应用展示了该方法如何随着最优策略证据的积累提供动态视图。

0

相关内容

决策智能中的时间序列预测大模型

决策智能中的时间序列预测大模型

专知会员服务

34+阅读 · 2025年5月8日

《概率结果下全局最优决策的高效树生成方法》最新30页报告

《概率结果下全局最优决策的高效树生成方法》最新30页报告

专知会员服务

17+阅读 · 2025年5月6日

《利用近端策略优化估计最佳飞行轨迹》最新140页

《利用近端策略优化估计最佳飞行轨迹》最新140页

专知会员服务

22+阅读 · 2024年11月14日

McGill大学等最新《不确定性决策下的上下文优化方法》综述

McGill大学等最新《不确定性决策下的上下文优化方法》综述

专知会员服务

33+阅读 · 2023年6月25日

时间序列如何用自监督？浙大最新《自监督学习时间序列分析：分类、进展与展望》

时间序列如何用自监督？浙大最新《自监督学习时间序列分析：分类、进展与展望》

专知会员服务

72+阅读 · 2023年6月24日

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

专知会员服务

64+阅读 · 2023年6月16日

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

专知会员服务

43+阅读 · 2022年4月4日

【行为识别| 2019最新综述】时空动作识别综述（Spatio-temporal Action Recognition: A Survey），附15页PDF

【行为识别| 2019最新综述】时空动作识别综述（Spatio-temporal Action Recognition: A Survey），附15页PDF

专知会员服务

102+阅读 · 2019年11月23日

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

专知会员服务

14+阅读 · 2019年11月18日

【O'Reilly AI Conference 2019】人工智能用于金融时间序列预测和动态资产组合优化（AI for financial time series forecasting and dynamic assets portfolio optimization），7bulls.com的高级副总裁Konrad Wawruch

【O'Reilly AI Conference 2019】人工智能用于金融时间序列预测和动态资产组合优化（AI for financial time series forecasting and dynamic assets portfolio optimization），7bulls.com的高级副总裁Konrad Wawruch

专知会员服务

54+阅读 · 2019年11月5日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

39+阅读 · 2023年4月13日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

AAAI 2020 | 华为：短小时序，如何预测？——基于特征重构的张量ARIMA

AAAI 2020 | 华为：短小时序，如何预测？——基于特征重构的张量ARIMA

AI科技评论

13+阅读 · 2020年2月5日

局部学习的特征选择：Local-Learning-Based Feature Selection

局部学习的特征选择：Local-Learning-Based Feature Selection

我爱读PAMI

14+阅读 · 2019年9月20日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

机器学习中的最优化算法总结

机器学习中的最优化算法总结

人工智能前沿讲习班

22+阅读 · 2019年3月22日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

AAAI 2018 行为识别论文概览

AAAI 2018 行为识别论文概览

极市平台

18+阅读 · 2018年3月20日

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

专知

22+阅读 · 2017年12月17日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

模糊情况下的最优消费与投资

国家自然科学基金

3+阅读 · 2015年12月31日

基于高效蒙特卡罗策略的最优化方法及应用研究

国家自然科学基金

9+阅读 · 2015年12月31日

有限范围随机最优控制系统的数值方法与均场倒向随机系统的最优控制问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

有限理性下的最优停止理论及应用

国家自然科学基金

1+阅读 · 2015年12月31日

随机递归最优控制及其在金融中的应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

2+阅读 · 2014年12月31日

保险金融市场中相依风险模型的随机最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

保险中两类随机最优控制问题及策略过程概率分布研究

国家自然科学基金

0+阅读 · 2014年12月31日

On Randomized Algorithms in Online Strategic Classification

Arxiv

0+阅读 · 6月15日

Inference-Time Decision Calibration for Temporal Classification

Arxiv

0+阅读 · 6月14日

Variational Proximal Policy Optimization

Arxiv

0+阅读 · 6月6日

Optimal Treatment Policy Estimation for Recurrent Events with a Competing Terminal Event: An Instrumented Difference-in-Differences Approach

Arxiv

0+阅读 · 6月2日

Learning to Bet for Horizon-Aware Anytime-Valid Testing

Arxiv

0+阅读 · 6月2日

Off-Policy Learning in Large Action Spaces: Optimization Matters More Than Estimation

Arxiv

0+阅读 · 6月1日

Tight Sample Complexity Bounds for Entropic Best Policy Identification

Arxiv

0+阅读 · 5月13日

Optimal Policy Learning under Budget and Coverage Constraints

Arxiv

0+阅读 · 5月12日

Optimal Posterior Sampling for Policy Identification in Tabular Markov Decision Processes

Arxiv

0+阅读 · 5月5日

Value Functions for Temporal Logic: Optimal Policies and Safety Filters

Arxiv

0+阅读 · 5月1日

VIP会员

文章信息

相关主题

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

2+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

4+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

3+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

3+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

12+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

10+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

12+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

6+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

10+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

8+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

9+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

8+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

6+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

决策智能中的时间序列预测大模型

决策智能中的时间序列预测大模型

专知会员服务

34+阅读 · 2025年5月8日

《概率结果下全局最优决策的高效树生成方法》最新30页报告

《概率结果下全局最优决策的高效树生成方法》最新30页报告

专知会员服务

17+阅读 · 2025年5月6日

《利用近端策略优化估计最佳飞行轨迹》最新140页

《利用近端策略优化估计最佳飞行轨迹》最新140页

专知会员服务

22+阅读 · 2024年11月14日

McGill大学等最新《不确定性决策下的上下文优化方法》综述

McGill大学等最新《不确定性决策下的上下文优化方法》综述

专知会员服务

33+阅读 · 2023年6月25日

时间序列如何用自监督？浙大最新《自监督学习时间序列分析：分类、进展与展望》

时间序列如何用自监督？浙大最新《自监督学习时间序列分析：分类、进展与展望》

专知会员服务

72+阅读 · 2023年6月24日

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

专知会员服务

64+阅读 · 2023年6月16日

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

专知会员服务

43+阅读 · 2022年4月4日

【行为识别| 2019最新综述】时空动作识别综述（Spatio-temporal Action Recognition: A Survey），附15页PDF

【行为识别| 2019最新综述】时空动作识别综述（Spatio-temporal Action Recognition: A Survey），附15页PDF

专知会员服务

102+阅读 · 2019年11月23日

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

专知会员服务

14+阅读 · 2019年11月18日

【O'Reilly AI Conference 2019】人工智能用于金融时间序列预测和动态资产组合优化（AI for financial time series forecasting and dynamic assets portfolio optimization），7bulls.com的高级副总裁Konrad Wawruch

【O'Reilly AI Conference 2019】人工智能用于金融时间序列预测和动态资产组合优化（AI for financial time series forecasting and dynamic assets portfolio optimization），7bulls.com的高级副总裁Konrad Wawruch

专知会员服务

54+阅读 · 2019年11月5日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

39+阅读 · 2023年4月13日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

AAAI 2020 | 华为：短小时序，如何预测？——基于特征重构的张量ARIMA

AAAI 2020 | 华为：短小时序，如何预测？——基于特征重构的张量ARIMA

AI科技评论

13+阅读 · 2020年2月5日

局部学习的特征选择：Local-Learning-Based Feature Selection

局部学习的特征选择：Local-Learning-Based Feature Selection

我爱读PAMI

14+阅读 · 2019年9月20日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

机器学习中的最优化算法总结

机器学习中的最优化算法总结

人工智能前沿讲习班

22+阅读 · 2019年3月22日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

AAAI 2018 行为识别论文概览

AAAI 2018 行为识别论文概览

极市平台

18+阅读 · 2018年3月20日

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

专知

22+阅读 · 2017年12月17日

相关论文

On Randomized Algorithms in Online Strategic Classification

Arxiv

0+阅读 · 6月15日

Inference-Time Decision Calibration for Temporal Classification

Arxiv

0+阅读 · 6月14日

Variational Proximal Policy Optimization

Arxiv

0+阅读 · 6月6日

Optimal Treatment Policy Estimation for Recurrent Events with a Competing Terminal Event: An Instrumented Difference-in-Differences Approach

Arxiv

0+阅读 · 6月2日

Learning to Bet for Horizon-Aware Anytime-Valid Testing

Arxiv

0+阅读 · 6月2日

Off-Policy Learning in Large Action Spaces: Optimization Matters More Than Estimation

Arxiv

0+阅读 · 6月1日

Tight Sample Complexity Bounds for Entropic Best Policy Identification

Arxiv

0+阅读 · 5月13日

Optimal Policy Learning under Budget and Coverage Constraints

Arxiv

0+阅读 · 5月12日

Optimal Posterior Sampling for Policy Identification in Tabular Markov Decision Processes

Arxiv

0+阅读 · 5月5日

Value Functions for Temporal Logic: Optimal Policies and Safety Filters

Arxiv

0+阅读 · 5月1日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

模糊情况下的最优消费与投资

国家自然科学基金

3+阅读 · 2015年12月31日

基于高效蒙特卡罗策略的最优化方法及应用研究

国家自然科学基金

9+阅读 · 2015年12月31日

有限范围随机最优控制系统的数值方法与均场倒向随机系统的最优控制问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

有限理性下的最优停止理论及应用

国家自然科学基金

1+阅读 · 2015年12月31日

随机递归最优控制及其在金融中的应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

2+阅读 · 2014年12月31日

保险金融市场中相依风险模型的随机最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

保险中两类随机最优控制问题及策略过程概率分布研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员