Beating the Winner's Curse via Inference-Aware Policy Optimization - 专知论文

会员服务 ·

0

策略优化 · 策略评估 · 帕累托前沿 · 自动学习 · 修改策略 ·

Beating the Winner's Curse via Inference-Aware Policy Optimization

翻译：通过推理感知策略优化克服赢家诅咒

Hamsa Bastani,Osbert Bastani,Bryce McLaughlin

There has been a surge of recent interest in automatically learning policies to target treatment decisions based on rich individual covariates. In addition, practitioners want confidence that the learned policy has better performance than the incumbent policy according to downstream policy evaluation. However, due to the winner's curse -- an issue where the policy optimization procedure exploits prediction errors rather than finding actual improvements -- predicted performance improvements are often not substantiated by downstream policy evaluation. To address this challenge, we propose a novel strategy called inference-aware policy optimization, which modifies policy optimization to account for how the policy will be evaluated downstream. Specifically, it optimizes not only for the estimated objective value, but also for the chances that the estimate of the policy's improvement passes a significance test during downstream policy evaluation. We mathematically characterize the Pareto frontier of policies according to the tradeoff of these two goals. Based on our characterization, we design a policy optimization algorithm that estimates the Pareto frontier using machine learning models; then, the decision-maker can select the policy that optimizes their desired tradeoff, after which policy evaluation can be performed on the test set as usual. Finally, we perform simulations to illustrate the effectiveness of our methodology.

翻译：近年来，基于丰富个体协变量自动学习治疗决策策略的研究兴趣激增。此外，实践者希望确信所学策略在下游策略评估中表现优于现行策略。然而，由于赢家诅咒——即策略优化过程利用预测误差而非发现实际改进的问题——预测的性能改进往往无法通过下游策略评估得到证实。为应对这一挑战，我们提出一种称为推理感知策略优化的新策略，该方法通过修改策略优化过程来考量策略在下游的评估方式。具体而言，它不仅优化估计的目标值，同时优化策略改进估计值在下游策略评估中通过显著性检验的概率。我们通过数学方法刻画了这两个目标权衡下策略的帕累托前沿。基于此特征描述，我们设计了一种利用机器学习模型估计帕累托前沿的策略优化算法；随后决策者可根据期望的权衡选择最优策略，之后即可照常在测试集上进行策略评估。最后，我们通过仿真实验验证了所提方法的有效性。

0

相关内容

策略优化

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

专知会员服务

11+阅读 · 2025年6月1日

《概率结果下全局最优决策的高效树生成方法》最新30页报告

《概率结果下全局最优决策的高效树生成方法》最新30页报告

专知会员服务

16+阅读 · 2025年5月6日

决策优势：杀伤链左侧——资产与目标快速配对

决策优势：杀伤链左侧——资产与目标快速配对

专知会员服务

110+阅读 · 2023年12月19日

作战决策优势的核心

作战决策优势的核心

专知会员服务

95+阅读 · 2023年11月2日

McGill大学等最新《不确定性决策下的上下文优化方法》综述

McGill大学等最新《不确定性决策下的上下文优化方法》综述

专知会员服务

33+阅读 · 2023年6月25日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知会员服务

254+阅读 · 2022年11月15日

推荐！美国陆军《用于“决策动力学、欺骗和博弈论”的新型人工智能决策辅助工具》52页技术总结报告（简译版）

推荐！美国陆军《用于“决策动力学、欺骗和博弈论”的新型人工智能决策辅助工具》52页技术总结报告（简译版）

专知会员服务

254+阅读 · 2022年7月6日

美国哈德逊研究所国防概念与技术中心《实施以决策为中心的战争：提升指挥与控制以获得选择优势》，50页pdf

美国哈德逊研究所国防概念与技术中心《实施以决策为中心的战争：提升指挥与控制以获得选择优势》，50页pdf

专知会员服务

182+阅读 · 2022年4月11日

【SIGIR2020】策略感知的无偏排序学习—Top-K排序，Policy-Aware Unbiased Learning to Rank for Top-𝑘 Rankings

【SIGIR2020】策略感知的无偏排序学习—Top-K排序，Policy-Aware Unbiased Learning to Rank for Top-𝑘 Rankings

专知会员服务

27+阅读 · 2020年6月10日

【强化学习研讨会|Microsoft Research】政策改进学习（Learning for policy improvement），卡内基梅隆大学教授| Geoff Gordon

【强化学习研讨会|Microsoft Research】政策改进学习（Learning for policy improvement），卡内基梅隆大学教授| Geoff Gordon

专知会员服务

13+阅读 · 2019年10月3日

《海军兵棋推演战斗管理辅助工具中的博弈论和规范分析》2022最新84页论文，美海军

《海军兵棋推演战斗管理辅助工具中的博弈论和规范分析》2022最新84页论文，美海军

专知

67+阅读 · 2022年12月1日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

推荐！【美海军·系统工程顶点报告】《人工智能使能的实时兵棋推演系统在海军战术行动中的应用》美国海军2022最新128页

推荐！【美海军·系统工程顶点报告】《人工智能使能的实时兵棋推演系统在海军战术行动中的应用》美国海军2022最新128页

专知

85+阅读 · 2022年9月24日

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

专知

83+阅读 · 2022年7月7日

兵棋推演的智能决策技术与挑战

兵棋推演的智能决策技术与挑战

专知

28+阅读 · 2022年7月5日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

2+阅读 · 2014年12月31日

社会性预期优势效应的神经机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

概率抽样设计及其统计推断方法

国家自然科学基金

6+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

残缺判断信息下专家共识群决策理论、方法及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

BoSS: A Best-of-Strategies Selector as an Oracle for Deep Active Learning

Arxiv

0+阅读 · 3月13日

Breaking the Winner's Curse with Bayesian Hybrid Shrinkage

Arxiv

0+阅读 · 3月13日

Learning to Recommend in Unknown Games

Arxiv

0+阅读 · 3月4日

Scaling Inference-Time Computation via Opponent Simulation: Enabling Online Strategic Adaptation in Repeated Negotiation

Arxiv

0+阅读 · 2月22日

Efficient and Sharp Off-Policy Learning under Unobserved Confounding

Arxiv

0+阅读 · 2月17日

Efficient and Sharp Off-Policy Learning under Unobserved Confounding

Arxiv

0+阅读 · 2月12日

Inference-Aware Prompt Optimization for Aligning Black-Box Large Language Models

Arxiv

0+阅读 · 2月10日

Winner's Curse Drives False Promises in Data-Driven Decisions: A Case Study in Refugee Matching

Arxiv

0+阅读 · 2月9日

Optimal Decision-Making Based on Prediction Sets

Arxiv

0+阅读 · 2月3日

Navigate the Unknown: Enhancing LLM Reasoning with Intrinsic Motivation Guided Exploration

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

帕累托前沿

最新内容

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

专知会员服务

1+阅读 · 23分钟前

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

专知会员服务

1+阅读 · 27分钟前

《无人机革命：来自俄乌战场的启示》（报告）

《无人机革命：来自俄乌战场的启示》（报告）

专知会员服务

1+阅读 · 33分钟前

《实现联合作战能力所需的技术》58页报告

《实现联合作战能力所需的技术》58页报告

专知会员服务

1+阅读 · 51分钟前

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

专知会员服务

1+阅读 · 59分钟前

以色列运用人工智能优化空袭警报系统

以色列运用人工智能优化空袭警报系统

专知会员服务

0+阅读 · 今天6:20

以色列在多条战线部署AI智能体

以色列在多条战线部署AI智能体

专知会员服务

1+阅读 · 今天6:12

《将形式化方法工具应用于电子战代码库（经验报告）》

《将形式化方法工具应用于电子战代码库（经验报告）》

专知会员服务

1+阅读 · 今天6:09

2025年大语言模型进展报告

2025年大语言模型进展报告

专知会员服务

12+阅读 · 4月25日

多智能体协作机制

多智能体协作机制

专知会员服务

11+阅读 · 4月25日

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

9+阅读 · 4月25日

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

19+阅读 · 4月25日

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

8+阅读 · 4月25日

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

12+阅读 · 4月25日

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

9+阅读 · 4月24日

相关VIP内容

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

专知会员服务

11+阅读 · 2025年6月1日

《概率结果下全局最优决策的高效树生成方法》最新30页报告

《概率结果下全局最优决策的高效树生成方法》最新30页报告

专知会员服务

16+阅读 · 2025年5月6日

决策优势：杀伤链左侧——资产与目标快速配对

决策优势：杀伤链左侧——资产与目标快速配对

专知会员服务

110+阅读 · 2023年12月19日

作战决策优势的核心

作战决策优势的核心

专知会员服务

95+阅读 · 2023年11月2日

McGill大学等最新《不确定性决策下的上下文优化方法》综述

McGill大学等最新《不确定性决策下的上下文优化方法》综述

专知会员服务

33+阅读 · 2023年6月25日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知会员服务

254+阅读 · 2022年11月15日

推荐！美国陆军《用于“决策动力学、欺骗和博弈论”的新型人工智能决策辅助工具》52页技术总结报告（简译版）

推荐！美国陆军《用于“决策动力学、欺骗和博弈论”的新型人工智能决策辅助工具》52页技术总结报告（简译版）

专知会员服务

254+阅读 · 2022年7月6日

美国哈德逊研究所国防概念与技术中心《实施以决策为中心的战争：提升指挥与控制以获得选择优势》，50页pdf

美国哈德逊研究所国防概念与技术中心《实施以决策为中心的战争：提升指挥与控制以获得选择优势》，50页pdf

专知会员服务

182+阅读 · 2022年4月11日

【SIGIR2020】策略感知的无偏排序学习—Top-K排序，Policy-Aware Unbiased Learning to Rank for Top-𝑘 Rankings

【SIGIR2020】策略感知的无偏排序学习—Top-K排序，Policy-Aware Unbiased Learning to Rank for Top-𝑘 Rankings

专知会员服务

27+阅读 · 2020年6月10日

【强化学习研讨会|Microsoft Research】政策改进学习（Learning for policy improvement），卡内基梅隆大学教授| Geoff Gordon

【强化学习研讨会|Microsoft Research】政策改进学习（Learning for policy improvement），卡内基梅隆大学教授| Geoff Gordon

专知会员服务

13+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

《实现联合作战能力所需的技术》58页报告

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《无人机革命：来自俄乌战场的启示》（报告）

相关资讯

《海军兵棋推演战斗管理辅助工具中的博弈论和规范分析》2022最新84页论文，美海军

《海军兵棋推演战斗管理辅助工具中的博弈论和规范分析》2022最新84页论文，美海军

专知

67+阅读 · 2022年12月1日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

推荐！【美海军·系统工程顶点报告】《人工智能使能的实时兵棋推演系统在海军战术行动中的应用》美国海军2022最新128页

推荐！【美海军·系统工程顶点报告】《人工智能使能的实时兵棋推演系统在海军战术行动中的应用》美国海军2022最新128页

专知

85+阅读 · 2022年9月24日

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

专知

83+阅读 · 2022年7月7日

兵棋推演的智能决策技术与挑战

兵棋推演的智能决策技术与挑战

专知

28+阅读 · 2022年7月5日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

相关论文

BoSS: A Best-of-Strategies Selector as an Oracle for Deep Active Learning

Arxiv

0+阅读 · 3月13日

Breaking the Winner's Curse with Bayesian Hybrid Shrinkage

Arxiv

0+阅读 · 3月13日

Learning to Recommend in Unknown Games

Arxiv

0+阅读 · 3月4日

Scaling Inference-Time Computation via Opponent Simulation: Enabling Online Strategic Adaptation in Repeated Negotiation

Arxiv

0+阅读 · 2月22日

Efficient and Sharp Off-Policy Learning under Unobserved Confounding

Arxiv

0+阅读 · 2月17日

Efficient and Sharp Off-Policy Learning under Unobserved Confounding

Arxiv

0+阅读 · 2月12日

Inference-Aware Prompt Optimization for Aligning Black-Box Large Language Models

Arxiv

0+阅读 · 2月10日

Winner's Curse Drives False Promises in Data-Driven Decisions: A Case Study in Refugee Matching

Arxiv

0+阅读 · 2月9日

Optimal Decision-Making Based on Prediction Sets

Arxiv

0+阅读 · 2月3日

Navigate the Unknown: Enhancing LLM Reasoning with Intrinsic Motivation Guided Exploration

Arxiv

0+阅读 · 1月30日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

2+阅读 · 2014年12月31日

社会性预期优势效应的神经机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

概率抽样设计及其统计推断方法

国家自然科学基金

6+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

残缺判断信息下专家共识群决策理论、方法及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员