Predicting individualized potential outcomes in sequential decision-making is central for optimizing therapeutic decisions in personalized medicine (e.g., which dosing sequence to give to a cancer patient). However, predicting potential outcomes over long horizons is notoriously difficult. Existing methods that break the curse of the horizon typically lack strong theoretical guarantees such as orthogonality and quasi-oracle efficiency. In this paper, we revisit the problem of predicting individualized potential outcomes in sequential decision-making (i.e., estimating Q-functions in Markov decision processes with observational data) through a causal inference lens. In particular, we develop a comprehensive theoretical foundation for meta-learners in this setting with a focus on beneficial theoretical properties. As a result, we yield a novel meta-learner called DRQ-learner and establish that it is: (1) doubly robust (i.e., valid inference under the misspecification of one of the nuisances), (2) Neyman-orthogonal (i.e., insensitive to first-order estimation errors in the nuisance functions), and (3) achieves quasi-oracle efficiency (i.e., behaves asymptotically as if the ground-truth nuisance functions were known). Our DRQ-learner is applicable to settings with both discrete and continuous state spaces. Further, our DRQ-learner is flexible and can be used together with arbitrary machine learning models (e.g., neural networks). We validate our theoretical results through numerical experiments, thereby showing that our meta-learner outperforms state-of-the-art baselines.


翻译:在序列决策中预测个体化潜在结果对于优化个性化医疗中的治疗决策(例如,应为癌症患者提供何种给药序列)至关重要。然而,预测长时程的潜在结果极为困难。现有突破"维度诅咒"的方法通常缺乏正交性和准预言机效率等强理论保证。本文通过因果推断的视角,重新审视序列决策中的个体化潜在结果预测问题(即利用观测数据估计马尔可夫决策过程中的Q函数)。特别地,我们为此背景下的元学习器建立了全面的理论基础,并重点关注其有益的理论性质。由此,我们提出了一种名为DRQ-learner的新型元学习器,并证明其具有以下特性:(1) 双重稳健性(即在一个干扰参数设定错误的情况下仍能进行有效推断),(2) 奈曼正交性(即对干扰函数的一阶估计误差不敏感),(3) 达到准预言机效率(即其渐近表现如同已知真实的干扰函数)。我们的DRQ-learner适用于离散和连续状态空间场景。此外,该学习器具有灵活性,可与任意机器学习模型(如神经网络)结合使用。我们通过数值实验验证了理论结果,表明我们的元学习器性能优于现有先进基线方法。

0
下载
关闭预览

相关内容

决策智能中的时间序列预测大模型
专知会员服务
32+阅读 · 2025年5月8日
【Google-BryanLim等】可解释深度学习时序预测
专知会员服务
64+阅读 · 2021年12月19日
CVPR 2021 | 时间序列疾病预测的因果隐马尔可夫模型
专知会员服务
64+阅读 · 2021年4月11日
最新《监督机器学习可解释性》2020大综述论文,74页pdf
专知会员服务
130+阅读 · 2020年11月19日
用机器学习来预测股价(代码+文档)——2018年iNTUtion决赛大作!
量化投资与机器学习
25+阅读 · 2018年11月20日
基于 Keras 用深度学习预测时间序列
R语言中文社区
23+阅读 · 2018年7月27日
教程 | 基于Keras的LSTM多变量时间序列预测
机器之心
20+阅读 · 2017年10月30日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(16份)
专知会员服务
7+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
15+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
2+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
4+阅读 · 4月12日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员