Clinical decision-making often involves selecting tests that are costly, invasive, or time-consuming, motivating individualized, sequential strategies for what to measure and when to stop ascertaining. We study the problem of learning cost-optimal sequential decision policies from retrospective data, where test availability depends on prior results, inducing informative missingness. Under a sequential missing-at-random mechanism, we develop a doubly robust Q-learning framework for estimating optimal policies. The method introduces path-specific inverse probability weights that account for heterogeneous test trajectories and satisfy a normalization property conditional on the observed history. By combining these weights with auxiliary contrast models, we construct orthogonal pseudo-outcomes that enable unbiased policy learning when either the acquisition model or the contrast model is correctly specified. We establish oracle inequalities for the stage-wise contrast estimators, along with convergence rates, regret bounds, and misclassification rates for the learned policy. Simulations demonstrate improved cost-adjusted performance over weighted and complete-case baselines, and an application to a prostate cancer cohort study illustrates how the method reduces testing cost without compromising predictive accuracy.


翻译:临床决策通常涉及选择成本高昂、侵入性强或耗时长的测试,这促使我们需要制定个体化的序贯策略以决定测量内容及停止确认时机。我们研究从回顾性数据中学习成本最优序贯决策策略的问题,其中测试可用性取决于先前结果,从而产生信息性缺失。在序贯随机缺失机制下,我们开发了一个双重稳健Q学习框架来估计最优策略。该方法引入路径特异性逆概率权重,该权重可解释异质性测试轨迹,并在给定历史观测条件下满足归一化性质。通过将这些权重与辅助对比模型相结合,我们构建了正交伪结果,使得当获取模型或对比模型任一被正确设定时,可实现无偏策略学习。我们建立了阶段对比估计量的神谕不等式,同时给出了学习策略的收敛速率、遗憾界和误分类率。仿真实验表明,与加权基准和完全案例基线相比,该方法实现了更优的成本调整性能。针对前列腺癌队列研究的应用案例阐明了该方法如何在不牺牲预测准确性的前提下降低测试成本。

0
下载
关闭预览

相关内容

《战略智能体与有限反馈下的序贯决策》211页
专知会员服务
37+阅读 · 2025年5月7日
【斯坦福博士论文】在复杂环境中决策学习内容
专知会员服务
34+阅读 · 2025年4月14日
【MIT博士论文】序列博弈中的近似最优学习, 338页pdf
专知会员服务
37+阅读 · 2023年8月31日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
《战略智能体与有限反馈下的序贯决策》211页
专知会员服务
37+阅读 · 2025年5月7日
【斯坦福博士论文】在复杂环境中决策学习内容
专知会员服务
34+阅读 · 2025年4月14日
【MIT博士论文】序列博弈中的近似最优学习, 338页pdf
专知会员服务
37+阅读 · 2023年8月31日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员