Modern treatment targeting methods often rely on estimating a conditional average treatment effect (CATE) using machine learning tools. While effective in identifying who benefits from treatment on the individual level, these approaches typically overlook system-level dynamics that may arise when treatments induce strain on shared capacity. We study the problem of targeting in Markovian systems, where treatment decisions must be made one at a time as units arrive, and early decisions can impact later outcomes through delayed or limited access to resources. We show that optimal policies in such settings compare CATE-like quantities to state-specific thresholds, where each threshold reflects the expected cumulative impact on the system of treating an additional individual in the given state. We propose an algorithm that augments standard CATE estimation with state-level value iteration to estimate these thresholds from observational data. Theoretical results establish consistency and convergence guarantees, and empirical studies demonstrate that our method improves long-run outcomes considerably relative to individual-level CATE targeting rules and generic offline reinforcement learning algorithms.


翻译:现代治疗靶向方法通常依赖机器学习工具估计条件平均处理效应(CATE)。虽然这类方法在识别个体层面受益于治疗的对象方面表现有效,但往往忽略了因治疗对共享容量施加压力而产生的系统级动态变化。我们研究了马尔可夫系统中的靶向问题:当治疗决策需按单元抵达顺序逐一做出时,早期决策可能通过资源延迟或有限获取影响后续结果。研究表明,此类场景下的最优策略需要将类CATE指标与状态特定阈值进行比较,其中每个阈值反映了在给定状态下对一个额外个体实施治疗所产生的预期累积系统影响。我们提出一种算法,将标准CATE估计与状态级值迭代相结合,从观测数据中估计这些阈值。理论结果确立了估计的一致性与收敛性保证,实验证明相较个体级CATE靶向规则和通用离线强化学习算法,该方法能显著改善长期结果。

0
下载
关闭预览

相关内容

《战术决策智能:大语言模型驱动的动态武器目标分配》
专知会员服务
59+阅读 · 2025年11月18日
基于注意力机制的态势要素推荐技术
专知会员服务
27+阅读 · 2025年2月14日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月14日
Arxiv
0+阅读 · 5月7日
VIP会员
最新内容
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
0+阅读 · 54分钟前
Agentic RL:框架、实践与长程智能体训练
专知会员服务
0+阅读 · 56分钟前
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员