medR: Reward Engineering for Clinical Offline Reinforcement Learning via Tri-Drive Potential Functions - 专知论文

会员服务 ·

0

势函数 · 设计 · 自动化 · 强化学习 · 离线强化学习 ·

medR: Reward Engineering for Clinical Offline Reinforcement Learning via Tri-Drive Potential Functions

翻译：medR：基于三驱动势函数的临床离线强化学习奖励工程

Qianyi Xu,Gousia Habib,Feng Wu,Yanrui Du,Zhihui Chen,Swapnil Mishra,Dilruk Perera,Mengling Feng

Reinforcement Learning (RL) offers a powerful framework for optimizing dynamic treatment regimes (DTRs). However, clinical RL is fundamentally bottlenecked by reward engineering: the challenge of defining signals that safely and effectively guide policy learning in complex, sparse offline environments. Existing approaches often rely on manual heuristics that fail to generalize across diverse pathologies. To address this, we propose an automated pipeline leveraging Large Language Models (LLMs) for offline reward design and verification. We formulate the reward function using potential functions consisted of three core components: survival, confidence, and competence. We further introduce quantitative metrics to rigorously evaluate and select the optimal reward structure prior to deployment. By integrating LLM-driven domain knowledge, our framework automates the design of reward functions for specific diseases while significantly enhancing the performance of the resulting policies.

翻译：强化学习（RL）为优化动态治疗方案（DTRs）提供了强大的框架。然而，临床强化学习从根本上受限于奖励工程：即在复杂、稀疏的离线环境中，定义能够安全有效指导策略学习的信号这一挑战。现有方法通常依赖于难以在不同病理间泛化的手动启发式规则。为解决此问题，我们提出一种利用大型语言模型（LLMs）进行离线奖励设计与验证的自动化流程。我们使用由三个核心组件——生存性、置信度与能力——构成的势函数来形式化奖励函数。我们进一步引入定量指标，以便在部署前严格评估并选择最优的奖励结构。通过整合LLM驱动的领域知识，我们的框架能够针对特定疾病自动化设计奖励函数，同时显著提升最终策略的性能。

0

相关内容

势函数

面向软件工程的强化学习综述

面向软件工程的强化学习综述

专知会员服务

31+阅读 · 2025年7月21日

深度强化学习中的奖励模型：综述

深度强化学习中的奖励模型：综述

专知会员服务

29+阅读 · 2025年6月20日

【博士论文】强化学习智能体的奖励函数设计

【博士论文】强化学习智能体的奖励函数设计

专知会员服务

48+阅读 · 2025年4月8日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

专知会员服务

55+阅读 · 2023年8月12日

【博士论文】深度强化学习进展:内在奖励，时间信用分配，状态表示和价值等效模型，116页pdf

【博士论文】深度强化学习进展:内在奖励，时间信用分配，状态表示和价值等效模型，116页pdf

专知会员服务

33+阅读 · 2023年3月28日

【密歇根大学博士论文】深度强化学习进展:内在奖励，时间信用分配，状态表示和价值等效模型

【密歇根大学博士论文】深度强化学习进展:内在奖励，时间信用分配，状态表示和价值等效模型

专知会员服务

36+阅读 · 2023年1月11日

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

专知会员服务

49+阅读 · 2022年9月22日

万字长文！离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等）

万字长文！离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等）

专知会员服务

42+阅读 · 2022年5月12日

【综述】自动驾驶领域中的强化学习，附18页论文下载

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

深度强化学习在NLP怎么用？看清华黄民烈老师这一份120页《自然语言处理和搜索中的深度强化学习应用》讲义

深度强化学习在NLP怎么用？看清华黄民烈老师这一份120页《自然语言处理和搜索中的深度强化学习应用》讲义

专知

31+阅读 · 2018年9月1日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

小鼠锰离子增强脑成像（MEMRI）数据分析算法研究及应用

国家自然科学基金

0+阅读 · 2014年12月31日

周期与随机激励下非线性振子动力学行为及识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

PerlAD: Towards Enhanced Closed-loop End-to-end Autonomous Driving with Pseudo-simulation-based Reinforcement Learning

Arxiv

0+阅读 · 3月16日

Active Advantage-Aligned Online Reinforcement Learning with Offline Data

Arxiv

0+阅读 · 3月7日

Selecting Offline Reinforcement Learning Algorithms for Stochastic Network Control

Arxiv

0+阅读 · 3月4日

Return Augmented Decision Transformer for Off-Dynamics Reinforcement Learning

Arxiv

0+阅读 · 3月2日

MediX-R1: Open Ended Medical Reinforcement Learning

Arxiv

0+阅读 · 2月26日

Offline RL by Reward-Weighted Fine-Tuning for Conversation Optimization

Arxiv

0+阅读 · 2月16日

Dual-Granularity Contrastive Reward via Generated Episodic Guidance for Efficient Embodied RL

Arxiv

0+阅读 · 2月13日

Average Reward Reinforcement Learning for Omega-Regular and Mean-Payoff Objectives

Arxiv

0+阅读 · 2月7日

MulFeRL: Enhancing Reinforcement Learning with Verbal Feedback in a Multi-turn Loop

Arxiv

0+阅读 · 1月30日

Metis-SPECS: Decoupling Multimodal Learning via Self-distilled Preference-based Cold Start

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

离线强化学习

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

2+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

2+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

4+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

9+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

5+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

6+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

6+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

11+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

6+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

6+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

8+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

6+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

9+阅读 · 5月29日

相关VIP内容

面向软件工程的强化学习综述

面向软件工程的强化学习综述

专知会员服务

31+阅读 · 2025年7月21日

深度强化学习中的奖励模型：综述

深度强化学习中的奖励模型：综述

专知会员服务

29+阅读 · 2025年6月20日

【博士论文】强化学习智能体的奖励函数设计

【博士论文】强化学习智能体的奖励函数设计

专知会员服务

48+阅读 · 2025年4月8日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

专知会员服务

55+阅读 · 2023年8月12日

【博士论文】深度强化学习进展:内在奖励，时间信用分配，状态表示和价值等效模型，116页pdf

【博士论文】深度强化学习进展:内在奖励，时间信用分配，状态表示和价值等效模型，116页pdf

专知会员服务

33+阅读 · 2023年3月28日

【密歇根大学博士论文】深度强化学习进展:内在奖励，时间信用分配，状态表示和价值等效模型

【密歇根大学博士论文】深度强化学习进展:内在奖励，时间信用分配，状态表示和价值等效模型

专知会员服务

36+阅读 · 2023年1月11日

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

专知会员服务

49+阅读 · 2022年9月22日

万字长文！离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等）

万字长文！离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等）

专知会员服务

42+阅读 · 2022年5月12日

【综述】自动驾驶领域中的强化学习，附18页论文下载

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

深度强化学习在NLP怎么用？看清华黄民烈老师这一份120页《自然语言处理和搜索中的深度强化学习应用》讲义

深度强化学习在NLP怎么用？看清华黄民烈老师这一份120页《自然语言处理和搜索中的深度强化学习应用》讲义

专知

31+阅读 · 2018年9月1日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

PerlAD: Towards Enhanced Closed-loop End-to-end Autonomous Driving with Pseudo-simulation-based Reinforcement Learning

Arxiv

0+阅读 · 3月16日

Active Advantage-Aligned Online Reinforcement Learning with Offline Data

Arxiv

0+阅读 · 3月7日

Selecting Offline Reinforcement Learning Algorithms for Stochastic Network Control

Arxiv

0+阅读 · 3月4日

Return Augmented Decision Transformer for Off-Dynamics Reinforcement Learning

Arxiv

0+阅读 · 3月2日

MediX-R1: Open Ended Medical Reinforcement Learning

Arxiv

0+阅读 · 2月26日

Offline RL by Reward-Weighted Fine-Tuning for Conversation Optimization

Arxiv

0+阅读 · 2月16日

Dual-Granularity Contrastive Reward via Generated Episodic Guidance for Efficient Embodied RL

Arxiv

0+阅读 · 2月13日

Average Reward Reinforcement Learning for Omega-Regular and Mean-Payoff Objectives

Arxiv

0+阅读 · 2月7日

MulFeRL: Enhancing Reinforcement Learning with Verbal Feedback in a Multi-turn Loop

Arxiv

0+阅读 · 1月30日

Metis-SPECS: Decoupling Multimodal Learning via Self-distilled Preference-based Cold Start

Arxiv

0+阅读 · 1月30日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

小鼠锰离子增强脑成像（MEMRI）数据分析算法研究及应用

国家自然科学基金

0+阅读 · 2014年12月31日

周期与随机激励下非线性振子动力学行为及识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员