Case-Guided Sequential Assay Planning in Drug Discovery - 专知论文

会员服务 ·

0

药物发现 · 贝叶斯 · 集成 · 最优 · 最优策略 ·

Case-Guided Sequential Assay Planning in Drug Discovery

翻译：药物发现中的案例引导序贯实验规划

Tianchi Chen,Jan Bima,Sean L. Wu,Otto Ritter,Bingjia Yang,Xiang Yu

Optimally sequencing experimental assays in drug discovery is a high-stakes planning problem under severe uncertainty and resource constraints. A primary obstacle for standard reinforcement learning (RL) is the absence of an explicit environment simulator or transition data $(s, a, s')$; planning must rely solely on a static database of historical outcomes. We introduce the Implicit Bayesian Markov Decision Process (IBMDP), a model-based RL framework designed for such simulator-free settings. IBMDP constructs a case-guided implicit model of transition dynamics by forming a nonparametric belief distribution using similar historical outcomes. This mechanism enables Bayesian belief updating as evidence accumulates and employs ensemble MCTS planning to generate stable policies that balance information gain toward desired outcomes with resource efficiency. We validate IBMDP through comprehensive experiments. On a real-world central nervous system (CNS) drug discovery task, IBMDP reduced resource consumption by up to 92\% compared to established heuristics while maintaining decision confidence. To rigorously assess decision quality, we also benchmarked IBMDP in a synthetic environment with a computable optimal policy. Our framework achieves significantly higher alignment with this optimal policy than a deterministic value iteration alternative that uses the same similarity-based model, demonstrating the superiority of our ensemble planner. IBMDP offers a practical solution for sequential experimental design in data-rich but simulator-poor domains.

翻译：在药物发现中优化实验检测的序贯安排是一个高风险规划问题，面临严重的不确定性和资源约束。标准强化学习（RL）的主要障碍在于缺乏显式的环境模拟器或状态转移数据$(s, a, s')$；规划必须完全依赖于历史结果的静态数据库。我们提出了隐式贝叶斯马尔可夫决策过程（IBMDP），这是一个专为此类无模拟器场景设计的基于模型的RL框架。IBMDP通过利用相似历史结果构建非参数信念分布，从而建立案例引导的隐式状态转移动态模型。该机制支持随着证据积累进行贝叶斯信念更新，并采用集成MCTS规划来生成稳定的策略，以平衡面向期望结果的信息增益与资源效率。我们通过综合实验验证了IBMDP。在真实世界中枢神经系统（CNS）药物发现任务中，相较于既定启发式方法，IBMDP在保持决策置信度的同时将资源消耗降低了高达92%。为严格评估决策质量，我们还在具有可计算最优策略的合成环境中对IBMDP进行了基准测试。我们的框架与最优策略的一致性显著高于使用相同基于相似性模型的确定性值迭代替代方案，证明了我们集成规划器的优越性。IBMDP为数据丰富但模拟器稀缺领域的序贯实验设计提供了一个实用解决方案。

0

相关内容

药物发现

【博士论文】受脑启发的规划：提升强化学习泛化能力

【博士论文】受脑启发的规划：提升强化学习泛化能力

专知会员服务

14+阅读 · 2025年11月13日

【斯坦福博士论文】用于序贯决策的强化学习：从芯片设计到语言建模

【斯坦福博士论文】用于序贯决策的强化学习：从芯片设计到语言建模

专知会员服务

18+阅读 · 2025年6月21日

Transformer在药物发现及其他领域的应用综述

Transformer在药物发现及其他领域的应用综述

专知会员服务

17+阅读 · 2024年9月3日

人工智能到深度学习:药物发现的机器智能方法

人工智能到深度学习:药物发现的机器智能方法

专知会员服务

37+阅读 · 2022年5月6日

最新「图机器学习药物发现」综述论文，22页pdf245篇文献

最新「图机器学习药物发现」综述论文，22页pdf245篇文献

专知会员服务

100+阅读 · 2021年5月24日

图表示学习在药物发现中的应用，48页ppt

图表示学习在药物发现中的应用，48页ppt

专知会员服务

102+阅读 · 2021年4月30日

【论文推荐】用于低资源药物发现的元学习初始化，Meta-Learning Initializations for Low-Resource Drug Discovery

【论文推荐】用于低资源药物发现的元学习初始化，Meta-Learning Initializations for Low-Resource Drug Discovery

专知会员服务

27+阅读 · 2020年3月26日

【Texas 大学】强化学习领域的课程学习:一个框架和综述

【Texas 大学】强化学习领域的课程学习:一个框架和综述

专知会员服务

73+阅读 · 2020年3月22日

【KDD2019|讲座推荐】药物发现与开发的数据挖掘方法：Data Mining Methods for Drug Discovery and Development

【KDD2019|讲座推荐】药物发现与开发的数据挖掘方法：Data Mining Methods for Drug Discovery and Development

专知会员服务

69+阅读 · 2019年12月11日

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

专知会员服务

34+阅读 · 2019年3月21日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

药物化学第二期：蛋白质-小分子对接Score函数总结

药物化学第二期：蛋白质-小分子对接Score函数总结

GenomicAI

30+阅读 · 2022年3月5日

重磅！最新AI药物研发：白皮书、国内外技术报告、干货书、综述论文、关键技术最新论文（含实现代码）、数据集、教程课程讲解

重磅！最新AI药物研发：白皮书、国内外技术报告、干货书、综述论文、关键技术最新论文（含实现代码）、数据集、教程课程讲解

GenomicAI

14+阅读 · 2022年2月19日

基于深度学习的序列推荐系统：概念，算法与评估

基于深度学习的序列推荐系统：概念，算法与评估

专知

24+阅读 · 2019年6月6日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

论文浅尝 | Interaction Embeddings for Prediction and Explanation

论文浅尝 | Interaction Embeddings for Prediction and Explanation

开放知识图谱

11+阅读 · 2019年2月1日

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

5+阅读 · 2015年12月31日

实时跟踪放射治疗中标记点可见性的优化策略及算法开发

国家自然科学基金

1+阅读 · 2015年12月31日

生物序列大数据集模体发现算法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于潜在药效物质组的中药注射剂PK-BN-PD模型的构建与应用

国家自然科学基金

0+阅读 · 2015年12月31日

上市后药品不良反应信号检测中双稳健方法的构建

国家自然科学基金

0+阅读 · 2015年12月31日

基于体内过程分析的中西药注射剂联合序贯用药“时间窗”的探索性研究

国家自然科学基金

0+阅读 · 2015年12月31日

试验设计中的模型选择

国家自然科学基金

6+阅读 · 2014年12月31日

面向生物操作与标识的微透镜阵列制造光诱导方法

国家自然科学基金

0+阅读 · 2014年12月31日

基于透明的医源性感染指标测量的基准研究

国家自然科学基金

0+阅读 · 2014年12月31日

多元数据与函数型数据的序贯检验方法与控制图研究

国家自然科学基金

0+阅读 · 2014年12月31日

MDP Planning as Policy Inference

MDP Planning as Policy Inference

Arxiv

0+阅读 · 2月19日

LRT-Diffusion: Calibrated Risk-Aware Guidance for Diffusion Policies

Arxiv

0+阅读 · 2月19日

Heuristic Search as Language-Guided Program Optimization

Arxiv

0+阅读 · 2月17日

CDRL: A Reinforcement Learning Framework Inspired by Cerebellar Circuits and Dendritic Computational Strategies

Arxiv

0+阅读 · 2月17日

Plan-MCTS: Plan Exploration for Action Exploitation in Web Navigation

Arxiv

0+阅读 · 2月15日

Towards a Diagnostic and Predictive Evaluation Methodology for Sequence Labeling Tasks

Arxiv

0+阅读 · 2月13日

Spend Search Where It Pays: Value-Guided Structured Sampling and Optimization for Generative Recommendation

Arxiv

0+阅读 · 2月11日

Constrained Sampling to Guide Universal Manipulation RL

Arxiv

0+阅读 · 2月9日

Guided Exploration of Sequential Rules

Arxiv

0+阅读 · 2月6日

Decision-Focused Sequential Experimental Design: A Directional Uncertainty-Guided Approach

Arxiv

0+阅读 · 2月5日

VIP会员

文章信息

相关主题

最新内容

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

1+阅读 · 今天4:39

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

4+阅读 · 今天2:52

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

3+阅读 · 今天2:48

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

5+阅读 · 今天2:43

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

5+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

5+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

5+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

9+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

12+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

9+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

4+阅读 · 4月24日

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

4+阅读 · 4月24日

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

4+阅读 · 4月24日

相关VIP内容

【博士论文】受脑启发的规划：提升强化学习泛化能力

【博士论文】受脑启发的规划：提升强化学习泛化能力

专知会员服务

14+阅读 · 2025年11月13日

【斯坦福博士论文】用于序贯决策的强化学习：从芯片设计到语言建模

【斯坦福博士论文】用于序贯决策的强化学习：从芯片设计到语言建模

专知会员服务

18+阅读 · 2025年6月21日

Transformer在药物发现及其他领域的应用综述

Transformer在药物发现及其他领域的应用综述

专知会员服务

17+阅读 · 2024年9月3日

人工智能到深度学习:药物发现的机器智能方法

人工智能到深度学习:药物发现的机器智能方法

专知会员服务

37+阅读 · 2022年5月6日

最新「图机器学习药物发现」综述论文，22页pdf245篇文献

最新「图机器学习药物发现」综述论文，22页pdf245篇文献

专知会员服务

100+阅读 · 2021年5月24日

图表示学习在药物发现中的应用，48页ppt

图表示学习在药物发现中的应用，48页ppt

专知会员服务

102+阅读 · 2021年4月30日

【论文推荐】用于低资源药物发现的元学习初始化，Meta-Learning Initializations for Low-Resource Drug Discovery

【论文推荐】用于低资源药物发现的元学习初始化，Meta-Learning Initializations for Low-Resource Drug Discovery

专知会员服务

27+阅读 · 2020年3月26日

【Texas 大学】强化学习领域的课程学习:一个框架和综述

【Texas 大学】强化学习领域的课程学习:一个框架和综述

专知会员服务

73+阅读 · 2020年3月22日

【KDD2019|讲座推荐】药物发现与开发的数据挖掘方法：Data Mining Methods for Drug Discovery and Development

【KDD2019|讲座推荐】药物发现与开发的数据挖掘方法：Data Mining Methods for Drug Discovery and Development

专知会员服务

69+阅读 · 2019年12月11日

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

专知会员服务

34+阅读 · 2019年3月21日

热门VIP内容

开通专知VIP会员享更多权益服务

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《军事模拟：将军事条令与目标融入AI智能体》

非对称优势：美海军开发低成本反无人机技术

《美战争部小企业创新研究（SBIR）计划》

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

药物化学第二期：蛋白质-小分子对接Score函数总结

药物化学第二期：蛋白质-小分子对接Score函数总结

GenomicAI

30+阅读 · 2022年3月5日

重磅！最新AI药物研发：白皮书、国内外技术报告、干货书、综述论文、关键技术最新论文（含实现代码）、数据集、教程课程讲解

重磅！最新AI药物研发：白皮书、国内外技术报告、干货书、综述论文、关键技术最新论文（含实现代码）、数据集、教程课程讲解

GenomicAI

14+阅读 · 2022年2月19日

基于深度学习的序列推荐系统：概念，算法与评估

基于深度学习的序列推荐系统：概念，算法与评估

专知

24+阅读 · 2019年6月6日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

论文浅尝 | Interaction Embeddings for Prediction and Explanation

论文浅尝 | Interaction Embeddings for Prediction and Explanation

开放知识图谱

11+阅读 · 2019年2月1日

相关论文

MDP Planning as Policy Inference

MDP Planning as Policy Inference

Arxiv

0+阅读 · 2月19日

LRT-Diffusion: Calibrated Risk-Aware Guidance for Diffusion Policies

Arxiv

0+阅读 · 2月19日

Heuristic Search as Language-Guided Program Optimization

Arxiv

0+阅读 · 2月17日

CDRL: A Reinforcement Learning Framework Inspired by Cerebellar Circuits and Dendritic Computational Strategies

Arxiv

0+阅读 · 2月17日

Plan-MCTS: Plan Exploration for Action Exploitation in Web Navigation

Arxiv

0+阅读 · 2月15日

Towards a Diagnostic and Predictive Evaluation Methodology for Sequence Labeling Tasks

Arxiv

0+阅读 · 2月13日

Spend Search Where It Pays: Value-Guided Structured Sampling and Optimization for Generative Recommendation

Arxiv

0+阅读 · 2月11日

Constrained Sampling to Guide Universal Manipulation RL

Arxiv

0+阅读 · 2月9日

Guided Exploration of Sequential Rules

Arxiv

0+阅读 · 2月6日

Decision-Focused Sequential Experimental Design: A Directional Uncertainty-Guided Approach

Arxiv

0+阅读 · 2月5日

相关基金

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

5+阅读 · 2015年12月31日

实时跟踪放射治疗中标记点可见性的优化策略及算法开发

国家自然科学基金

1+阅读 · 2015年12月31日

生物序列大数据集模体发现算法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于潜在药效物质组的中药注射剂PK-BN-PD模型的构建与应用

国家自然科学基金

0+阅读 · 2015年12月31日

上市后药品不良反应信号检测中双稳健方法的构建

国家自然科学基金

0+阅读 · 2015年12月31日

基于体内过程分析的中西药注射剂联合序贯用药“时间窗”的探索性研究

国家自然科学基金

0+阅读 · 2015年12月31日

试验设计中的模型选择

国家自然科学基金

6+阅读 · 2014年12月31日

面向生物操作与标识的微透镜阵列制造光诱导方法

国家自然科学基金

0+阅读 · 2014年12月31日

基于透明的医源性感染指标测量的基准研究

国家自然科学基金

0+阅读 · 2014年12月31日

多元数据与函数型数据的序贯检验方法与控制图研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员