Process-Supervised Multi-Agent Reinforcement Learning for Reliable Clinical Reasoning - 专知论文

会员服务 ·

0

监督 · 系统 · 智能体系统 · 智能体 · 多智能体 ·

Process-Supervised Multi-Agent Reinforcement Learning for Reliable Clinical Reasoning

翻译：基于过程监督的多智能体强化学习在可靠临床推理中的应用

Chaeeun Lee,T. Michael Yates,Pasquale Minervini,T. Ian Simpson

Clinical decision-making requires nuanced reasoning over heterogeneous evidence and traceable justifications. While recent LLM multi-agent systems (MAS) show promise, they largely optimise for outcome accuracy while overlooking process-grounded reasoning aligned with clinical standards. One critical real-world case of this is gene-disease validity curation, where experts must determine whether a gene is causally implicated in a disease by synthesising diverse biomedical evidence. We introduce an agent-as-tool reinforcement learning framework for this task with two objectives: (i) process-level supervision to ensure reasoning follows valid clinical pathways, and (ii) efficient coordination via a hierarchical multi-agent system. Our evaluation on the ClinGen dataset shows that with outcome-only rewards, MAS with a GRPO-trained Qwen3-4B supervisor agent substantially improves final outcome accuracy from 0.195 with a base model supervisor to 0.732, but results in poor process alignment (0.392 F1). Conversely, with process + outcome rewards, MAS with GRPO-trained supervisor achieves higher outcome accuracy (0.750) while significantly improving process fidelity to 0.520 F1. Our code is available at https://github.com/chaeeunlee-io/GeneDiseaseCurationAgents.

翻译：临床决策需要对异质性证据进行细致推理并提供可追溯的论证依据。尽管近期基于大语言模型的多智能体系统展现出潜力，但其主要优化结果准确性，而忽视了符合临床标准的基于过程的推理。基因-疾病有效性评估是这一问题的关键现实案例，专家必须通过整合多元生物医学证据来判断基因是否与疾病存在因果关联。针对该任务，我们提出一种工具化智能体强化学习框架，其具备双重目标：(1) 通过过程级监督确保推理遵循有效的临床路径；(2)通过分层多智能体系统实现高效协同。在ClinGen数据集上的评估表明：当仅使用结果奖励时，采用GRPO训练的Qwen3-4B监督智能体的多智能体系统将最终结果准确率从基础模型监督器的0.195显著提升至0.732，但过程对齐性较差（F1值0.392）；反之，当结合过程与结果奖励时，采用GRPO训练监督器的多智能体系统在将结果准确率提升至0.750的同时，显著将过程保真度提高至0.520 F1值。代码已开源：https://github.com/chaeeunlee-io/GeneDiseaseCurationAgents。

0

相关内容

《多智能体大语言模型系统的可靠决策研究》

《多智能体大语言模型系统的可靠决策研究》

专知会员服务

40+阅读 · 2月2日

大语言模型的智能体化推理

大语言模型的智能体化推理

专知会员服务

35+阅读 · 1月21日

超越生成式人工智能：用于临床预测、反事实推断与规划的世界模型

超越生成式人工智能：用于临床预测、反事实推断与规划的世界模型

专知会员服务

22+阅读 · 2025年11月23日

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

专知会员服务

23+阅读 · 2025年10月22日

【CMU博士论文】面向目标的自主智能体推理

【CMU博士论文】面向目标的自主智能体推理

专知会员服务

27+阅读 · 2025年9月11日

【ICML2025】通过多智能体反思强化大语言模型推理

【ICML2025】通过多智能体反思强化大语言模型推理

专知会员服务

23+阅读 · 2025年6月11日

大语言模型推理前沿综述：推理扩展、推理学习与智能体系统

大语言模型推理前沿综述：推理扩展、推理学习与智能体系统

专知会员服务

39+阅读 · 2025年4月20日

多智能体深度强化学习研究进展

多智能体深度强化学习研究进展

专知会员服务

76+阅读 · 2024年7月17日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

72+阅读 · 2024年1月13日

深度学习在数学推理中的应用综述

深度学习在数学推理中的应用综述

专知会员服务

48+阅读 · 2022年12月25日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

60+阅读 · 2022年4月30日

【AI与医学】多模态机器学习精准医疗健康

【AI与医学】多模态机器学习精准医疗健康

专知

17+阅读 · 2022年4月25日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

基于深度元学习的因果推断新方法

基于深度元学习的因果推断新方法

图与推荐

12+阅读 · 2020年7月21日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

理解人类推理的深度学习

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

半监督多任务学习：Semisupervised Multitask Learning

半监督多任务学习：Semisupervised Multitask Learning

我爱读PAMI

18+阅读 · 2018年4月29日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于串联质谱数据的多肽鉴定半监督学习并行算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于多模态脑影像处理和多维可视化的辅助诊疗技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

流程监控与评估中多元数据整合研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

大数据环境下融合多源信息的推荐系统关键问题研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

Do Mixed-Vendor Multi-Agent LLMs Improve Clinical Diagnosis?

Arxiv

0+阅读 · 3月14日

Unmasking Reasoning Processes: A Process-aware Benchmark for Evaluating Structural Mathematical Reasoning in LLMs

Arxiv

0+阅读 · 2月26日

AgenticRAGTracer: A Hop-Aware Benchmark for Diagnosing Multi-Step Retrieval Reasoning in Agentic RAG

Arxiv

0+阅读 · 2月22日

DIAGPaper: Diagnosing Valid and Specific Weaknesses in Scientific Papers via Multi-Agent Reasoning

Arxiv

0+阅读 · 2月18日

A Multi-Agent Framework for Medical AI: Leveraging Fine-Tuned GPT, LLaMA, and DeepSeek R1 for Evidence-Based and Bias-Aware Clinical Query Processing

Arxiv

0+阅读 · 2月15日

Internalizing Multi-Agent Reasoning for Accurate and Efficient LLM-based Recommendation

Arxiv

0+阅读 · 2月12日

Multimodal Fact-Level Attribution for Verifiable Reasoning

Arxiv

0+阅读 · 2月12日

Closing Reasoning Gaps in Clinical Agents with Differential Reasoning Learning

Arxiv

0+阅读 · 2月10日

Internalizing Multi-Agent Reasoning for Accurate and Efficient LLM-based Recommendation

Arxiv

0+阅读 · 2月10日

Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

智能体系统

最新内容

CVPR 2026教程｜扩散模型原理：连续、离散与实时生成

CVPR 2026教程｜扩散模型原理：连续、离散与实时生成

专知会员服务

1+阅读 · 6月11日

重磅综述｜大模型智能体环境工程：建模、合成、评估与协同演化

重磅综述｜大模型智能体环境工程：建模、合成、评估与协同演化

专知会员服务

1+阅读 · 6月11日

面向特种部队的、以操作员为中心的人工智能决策支持系统框架

面向特种部队的、以操作员为中心的人工智能决策支持系统框架

专知会员服务

5+阅读 · 6月11日

《多域战场上反制小型无人机系统》150页

《多域战场上反制小型无人机系统》150页

专知会员服务

14+阅读 · 6月11日

《基于成果军事教育框架下的军官联合职业军事教育认证程序》2026最新170页

《基于成果军事教育框架下的军官联合职业军事教育认证程序》2026最新170页

专知会员服务

5+阅读 · 6月11日

战场人工智能：增强陆地作战能力的发现与要求

战场人工智能：增强陆地作战能力的发现与要求

专知会员服务

3+阅读 · 6月11日

人工智能赋能指挥所：以人工智能为中心的指挥控制的核心要素

人工智能赋能指挥所：以人工智能为中心的指挥控制的核心要素

专知会员服务

9+阅读 · 6月11日

以人工智能为中心的指挥控制

以人工智能为中心的指挥控制

专知会员服务

3+阅读 · 6月11日

《通过适应复杂环境与特殊作战行动动态来变革情报周期》

《通过适应复杂环境与特殊作战行动动态来变革情报周期》

专知会员服务

4+阅读 · 6月11日

俄乌冲突背景下军事特种公路运输日益增长的重要性

俄乌冲突背景下军事特种公路运输日益增长的重要性

专知会员服务

4+阅读 · 6月11日

速度优先于谨慎：NSPM-11意味着什么（将人工智能融入美国国防和情报行动最全面的声明）

速度优先于谨慎：NSPM-11意味着什么（将人工智能融入美国国防和情报行动最全面的声明）

专知会员服务

9+阅读 · 6月10日

《基于深度强化学习的反无人机技术研究》178页

《基于深度强化学习的反无人机技术研究》178页

专知会员服务

13+阅读 · 6月10日

技术突破与战略优势竞争：美军人工智能技术运用阶段分析

技术突破与战略优势竞争：美军人工智能技术运用阶段分析

专知会员服务

8+阅读 · 6月10日

“史诗怒火”行动与“AI中心战”模式的浮现

“史诗怒火”行动与“AI中心战”模式的浮现

专知会员服务

15+阅读 · 6月10日

【CVPR2026教程】扩散模型的解析理解

【CVPR2026教程】扩散模型的解析理解

专知会员服务

6+阅读 · 6月10日

相关VIP内容

《多智能体大语言模型系统的可靠决策研究》

《多智能体大语言模型系统的可靠决策研究》

专知会员服务

40+阅读 · 2月2日

大语言模型的智能体化推理

大语言模型的智能体化推理

专知会员服务

35+阅读 · 1月21日

超越生成式人工智能：用于临床预测、反事实推断与规划的世界模型

超越生成式人工智能：用于临床预测、反事实推断与规划的世界模型

专知会员服务

22+阅读 · 2025年11月23日

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

专知会员服务

23+阅读 · 2025年10月22日

【CMU博士论文】面向目标的自主智能体推理

【CMU博士论文】面向目标的自主智能体推理

专知会员服务

27+阅读 · 2025年9月11日

【ICML2025】通过多智能体反思强化大语言模型推理

【ICML2025】通过多智能体反思强化大语言模型推理

专知会员服务

23+阅读 · 2025年6月11日

大语言模型推理前沿综述：推理扩展、推理学习与智能体系统

大语言模型推理前沿综述：推理扩展、推理学习与智能体系统

专知会员服务

39+阅读 · 2025年4月20日

多智能体深度强化学习研究进展

多智能体深度强化学习研究进展

专知会员服务

76+阅读 · 2024年7月17日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

72+阅读 · 2024年1月13日

深度学习在数学推理中的应用综述

深度学习在数学推理中的应用综述

专知会员服务

48+阅读 · 2022年12月25日

热门VIP内容

开通专知VIP会员享更多权益服务

重磅综述｜大模型智能体环境工程：建模、合成、评估与协同演化

《多域战场上反制小型无人机系统》150页

CVPR 2026教程｜扩散模型原理：连续、离散与实时生成

面向特种部队的、以操作员为中心的人工智能决策支持系统框架

相关资讯

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

60+阅读 · 2022年4月30日

【AI与医学】多模态机器学习精准医疗健康

【AI与医学】多模态机器学习精准医疗健康

专知

17+阅读 · 2022年4月25日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

基于深度元学习的因果推断新方法

基于深度元学习的因果推断新方法

图与推荐

12+阅读 · 2020年7月21日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

理解人类推理的深度学习

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

半监督多任务学习：Semisupervised Multitask Learning

半监督多任务学习：Semisupervised Multitask Learning

我爱读PAMI

18+阅读 · 2018年4月29日

相关论文

Do Mixed-Vendor Multi-Agent LLMs Improve Clinical Diagnosis?

Arxiv

0+阅读 · 3月14日

Unmasking Reasoning Processes: A Process-aware Benchmark for Evaluating Structural Mathematical Reasoning in LLMs

Arxiv

0+阅读 · 2月26日

AgenticRAGTracer: A Hop-Aware Benchmark for Diagnosing Multi-Step Retrieval Reasoning in Agentic RAG

Arxiv

0+阅读 · 2月22日

DIAGPaper: Diagnosing Valid and Specific Weaknesses in Scientific Papers via Multi-Agent Reasoning

Arxiv

0+阅读 · 2月18日

A Multi-Agent Framework for Medical AI: Leveraging Fine-Tuned GPT, LLaMA, and DeepSeek R1 for Evidence-Based and Bias-Aware Clinical Query Processing

Arxiv

0+阅读 · 2月15日

Internalizing Multi-Agent Reasoning for Accurate and Efficient LLM-based Recommendation

Arxiv

0+阅读 · 2月12日

Multimodal Fact-Level Attribution for Verifiable Reasoning

Arxiv

0+阅读 · 2月12日

Closing Reasoning Gaps in Clinical Agents with Differential Reasoning Learning

Arxiv

0+阅读 · 2月10日

Internalizing Multi-Agent Reasoning for Accurate and Efficient LLM-based Recommendation

Arxiv

0+阅读 · 2月10日

Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision

Arxiv

0+阅读 · 2月4日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于串联质谱数据的多肽鉴定半监督学习并行算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于多模态脑影像处理和多维可视化的辅助诊疗技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

流程监控与评估中多元数据整合研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

大数据环境下融合多源信息的推荐系统关键问题研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员