Closing Reasoning Gaps in Clinical Agents with Differential Reasoning Learning - 专知论文

会员服务 ·

0

差分 · 输出 · 智能体 · 智能体推理 · 临床决策支持 ·

Closing Reasoning Gaps in Clinical Agents with Differential Reasoning Learning

翻译：弥合临床智能体推理差距的差分推理学习

Jinsong Liu,Yuhang Jiang,Ramayya Krishnan,Rema Padman,Yiye Zhang,Jiang Bian

Clinical decision support requires not only correct answers but also clinically valid reasoning. We propose Differential Reasoning Learning (DRL), a framework that improves clinical agents by learning from reasoning discrepancies. From reference reasoning rationales (e.g., physician-authored clinical rationale, clinical guidelines, or outputs from more capable models) and the agent's free-form chain-of-thought (CoT), DRL extracts reasoning graphs as directed acyclic graphs (DAGs) and performs a clinically weighted graph edit distance (GED)-based discrepancy analysis. An LLM-as-a-judge aligns semantically equivalent nodes and diagnoses discrepancies between graphs. These graph-level discrepancy diagnostics are converted into natural-language instructions and stored in a Differential Reasoning Knowledge Base (DR-KB). At inference, we retrieve top-$k$ instructions via Retrieval-Augmented Generation (RAG) to augment the agent prompt and patch likely logic gaps. Evaluation on open medical question answering (QA) benchmarks and a Return Visit Admissions (RVA) prediction task from internal clinical data demonstrates gains over baselines, improving both final-answer accuracy and reasoning fidelity. Ablation studies confirm gains from infusing reference reasoning rationales and the top-$k$ retrieval strategy. Clinicians' review of the output provides further assurance of the approach. Together, results suggest that DRL supports more reliable clinical decision-making in complex reasoning scenarios and offers a practical mechanism for deployment under limited token budgets.

翻译：临床决策支持不仅需要正确答案，还需要临床有效的推理过程。我们提出差分推理学习（DRL）框架，通过学习推理差异来改进临床智能体。该框架基于参考推理依据（如医师撰写的临床推理、临床指南或更强模型的输出）与智能体自由生成的思维链（CoT），将推理过程提取为有向无环图（DAG），并执行基于临床加权图编辑距离（GED）的差异分析。采用LLM作为评判器对齐语义等效节点并诊断图间差异。这些图级差异诊断被转化为自然语言指令，存储于差分推理知识库（DR-KB）中。在推理阶段，通过检索增强生成（RAG）检索top-$k$指令以增强智能体提示，修补潜在逻辑漏洞。在开放医学问答（QA）基准测试及基于内部临床数据的复诊入院（RVA）预测任务上的评估表明，本方法在基线模型基础上实现了性能提升，同时改善了最终答案准确性与推理保真度。消融实验证实了注入参考推理依据与top-$k$检索策略的增益效果。临床医师对输出的评审进一步验证了该方法的可靠性。综合结果表明，DRL能够在复杂推理场景中支持更可靠的临床决策，并为有限令牌预算下的实际部署提供了可行机制。

0

相关内容

【CMU博士论文】面向目标的自主智能体推理

【CMU博士论文】面向目标的自主智能体推理

专知会员服务

27+阅读 · 2025年9月11日

大语言模型推理前沿综述：推理扩展、推理学习与智能体系统

大语言模型推理前沿综述：推理扩展、推理学习与智能体系统

专知会员服务

39+阅读 · 2025年4月20日

【博士论文】深度学习中的推理不一致性及其缓解方法

【博士论文】深度学习中的推理不一致性及其缓解方法

专知会员服务

26+阅读 · 2025年4月5日

《单智能体与多智能体深度强化学习方法的优化研究》219页

《单智能体与多智能体深度强化学习方法的优化研究》219页

专知会员服务

53+阅读 · 2025年4月5日

《改进单智能体和多智能体深度强化学习方法》219页

《改进单智能体和多智能体深度强化学习方法》219页

专知会员服务

64+阅读 · 2025年2月14日

多智能体深度强化学习研究进展

多智能体深度强化学习研究进展

专知会员服务

76+阅读 · 2024年7月17日

不可错过！多伦多大学《基于机器学习的自动推理》2023课程，附Slides

不可错过！多伦多大学《基于机器学习的自动推理》2023课程，附Slides

专知会员服务

27+阅读 · 2023年2月8日

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

专知会员服务

119+阅读 · 2022年5月7日

【ICML2020投稿论文-DeepMind】时序差分学习的推理与泛化，Temporal Difference Learning

专知会员服务

26+阅读 · 2020年3月16日

【论文推荐中科院自动化所】视频游戏中深度强化学习的研究综述，A Survey of Deep Reinforcement Learning in Video

【论文推荐中科院自动化所】视频游戏中深度强化学习的研究综述，A Survey of Deep Reinforcement Learning in Video

专知会员服务

48+阅读 · 2019年12月24日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

基于深度元学习的因果推断新方法

基于深度元学习的因果推断新方法

图与推荐

12+阅读 · 2020年7月21日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

理解人类推理的深度学习

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

深度强化学习在NLP怎么用？看清华黄民烈老师这一份120页《自然语言处理和搜索中的深度强化学习应用》讲义

深度强化学习在NLP怎么用？看清华黄民烈老师这一份120页《自然语言处理和搜索中的深度强化学习应用》讲义

专知

31+阅读 · 2018年9月1日

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

专知

21+阅读 · 2018年5月14日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

Partially Observable Multi-Agent Reinforcement Learning with Information Sharing

Arxiv

0+阅读 · 3月12日

Reasoning as Gradient: Scaling MLE Agents Beyond Tree Search

Arxiv

0+阅读 · 3月2日

The Art of Efficient Reasoning: Data, Reward, and Optimization

Arxiv

0+阅读 · 2月24日

Anatomy of Agentic Memory: Taxonomy and Empirical Analysis of Evaluation and System Limitations

Arxiv

0+阅读 · 2月22日

Process-Supervised Multi-Agent Reinforcement Learning for Reliable Clinical Reasoning

Arxiv

0+阅读 · 2月15日

Bridging AI and Clinical Reasoning: Abductive Explanations for Alignment on Critical Symptoms

Arxiv

0+阅读 · 2月15日

Expanding Reasoning Potential in Foundation Model by Learning Diverse Chains of Thought Patterns

Arxiv

0+阅读 · 2月11日

DiffuReason: Bridging Latent Reasoning and Generative Refinement for Sequential Recommendation

Arxiv

0+阅读 · 2月10日

Beyond Correctness: Learning Robust Reasoning via Transfer

Arxiv

0+阅读 · 2月9日

DEEPMED: Building a Medical DeepResearch Agent via Multi-hop Med-Search Data and Turn-Controlled Agentic Training & Inference

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

智能体推理

临床决策支持

最新内容

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

7+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

5+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

7+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

4+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

8+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

7+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

4+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

2+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

5+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

3+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

4+阅读 · 7月17日

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

12+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

7+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

6+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

14+阅读 · 7月16日

相关VIP内容

【CMU博士论文】面向目标的自主智能体推理

【CMU博士论文】面向目标的自主智能体推理

专知会员服务

27+阅读 · 2025年9月11日

大语言模型推理前沿综述：推理扩展、推理学习与智能体系统

大语言模型推理前沿综述：推理扩展、推理学习与智能体系统

专知会员服务

39+阅读 · 2025年4月20日

【博士论文】深度学习中的推理不一致性及其缓解方法

【博士论文】深度学习中的推理不一致性及其缓解方法

专知会员服务

26+阅读 · 2025年4月5日

《单智能体与多智能体深度强化学习方法的优化研究》219页

《单智能体与多智能体深度强化学习方法的优化研究》219页

专知会员服务

53+阅读 · 2025年4月5日

《改进单智能体和多智能体深度强化学习方法》219页

《改进单智能体和多智能体深度强化学习方法》219页

专知会员服务

64+阅读 · 2025年2月14日

多智能体深度强化学习研究进展

多智能体深度强化学习研究进展

专知会员服务

76+阅读 · 2024年7月17日

不可错过！多伦多大学《基于机器学习的自动推理》2023课程，附Slides

不可错过！多伦多大学《基于机器学习的自动推理》2023课程，附Slides

专知会员服务

27+阅读 · 2023年2月8日

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

专知会员服务

119+阅读 · 2022年5月7日

【ICML2020投稿论文-DeepMind】时序差分学习的推理与泛化，Temporal Difference Learning

专知会员服务

26+阅读 · 2020年3月16日

【论文推荐中科院自动化所】视频游戏中深度强化学习的研究综述，A Survey of Deep Reinforcement Learning in Video

【论文推荐中科院自动化所】视频游戏中深度强化学习的研究综述，A Survey of Deep Reinforcement Learning in Video

专知会员服务

48+阅读 · 2019年12月24日

热门VIP内容

开通专知VIP会员享更多权益服务

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

相关资讯

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

基于深度元学习的因果推断新方法

基于深度元学习的因果推断新方法

图与推荐

12+阅读 · 2020年7月21日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

理解人类推理的深度学习

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

深度强化学习在NLP怎么用？看清华黄民烈老师这一份120页《自然语言处理和搜索中的深度强化学习应用》讲义

深度强化学习在NLP怎么用？看清华黄民烈老师这一份120页《自然语言处理和搜索中的深度强化学习应用》讲义

专知

31+阅读 · 2018年9月1日

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

专知

21+阅读 · 2018年5月14日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Partially Observable Multi-Agent Reinforcement Learning with Information Sharing

Arxiv

0+阅读 · 3月12日

Reasoning as Gradient: Scaling MLE Agents Beyond Tree Search

Arxiv

0+阅读 · 3月2日

The Art of Efficient Reasoning: Data, Reward, and Optimization

Arxiv

0+阅读 · 2月24日

Anatomy of Agentic Memory: Taxonomy and Empirical Analysis of Evaluation and System Limitations

Arxiv

0+阅读 · 2月22日

Process-Supervised Multi-Agent Reinforcement Learning for Reliable Clinical Reasoning

Arxiv

0+阅读 · 2月15日

Bridging AI and Clinical Reasoning: Abductive Explanations for Alignment on Critical Symptoms

Arxiv

0+阅读 · 2月15日

Expanding Reasoning Potential in Foundation Model by Learning Diverse Chains of Thought Patterns

Arxiv

0+阅读 · 2月11日

DiffuReason: Bridging Latent Reasoning and Generative Refinement for Sequential Recommendation

Arxiv

0+阅读 · 2月10日

Beyond Correctness: Learning Robust Reasoning via Transfer

Arxiv

0+阅读 · 2月9日

DEEPMED: Building a Medical DeepResearch Agent via Multi-hop Med-Search Data and Turn-Controlled Agentic Training & Inference

Arxiv

0+阅读 · 2月4日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员