Clinical decision support requires not only correct answers but also clinically valid reasoning. We propose Differential Reasoning Learning (DRL), a framework that improves clinical agents by learning from reasoning discrepancies. From reference reasoning rationales (e.g., physician-authored clinical rationale, clinical guidelines, or outputs from more capable models) and the agent's free-form chain-of-thought (CoT), DRL extracts reasoning graphs as directed acyclic graphs (DAGs) and performs a clinically weighted graph edit distance (GED)-based discrepancy analysis. An LLM-as-a-judge aligns semantically equivalent nodes and diagnoses discrepancies between graphs. These graph-level discrepancy diagnostics are converted into natural-language instructions and stored in a Differential Reasoning Knowledge Base (DR-KB). At inference, we retrieve top-$k$ instructions via Retrieval-Augmented Generation (RAG) to augment the agent prompt and patch likely logic gaps. Evaluation on open medical question answering (QA) benchmarks and a Return Visit Admissions (RVA) prediction task from internal clinical data demonstrates gains over baselines, improving both final-answer accuracy and reasoning fidelity. Ablation studies confirm gains from infusing reference reasoning rationales and the top-$k$ retrieval strategy. Clinicians' review of the output provides further assurance of the approach. Together, results suggest that DRL supports more reliable clinical decision-making in complex reasoning scenarios and offers a practical mechanism for deployment under limited token budgets.


翻译:临床决策支持不仅需要正确答案,还需要临床有效的推理过程。我们提出差分推理学习(DRL)框架,通过学习推理差异来改进临床智能体。该框架基于参考推理依据(如医师撰写的临床推理、临床指南或更强模型的输出)与智能体自由生成的思维链(CoT),将推理过程提取为有向无环图(DAG),并执行基于临床加权图编辑距离(GED)的差异分析。采用LLM作为评判器对齐语义等效节点并诊断图间差异。这些图级差异诊断被转化为自然语言指令,存储于差分推理知识库(DR-KB)中。在推理阶段,通过检索增强生成(RAG)检索top-$k$指令以增强智能体提示,修补潜在逻辑漏洞。在开放医学问答(QA)基准测试及基于内部临床数据的复诊入院(RVA)预测任务上的评估表明,本方法在基线模型基础上实现了性能提升,同时改善了最终答案准确性与推理保真度。消融实验证实了注入参考推理依据与top-$k$检索策略的增益效果。临床医师对输出的评审进一步验证了该方法的可靠性。综合结果表明,DRL能够在复杂推理场景中支持更可靠的临床决策,并为有限令牌预算下的实际部署提供了可行机制。

0
下载
关闭预览

相关内容

【CMU博士论文】面向目标的自主智能体推理
专知会员服务
25+阅读 · 2025年9月11日
【博士论文】深度学习中的推理不一致性及其缓解方法
专知会员服务
25+阅读 · 2025年4月5日
《改进单智能体和多智能体深度强化学习方法》219页
专知会员服务
61+阅读 · 2025年2月14日
多智能体深度强化学习研究进展
专知会员服务
76+阅读 · 2024年7月17日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Exploring Reasoning Reward Model for Agents
VIP会员
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员