Large language models have achieved strong performance on medical reasoning benchmarks, yet their deployment in clinical settings demands rigorous verification to ensure factual accuracy. While reward models offer a scalable approach for reasoning trace verification, existing methods face two limitations: they produce only scalar reward values without explicit justification, and they rely on single-pass retrieval that precludes adaptive knowledge access as verification unfolds. We introduce $\method$, an agentic framework that addresses these limitations by training medical reasoning verifiers to iteratively query external medical corpora during evaluation. Our approach combines tool-augmented verification with an iterative reinforcement learning paradigm that requires only trace-level supervision, alongside an adaptive curriculum mechanism that dynamically adjusts training data distribution. Across four medical reasoning benchmarks, $\method$ achieves substantial gains over existing methods, improving MedQA accuracy by 23.5% and MedXpertQA by 32.0% relative to the base generator in particular. Crucially, $\method$ demonstrates an $\mathbf{8\times}$ reduction in sampling budget requirement compared to prior reward model baselines. These findings establish that grounding verification in dynamically retrieved evidence offers a principled path toward more reliable medical reasoning systems.


翻译:大型语言模型在医疗推理基准测试中已展现出强劲性能,然而其在临床环境中的部署需要进行严格验证以确保事实准确性。尽管奖励模型为推理轨迹验证提供了一种可扩展的方法,但现有方法面临两个局限:它们仅产生标量奖励值而缺乏明确依据,且依赖于单次检索机制,无法在验证过程中进行自适应知识访问。我们提出$\method$,这是一个通过训练医疗推理验证器在评估过程中迭代查询外部医学语料库来解决上述局限的智能体框架。我们的方法将工具增强验证与仅需轨迹级监督的迭代强化学习范式相结合,并引入自适应课程机制以动态调整训练数据分布。在四个医疗推理基准测试中,$\method$相较现有方法取得显著提升,特别是在MedQA上准确率相对基础生成器提高23.5%,在MedXpertQA上提高32.0%。关键的是,$\method$相比先前的奖励模型基线实现了$\mathbf{8\times}$的采样预算需求降低。这些发现表明,将验证过程建立在动态检索证据的基础上,为构建更可靠的医疗推理系统提供了理论可行的路径。

0
下载
关闭预览

相关内容

面向大型推理模型的强化学习综述
专知会员服务
29+阅读 · 2025年9月11日
【ICML2025】通过多智能体反思强化大语言模型推理
专知会员服务
22+阅读 · 2025年6月11日
大规模语言模型推理的进展综述
专知会员服务
56+阅读 · 2025年2月8日
大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
迈向大型推理模型:基于大型语言模型的强化推理综述
专知会员服务
49+阅读 · 2025年1月17日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
论文浅尝 | 基于神经网络的知识推理
开放知识图谱
15+阅读 · 2018年3月12日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员