Medical reasoning models remain constrained by parametric knowledge and are thus susceptible to forgetting and hallucinations. DeepResearch (DR) models ground outputs in verifiable evidence from tools and perform strongly in general domains, but their direct transfer to medical field yields relatively limited gains. We attribute this to two gaps: task characteristic and tool-use scaling. Medical questions require evidence interpretation in a knowledge-intensive clinical context; while general DR models can retrieve information, they often lack clinical-context reasoning and thus "find it but fail to use it," leaving performance limited by medical abilities. Moreover, in medical scenarios, blindly scaling tool-call can inject noisy context, derailing sensitive medical reasoning and prompting repetitive evidence-seeking along incorrect paths. Therefore, we propose DeepMed. For data, we deploy a multi-hop med-search QA synthesis method supporting the model to apply the DR paradigm in medical contexts. For training, we introduce a difficulty-aware turn-penalty to suppress excessive tool-call growth. For inference, we bring a monitor to help validate hypotheses within a controlled number of steps and avoid context rot. Overall, on seven medical benchmarks, DeepMed improves its base model by 9.79\% on average and outperforms larger medical reasoning and DR models.


翻译:医学推理模型仍受限于参数化知识,因此容易产生遗忘与幻觉。深度研究(DR)模型将输出基于工具提供的可验证证据,在通用领域表现优异,但直接迁移至医学领域带来的增益相对有限。我们将此归因于两个差距:任务特性与工具使用规模。医学问题需要在知识密集的临床情境中进行证据解读;而通用DR模型虽能检索信息,却常缺乏临床情境推理能力,导致“找到证据却无法有效利用”,使得性能受限于医学能力。此外,在医学场景中,盲目扩展工具调用可能引入噪声语境,干扰敏感的医学推理过程,并引发沿错误路径的重复证据搜寻。为此,我们提出DeepMed。在数据方面,我们部署了一种多跳医学搜索问答合成方法,支持模型在医学情境中应用DR范式。在训练方面,我们引入难度感知的轮次惩罚机制以抑制过度工具调用增长。在推理方面,我们引入监控模块帮助在可控步骤内验证假设并避免语境腐化。总体而言,在七项医学基准测试中,DeepMed将其基础模型平均提升9.79%,并优于规模更大的医学推理与DR模型。

0
下载
关闭预览

相关内容

多智能体深度强化学习研究进展
专知会员服务
76+阅读 · 2024年7月17日
专知会员服务
68+阅读 · 2021年6月3日
专知会员服务
83+阅读 · 2021年2月16日
斯坦福&谷歌Jeff Dean最新Nature论文:医疗深度学习技术指南
【AI与医学】多模态机器学习精准医疗健康
深度学习与医学图像分析
人工智能前沿讲习班
40+阅读 · 2019年6月8日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员