Therapeutic decision-making in clinical medicine constitutes a high-stakes domain in which AI guidance interacts with complex interactions among patient characteristics, disease processes, and pharmacological agents. Tasks such as drug recommendation, treatment planning, and adverse-effect prediction demand robust, multi-step reasoning grounded in reliable biomedical knowledge. Agentic AI methods, exemplified by TxAgent, address these challenges through iterative retrieval-augmented generation (RAG). TxAgent employs a fine-tuned Llama-3.1-8B model that dynamically generates and executes function calls to a unified biomedical tool suite (ToolUniverse), integrating FDA Drug API, OpenTargets, and Monarch resources to ensure access to current therapeutic information. In contrast to general-purpose RAG systems, medical applications impose stringent safety constraints, rendering the accuracy of both the reasoning trace and the sequence of tool invocations critical. These considerations motivate evaluation protocols treating token-level reasoning and tool-usage behaviors as explicit supervision signals. This work presents insights derived from our participation in the CURE-Bench NeurIPS 2025 Challenge, which benchmarks therapeutic-reasoning systems using metrics that assess correctness, tool utilization, and reasoning quality. We analyze how retrieval quality for function (tool) calls influences overall model performance and demonstrate performance gains achieved through improved tool-retrieval strategies. Our work was awarded the Excellence Award in Open Science. Complete information can be found at https://curebench.ai/.


翻译:临床医学中的治疗决策构成了高风险领域,其中AI引导需与患者特征、疾病进程及药理制剂间的复杂交互协同作用。诸如药物推荐、治疗方案制定及不良反应预测等任务,要求基于可靠生物医学知识进行稳健的多步推理。以TxAgent为代表的代理型AI方法,通过迭代检索增强生成(RAG)应对这些挑战。TxAgent采用微调后的Llama-3.1-8B模型,能动态生成并执行针对统一生物医学工具套件(ToolUniverse)的函数调用,整合FDA药品API、OpenTargets及Monarch资源,确保获取最新治疗信息。与通用RAG系统相比,医学应用施加了严格的安全约束,使得推理轨迹与工具调用序列的准确性至关重要。这些考量催生了将词元级推理与工具使用行为视为显式监督信号的评估方案。本文呈现了我们参与NeurIPS 2025 CURE-Bench挑战赛的见解——该竞赛通过评估正确性、工具利用及推理质量的指标,对治疗推理系统进行基准测试。我们分析了函数(工具)调用的检索质量如何影响整体模型性能,并展示了通过改进工具检索策略所取得的性能提升。本项工作荣获开放科学卓越奖。完整信息请见https://curebench.ai/。

0
下载
关闭预览

相关内容

【ChatGPT系列报告】AI+医疗:智医助理,40页ppt
专知会员服务
107+阅读 · 2023年6月30日
《Engineering》:从数据到AI药物研发
专知会员服务
46+阅读 · 2023年5月17日
医疗人工智能:知识引导与数据挖掘联合驱动
专知会员服务
70+阅读 · 2023年2月15日
「可解释知识图谱推理」最新方法综述
专知会员服务
89+阅读 · 2022年12月17日
【AAAI2022】Diaformer: 采用症状序列生成的方式做自动诊断
36氪研究院 | 2021年中国医疗AI行业研究报告,40页pdf
专知会员服务
84+阅读 · 2021年12月22日
专知会员服务
28+阅读 · 2021年2月12日
自然语言处理中注意力机制综述
AINLP
27+阅读 · 2019年1月21日
深度学习在推荐系统上的应用
架构文摘
13+阅读 · 2018年2月22日
尽早跑通深度学习的实践代码,是入门深度学习的最快途径
算法与数据结构
22+阅读 · 2017年12月13日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 24分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 26分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
2+阅读 · 38分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 58分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
【ChatGPT系列报告】AI+医疗:智医助理,40页ppt
专知会员服务
107+阅读 · 2023年6月30日
《Engineering》:从数据到AI药物研发
专知会员服务
46+阅读 · 2023年5月17日
医疗人工智能:知识引导与数据挖掘联合驱动
专知会员服务
70+阅读 · 2023年2月15日
「可解释知识图谱推理」最新方法综述
专知会员服务
89+阅读 · 2022年12月17日
【AAAI2022】Diaformer: 采用症状序列生成的方式做自动诊断
36氪研究院 | 2021年中国医疗AI行业研究报告,40页pdf
专知会员服务
84+阅读 · 2021年12月22日
专知会员服务
28+阅读 · 2021年2月12日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员