Biomedical question answering (QA) increasingly requires reasoning over interacting entities, where supporting evidence is scattered across biomedical knowledge graphs, literature documents, and web-accessible resources. However, existing biomedical QA benchmarks mainly focus on exam-style knowledge, literature comprehension, or short-range multi-hop inference, leaving source-conditioned graph reasoning and evidence topology construction underexplored. To fill this gap, we introduce BioMedHop, a multi-source graph-grounded benchmark for evaluating biomedical reasoning over structured evidence topologies. BioMedHop contains 10,045 instances across KG, document, web, and hybrid evidence settings, covering shared-neighbor matching, intersection reasoning, path-based reasoning, and counting, with option-based, open-ended, and numeric count renderings. To support this benchmark, we further propose BioWeave, a source-aware reasoning framework that retrieves biomedical KG paths, gathers supporting clues from documents and web sources, assembles them into a unified evidence graph, and verifies answers through entity-level evidence support. Comprehensive experiments show that BioWeave achieves the best overall performance among compared methods on BioMedHop, outperforming the strong hybrid baseline ToG-2 by 10.5% in the overall average. Moreover, BioWeave consistently improves different LLM backbones and enables smaller models, such as Qwen3-4B, to achieve reasoning performance comparable to GPT-4-Turbo.


翻译:生物医学问答(QA)日益需要对相互作用实体进行推理,其中支持性证据分散在生物医学知识图谱、文献文档和网络可访问资源中。然而,现有生物医学问答基准主要聚焦于考试型知识、文献理解或短程多跳推理,导致基于源条件的图推理和证据拓扑构建研究不足。为填补这一空白,我们提出BioMedHop,一个基于多源图的基准,用于评估结构化证据拓扑上的生物医学推理。BioMedHop包含10,045个实例,涵盖知识图谱、文献、网络及混合证据场景,涉及共享邻居匹配、交集推理、路径推理和计数,并提供选项型、开放式和数值计数等呈现形式。为支撑该基准,我们进一步提出BioWeave,一个源感知的推理框架,该框架检索生物医学知识图谱路径、从文献和网络来源收集支持线索、将其整合为统一证据图,并通过实体级证据支持验证答案。全面实验表明,BioWeave在BioMedHop上取得了所有对比方法的最佳整体性能,在整体平均值上比强混合基线ToG-2高出10.5%。此外,BioWeave持续改善不同大语言模型骨干网络,并使得Qwen3-4B等较小模型达到与GPT-4-Turbo相当的推理性能。

0
下载
关闭预览

相关内容

具有动能的生命体。
因果推断在医药图像的应用:数据缺失和数据不匹配
专知会员服务
58+阅读 · 2022年4月2日
专知会员服务
90+阅读 · 2021年6月13日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
论文浅尝 | 一种用于多关系问答的可解释推理网络
开放知识图谱
18+阅读 · 2019年5月21日
因果推理学习算法资源大列表
专知
27+阅读 · 2019年3月3日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
因果推断在医药图像的应用:数据缺失和数据不匹配
专知会员服务
58+阅读 · 2022年4月2日
专知会员服务
90+阅读 · 2021年6月13日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员