Building evidence-based knowledge bases from full-text literature for disease-specific biomedical reasoning - 专知论文

会员服务 ·

0

生物 · 知识 · 数据集 · 构建 · 包含 ·

Building evidence-based knowledge bases from full-text literature for disease-specific biomedical reasoning

翻译：基于全文文献构建面向疾病生物医学推理的证据型知识库

Chang Zong,Sicheng Lv,Si-tu Xue,Huilin Zheng,Jian Wan,Lei Zhang

from arxiv, 30 pages, 5 figures, 12 tables

Biomedical knowledge resources often either preserve evidence as unstructured text or compress it into flat triples that omit study design, provenance, and quantitative support. Here we present EvidenceNet, a disease-specific dataset of record-level evidence collections and corresponding graph representations derived from full-text biomedical literature. EvidenceNet uses a large language model (LLM)-assisted pipeline to extract experimentally grounded findings as structured evidence records, normalize biomedical entities, score evidence quality, and connect related records through typed semantic relations. We release EvidenceNet-HCC with 7,872 evidence records and a corresponding graph with 10,328 nodes and 49,756 edges, and EvidenceNet-CRC with 6,622 records and a corresponding graph with 8,795 nodes and 39,361 edges. Technical validation shows high component fidelity, including 98.3% field-level extraction accuracy, 100.0% high-confidence entity-link accuracy, 87.5% fusion integrity, and 90.0% semantic relation-type accuracy. Downstream analyses show that the data support retrieval-augmented question answering and graph-based tasks such as future link prediction and target prioritization. These results establish EvidenceNet as a disease-specific biomedical knowledge base dataset for evidence-aware analysis and reuse.

翻译：生物医学知识资源通常要么将证据保存为非结构化文本，要么将其压缩为忽略研究设计、来源和定量支持的扁平三元组。本文提出EvidenceNet——一种基于全文生物医学文献构建的，包含记录级证据集合及对应图表示形式的疾病特定数据集。EvidenceNet采用大语言模型辅助管道，将实验验证的发现提取为结构化证据记录，标准化生物医学实体，评估证据质量，并通过类型化语义关系连接相关记录。我们发布了包含7,872条证据记录及对应图（含10,328个节点和49,756条边）的EvidenceNet-HCC数据集，以及包含6,622条记录及对应图（含8,795个节点和39,361条边）的EvidenceNet-CRC数据集。技术验证表明组件具有高保真度：字段级提取准确率达98.3%，高置信度实体链接准确率达100.0%，融合完整性达87.5%，语义关系类型准确率达90.0%。下游分析显示，该数据可支持检索增强式问答及未来链接预测和目标优先级排序等图任务。这些结果确立了EvidenceNet作为面向证据感知分析与复用的疾病特定生物医学知识库数据集地位。

0

相关内容

具有动能的生命体。

【普林斯顿博士论文】结构化生物医学数据的概率模型，130页pdf

【普林斯顿博士论文】结构化生物医学数据的概率模型，130页pdf

专知会员服务

24+阅读 · 2023年3月12日

构建基于生物医学文献的抑郁症知识图谱

构建基于生物医学文献的抑郁症知识图谱

专知会员服务

12+阅读 · 2022年11月14日

哈佛大学｜构建知识图谱PrimeKG以实现精准医疗--数据与代码全部公开，帮你从零开始复现知识图谱

哈佛大学｜构建知识图谱PrimeKG以实现精准医疗--数据与代码全部公开，帮你从零开始复现知识图谱

专知会员服务

43+阅读 · 2022年5月6日

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

专知会员服务

137+阅读 · 2020年7月29日

COVID-19文献知识图谱构建，UIUC-哥伦比亚大学

COVID-19文献知识图谱构建，UIUC-哥伦比亚大学

专知会员服务

43+阅读 · 2020年7月2日

【斯坦福】从电子病历EHR构建知识图谱，Robustly Extracting Medical Knowledge from EHRs:A Case Study of Learning a Health Knowledge Graph

【斯坦福】从电子病历EHR构建知识图谱，Robustly Extracting Medical Knowledge from EHRs:A Case Study of Learning a Health Knowledge Graph

专知会员服务

56+阅读 · 2020年6月2日

数字病理学中的生成性对抗网络:趋势和未来潜力的综述 Generative Adversarial Networks in Digital Pathology: A Survey on Trends and Future Potential

数字病理学中的生成性对抗网络:趋势和未来潜力的综述 Generative Adversarial Networks in Digital Pathology: A Survey on Trends and Future Potential

专知会员服务

19+阅读 · 2020年5月1日

深度学习生物图像重建综述，Deep Learning for Biomedical Image Reconstruction: A Survey

深度学习生物图像重建综述，Deep Learning for Biomedical Image Reconstruction: A Survey

专知会员服务

40+阅读 · 2020年3月2日

【论文强烈推荐】基于卷积神经网络的基因组序列基序的表示学习，Representation learning of genomic sequence motifs with convolutional neural networks

【论文强烈推荐】基于卷积神经网络的基因组序列基序的表示学习，Representation learning of genomic sequence motifs with convolutional neural networks

专知会员服务

12+阅读 · 2019年12月21日

【图机器学习论文】基于深度学习的网络生物学（Deep Learning for Network Biology）

【图机器学习论文】基于深度学习的网络生物学（Deep Learning for Network Biology）

专知会员服务

11+阅读 · 2019年12月16日

哈佛大学｜构建知识图谱PrimeKG以实现精准医疗--数据与代码全部公开，帮你从零开始复现知识图谱

哈佛大学｜构建知识图谱PrimeKG以实现精准医疗--数据与代码全部公开，帮你从零开始复现知识图谱

GenomicAI

29+阅读 · 2022年5月4日

【AI+生物医学】耶鲁大学最新博士论文《图先验、最优传输和深度学习在生物医学发现中的应用》231页pdf

【AI+生物医学】耶鲁大学最新博士论文《图先验、最优传输和深度学习在生物医学发现中的应用》231页pdf

专知

11+阅读 · 2022年4月29日

基于多来源文本的中文医学知识图谱的构建

基于多来源文本的中文医学知识图谱的构建

专知

13+阅读 · 2020年8月21日

Github项目推荐 | 知识图谱文献集合

Github项目推荐 | 知识图谱文献集合

AI研习社

26+阅读 · 2019年4月12日

赛尔原创 | ACM BCB 2018 CausalTriad: 从医学文本数据中推断出新的因果关系假设

赛尔原创 | ACM BCB 2018 CausalTriad: 从医学文本数据中推断出新的因果关系假设

哈工大SCIR

14+阅读 · 2018年6月28日

【论文推荐】最新六篇知识图谱相关论文—事件演化图、神经词义消歧、增强神经网络、Mem2Seq、用户偏好传播、概率嵌入

【论文推荐】最新六篇知识图谱相关论文—事件演化图、神经词义消歧、增强神经网络、Mem2Seq、用户偏好传播、概率嵌入

专知

19+阅读 · 2018年6月14日

【论文推荐】最新八篇知识图谱相关论文—全卷积网络、结构化知识图谱、关系结构表示、情感分析、可解释和组合关系学习

【论文推荐】最新八篇知识图谱相关论文—全卷积网络、结构化知识图谱、关系结构表示、情感分析、可解释和组合关系学习

专知

24+阅读 · 2018年6月12日

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

产业智能官

29+阅读 · 2017年12月10日

【知识图谱】医学知识图谱构建技术与研究进展

【知识图谱】医学知识图谱构建技术与研究进展

产业智能官

44+阅读 · 2017年11月16日

医学知识图谱构建技术与研究进展

医学知识图谱构建技术与研究进展

全球人工智能

19+阅读 · 2017年11月13日

多视角识别长非编码RNA和人类复杂疾病关联预测研究

国家自然科学基金

4+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于复杂网络理论的肺系病中医古籍本体构建与知识发现研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多关联数据融合的疾病相似度算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向甲骨学知识图谱的实体发现及语义关系挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

复杂纵向数据的分位回归建模及其在生物医学大数据中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

Prediction-based Inference in Electronic Health Record (EHR)-linked Biobanks with Clinically Informative Outcomes

Arxiv

0+阅读 · 4月13日

Uncertainty-Aware Foundation Models for Clinical Data

Arxiv

0+阅读 · 4月5日

Eligibility-Aware Evidence Synthesis: An Agentic Framework for Clinical Trial Meta-Analysis

Arxiv

0+阅读 · 4月3日

Building evidence-based knowledge graphs from full-text literature for disease-specific biomedical reasoning

Arxiv

0+阅读 · 3月31日

Building evidence-based knowledge graphs from full-text literature for disease-specific biomedical reasoning

Arxiv

0+阅读 · 3月30日

SciEGQA: A Dataset for Scientific Evidence-Grounded Question Answering and Reasoning

Arxiv

0+阅读 · 3月30日

EvidenceRL: Reinforcing Evidence Consistency for Trustworthy Language Models

Arxiv

0+阅读 · 3月20日

Open Biomedical Knowledge Graphs at Scale: Construction, Federation, and AI Agent Access with Samyama Graph Database

Arxiv

0+阅读 · 3月16日

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Arxiv

0+阅读 · 3月11日

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Arxiv

0+阅读 · 3月9日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

2+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

4+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

3+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

【普林斯顿博士论文】结构化生物医学数据的概率模型，130页pdf

【普林斯顿博士论文】结构化生物医学数据的概率模型，130页pdf

专知会员服务

24+阅读 · 2023年3月12日

构建基于生物医学文献的抑郁症知识图谱

构建基于生物医学文献的抑郁症知识图谱

专知会员服务

12+阅读 · 2022年11月14日

哈佛大学｜构建知识图谱PrimeKG以实现精准医疗--数据与代码全部公开，帮你从零开始复现知识图谱

哈佛大学｜构建知识图谱PrimeKG以实现精准医疗--数据与代码全部公开，帮你从零开始复现知识图谱

专知会员服务

43+阅读 · 2022年5月6日

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

专知会员服务

137+阅读 · 2020年7月29日

COVID-19文献知识图谱构建，UIUC-哥伦比亚大学

COVID-19文献知识图谱构建，UIUC-哥伦比亚大学

专知会员服务

43+阅读 · 2020年7月2日

【斯坦福】从电子病历EHR构建知识图谱，Robustly Extracting Medical Knowledge from EHRs:A Case Study of Learning a Health Knowledge Graph

【斯坦福】从电子病历EHR构建知识图谱，Robustly Extracting Medical Knowledge from EHRs:A Case Study of Learning a Health Knowledge Graph

专知会员服务

56+阅读 · 2020年6月2日

数字病理学中的生成性对抗网络:趋势和未来潜力的综述 Generative Adversarial Networks in Digital Pathology: A Survey on Trends and Future Potential

数字病理学中的生成性对抗网络:趋势和未来潜力的综述 Generative Adversarial Networks in Digital Pathology: A Survey on Trends and Future Potential

专知会员服务

19+阅读 · 2020年5月1日

深度学习生物图像重建综述，Deep Learning for Biomedical Image Reconstruction: A Survey

深度学习生物图像重建综述，Deep Learning for Biomedical Image Reconstruction: A Survey

专知会员服务

40+阅读 · 2020年3月2日

【论文强烈推荐】基于卷积神经网络的基因组序列基序的表示学习，Representation learning of genomic sequence motifs with convolutional neural networks

【论文强烈推荐】基于卷积神经网络的基因组序列基序的表示学习，Representation learning of genomic sequence motifs with convolutional neural networks

专知会员服务

12+阅读 · 2019年12月21日

【图机器学习论文】基于深度学习的网络生物学（Deep Learning for Network Biology）

【图机器学习论文】基于深度学习的网络生物学（Deep Learning for Network Biology）

专知会员服务

11+阅读 · 2019年12月16日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

哈佛大学｜构建知识图谱PrimeKG以实现精准医疗--数据与代码全部公开，帮你从零开始复现知识图谱

哈佛大学｜构建知识图谱PrimeKG以实现精准医疗--数据与代码全部公开，帮你从零开始复现知识图谱

GenomicAI

29+阅读 · 2022年5月4日

【AI+生物医学】耶鲁大学最新博士论文《图先验、最优传输和深度学习在生物医学发现中的应用》231页pdf

【AI+生物医学】耶鲁大学最新博士论文《图先验、最优传输和深度学习在生物医学发现中的应用》231页pdf

专知

11+阅读 · 2022年4月29日

基于多来源文本的中文医学知识图谱的构建

基于多来源文本的中文医学知识图谱的构建

专知

13+阅读 · 2020年8月21日

Github项目推荐 | 知识图谱文献集合

Github项目推荐 | 知识图谱文献集合

AI研习社

26+阅读 · 2019年4月12日

赛尔原创 | ACM BCB 2018 CausalTriad: 从医学文本数据中推断出新的因果关系假设

赛尔原创 | ACM BCB 2018 CausalTriad: 从医学文本数据中推断出新的因果关系假设

哈工大SCIR

14+阅读 · 2018年6月28日

【论文推荐】最新六篇知识图谱相关论文—事件演化图、神经词义消歧、增强神经网络、Mem2Seq、用户偏好传播、概率嵌入

【论文推荐】最新六篇知识图谱相关论文—事件演化图、神经词义消歧、增强神经网络、Mem2Seq、用户偏好传播、概率嵌入

专知

19+阅读 · 2018年6月14日

【论文推荐】最新八篇知识图谱相关论文—全卷积网络、结构化知识图谱、关系结构表示、情感分析、可解释和组合关系学习

【论文推荐】最新八篇知识图谱相关论文—全卷积网络、结构化知识图谱、关系结构表示、情感分析、可解释和组合关系学习

专知

24+阅读 · 2018年6月12日

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

产业智能官

29+阅读 · 2017年12月10日

【知识图谱】医学知识图谱构建技术与研究进展

【知识图谱】医学知识图谱构建技术与研究进展

产业智能官

44+阅读 · 2017年11月16日

医学知识图谱构建技术与研究进展

医学知识图谱构建技术与研究进展

全球人工智能

19+阅读 · 2017年11月13日

相关论文

Prediction-based Inference in Electronic Health Record (EHR)-linked Biobanks with Clinically Informative Outcomes

Arxiv

0+阅读 · 4月13日

Uncertainty-Aware Foundation Models for Clinical Data

Arxiv

0+阅读 · 4月5日

Eligibility-Aware Evidence Synthesis: An Agentic Framework for Clinical Trial Meta-Analysis

Arxiv

0+阅读 · 4月3日

Building evidence-based knowledge graphs from full-text literature for disease-specific biomedical reasoning

Arxiv

0+阅读 · 3月31日

Building evidence-based knowledge graphs from full-text literature for disease-specific biomedical reasoning

Arxiv

0+阅读 · 3月30日

SciEGQA: A Dataset for Scientific Evidence-Grounded Question Answering and Reasoning

Arxiv

0+阅读 · 3月30日

EvidenceRL: Reinforcing Evidence Consistency for Trustworthy Language Models

Arxiv

0+阅读 · 3月20日

Open Biomedical Knowledge Graphs at Scale: Construction, Federation, and AI Agent Access with Samyama Graph Database

Arxiv

0+阅读 · 3月16日

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Arxiv

0+阅读 · 3月11日

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Arxiv

0+阅读 · 3月9日

相关基金

多视角识别长非编码RNA和人类复杂疾病关联预测研究

国家自然科学基金

4+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于复杂网络理论的肺系病中医古籍本体构建与知识发现研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多关联数据融合的疾病相似度算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向甲骨学知识图谱的实体发现及语义关系挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

复杂纵向数据的分位回归建模及其在生物医学大数据中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员