Biomedical knowledge is fragmented across siloed databases -- Reactome for pathways, STRING for protein interactions, Gene Ontology for functional annotations, ClinicalTrials.gov for study registries, and dozens more. Researchers routinely download flat files from each source and write bespoke scripts to cross-reference them, a process that is slow, error-prone, and not reproducible. We present two open-source biomedical knowledge graphs -- Pathways KG (118,686 nodes, 834,785 edges from 5 sources) and Clinical Trials KG (7,774,446 nodes, 26,973,997 edges from 5 sources) -- built on Samyama, a high-performance graph database written in Rust. Our contributions are threefold. First, we describe a reproducible ETL pattern for constructing large-scale KGs from heterogeneous public data sources, with cross-source deduplication, batch Cypher loading, and portable snapshot export. Second, we demonstrate cross-KG federation: loading both snapshots into a single graph tenant enables property-based joins across datasets, answering questions like ``Which biological pathways are disrupted by drugs currently in Phase~3 trials for breast cancer?'' -- a query that neither KG can answer alone. Third, we introduce schema-driven MCP server generation: each KG automatically exposes typed tools for LLM agents via the Model Context Protocol, enabling natural-language access to graph queries without manual tool authoring. All data sources are open-license (CC~BY~4.0, CC0, OBO). Snapshots, ETL code, and MCP configurations are publicly available. The combined federated graph (7.89M nodes, 27.8M edges) loads in 76 seconds on commodity hardware (Mac Mini M4, 16GB RAM), and the signature cross-KG query -- ``which pathways are disrupted by drugs in Phase~3 breast cancer trials?'' -- returns validated results in 2.1 seconds.


翻译:生物医学知识分散于多个孤立数据库中——Reactome存储通路信息,STRING记录蛋白质相互作用,Gene Ontology提供功能注释,ClinicalTrials.gov收录临床试验注册信息,此外还有数十个其他数据库。研究人员通常需要从每个数据源下载平面文件,并编写定制化脚本进行交叉引用,这一过程不仅耗时、易错,且难以复现。本文提出两个开源生物医学知识图谱——通路知识图谱(整合5个数据源,包含118,686个节点和834,785条边)与临床试验知识图谱(整合5个数据源,包含7,774,446个节点和26,973,997条边)——它们构建于采用Rust编写的高性能图数据库Samyama之上。我们的贡献主要体现在三个方面:首先,提出一种可复现的ETL模式,用于从异构公共数据源构建大规模知识图谱,该模式具备跨源去重、批量Cypher加载和便携式快照导出功能;其次,实现跨知识图谱联邦查询——将两个快照加载至同一图租户后,可进行基于属性的跨数据集联合查询,从而回答诸如“哪些生物通路被当前处于乳腺癌III期试验阶段的药物所干扰?”这类任一独立知识图谱均无法解答的问题;最后,引入模式驱动的MCP服务器自动生成机制:每个知识图谱通过模型上下文协议自动为LLM智能体提供类型化工具,无需人工编写工具即可实现自然语言访问图谱查询。所有数据源均采用开放许可协议(CC BY 4.0、CC0、OBO)。快照数据、ETL代码及MCP配置均已公开。在商用硬件(Mac Mini M4,16GB内存)上,组合联邦图谱(789万个节点,2780万条边)加载仅需76秒,而标志性跨图谱查询——“哪些通路被乳腺癌III期试验药物干扰?”——可在2.1秒内返回已验证结果。

0
下载
关闭预览

相关内容

医学知识图谱构建关键技术及研究进展
专知会员服务
45+阅读 · 2022年4月27日
COVID-19文献知识图谱构建,UIUC-哥伦比亚大学
专知会员服务
43+阅读 · 2020年7月2日
医疗知识图谱构建与应用
专知会员服务
390+阅读 · 2019年9月25日
基于多来源文本的中文医学知识图谱的构建
Github项目推荐 | 知识图谱文献集合
AI研习社
26+阅读 · 2019年4月12日
【知识图谱】中医临床知识图谱的构建与应用
产业智能官
61+阅读 · 2017年12月18日
【知识图谱】医学知识图谱构建技术与研究进展
产业智能官
44+阅读 · 2017年11月16日
医学知识图谱构建技术与研究进展
全球人工智能
19+阅读 · 2017年11月13日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
7+阅读 · 5月5日
《美空军条令出版物 2-0:情报(2026版)》
专知会员服务
13+阅读 · 5月5日
帕兰提尔 Gotham:一个游戏规则改变器
专知会员服务
7+阅读 · 5月5日
【综述】 机器人学习中的世界模型:全面综述
专知会员服务
11+阅读 · 5月4日
伊朗的导弹-无人机行动及其对美国威慑的影响
相关VIP内容
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员