Creating knowledge bases and ontologies is a time consuming task that relies on a manual curation. AI/NLP approaches can assist expert curators in populating these knowledge bases, but current approaches rely on extensive training data, and are not able to populate arbitrary complex nested knowledge schemas. Here we present Structured Prompt Interrogation and Recursive Extraction of Semantics (SPIRES), a Knowledge Extraction approach that relies on the ability of Large Language Models (LLMs) to perform zero-shot learning (ZSL) and general-purpose query answering from flexible prompts and return information conforming to a specified schema. Given a detailed, user-defined knowledge schema and an input text, SPIRES recursively performs prompt interrogation against GPT-3+ to obtain a set of responses matching the provided schema. SPIRES uses existing ontologies and vocabularies to provide identifiers for all matched elements. We present examples of use of SPIRES in different domains, including extraction of food recipes, multi-species cellular signaling pathways, disease treatments, multi-step drug mechanisms, and chemical to disease causation graphs. Current SPIRES accuracy is comparable to the mid-range of existing Relation Extraction (RE) methods, but has the advantage of easy customization, flexibility, and, crucially, the ability to perform new tasks in the absence of any training data. This method supports a general strategy of leveraging the language interpreting capabilities of LLMs to assemble knowledge bases, assisting manual knowledge curation and acquisition while supporting validation with publicly-available databases and ontologies external to the LLM. SPIRES is available as part of the open source OntoGPT package: https://github.com/ monarch-initiative/ontogpt.


翻译:知识库和本体的构建是一项耗时且依赖人工整理的任务。AI/NLP方法可以协助专家整理者填充这些知识库,但现有方法依赖于大量训练数据,且无法填充任意复杂的嵌套知识模式。本文提出结构化提示查询与递归语义提取(SPIRES),这是一种利用大型语言模型(LLM)从灵活提示中执行零样本学习(ZSL)和通用查询应答能力的知识抽取方法,可返回符合指定模式的信息。给定用户定义的详细知识模式和输入文本,SPIRES递归地对GPT-3+进行提示查询,以获取与所提供模式匹配的一组响应。SPIRES利用现有本体和词汇表为所有匹配元素提供标识符。我们展示了SPIRES在不同领域的应用示例,包括食品配方提取、多物种细胞信号通路、疾病治疗方法、多步药物机制以及化学物质到疾病的因果图。当前SPIRES的准确率与现有关系抽取(RE)方法的中等水平相当,但其优势在于易于定制、灵活性高,且关键的是能够在缺乏任何训练数据的情况下执行新任务。该方法支持一种通用策略,即利用LLM的语言解释能力来组装知识库,辅助人工知识整理与获取,同时支持使用LLM外部的公开数据库和本体进行验证。SPIRES作为开源OntoGPT包的一部分提供:https://github.com/monarch-initiative/ontogpt。

0
下载
关闭预览

相关内容

【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
论文浅尝 | Global Relation Embedding for Relation Extraction
开放知识图谱
12+阅读 · 2019年3月3日
论文浅尝 | Zero-Shot Transfer Learning for Event Extraction
开放知识图谱
26+阅读 · 2018年11月1日
论文浅尝 | Question Answering over Freebase
开放知识图谱
19+阅读 · 2018年1月9日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2011年12月31日
国家自然科学基金
5+阅读 · 2008年12月31日
Arxiv
102+阅读 · 2020年3月4日
Arxiv
10+阅读 · 2017年7月4日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
专知会员服务
3+阅读 · 今天7:28
消耗优势:美军的“精确规模化”概念
专知会员服务
7+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
8+阅读 · 6月15日
俄乌战场地面机器人如何改写战争规则
专知会员服务
9+阅读 · 6月14日
相关VIP内容
相关基金
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2011年12月31日
国家自然科学基金
5+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员