Document-level knowledge graph (KG) construction faces a fundamental scaling challenge: existing methods either rely on expensive large language models (LLMs), making them economically nonviable for large-scale corpora, or employ smaller models that produce incomplete and inconsistent graphs. We find that this limitation stems not from model capabilities but from insufficient training on high-quality document-level KG data. To address this gap, we introduce SynthKG, a multi-step data synthesis pipeline that generates high-quality document-KG pairs through systematic chunking, decontextualization, and structured extraction using LLMs. By fine-tuning a smaller LLM on synthesized document-KG pairs, we streamline the multi-step process into a single-step KG generation approach called Distill-SynthKG. Furthermore, we repurpose existing question-answering datasets to construct KG evaluation datasets and introduce new evaluation metrics. Using KGs produced by Distill-SynthKG, we also design a novel graph-based retrieval framework for RAG. Experimental results demonstrate that Distill-SynthKG not only surpasses all baseline models in KG quality (including models up to eight times larger) but also consistently improves in retrieval and question-answering tasks. Additionally, our proposed graph retrieval framework outperforms all KG-retrieval methods across multiple benchmark datasets.


翻译:文档级知识图谱构建面临一个根本性的可扩展性挑战:现有方法要么依赖昂贵的大型语言模型,使其在大规模语料库上经济上不可行;要么采用较小的模型,产生不完整且不一致的图谱。我们发现这一局限并非源于模型能力,而是由于缺乏对高质量文档级知识图谱数据的充分训练。为解决这一问题,我们提出了SynthKG,一个多步骤的数据合成流程,通过系统性的分块、去语境化以及利用LLM进行结构化抽取,生成高质量的文档-知识图谱对。通过在合成的文档-知识图谱对上微调一个较小的LLM,我们将多步骤流程简化为一个单步骤的知识图谱生成方法,称为Distill-SynthKG。此外,我们重新利用现有的问答数据集来构建知识图谱评估数据集,并引入了新的评估指标。利用Distill-SynthKG生成的知识图谱,我们还设计了一种新颖的基于图结构的检索框架用于RAG。实验结果表明,Distill-SynthKG不仅在知识图谱质量上超越了所有基线模型(包括规模大至八倍的模型),而且在检索和问答任务上也持续提升。此外,我们提出的图检索框架在多个基准数据集上均优于所有基于知识图谱的检索方法。

0
下载
关闭预览

相关内容

【新书】《知识图谱与大语言模型的协同应用》,544页pdf
专知会员服务
90+阅读 · 2025年10月29日
融合知识图谱的大语言模型研究综述
专知会员服务
38+阅读 · 2025年4月18日
知识图谱与大模型融合综述
专知会员服务
120+阅读 · 2024年6月30日
知识图谱构建技术:分类、调查和未来方向
专知会员服务
113+阅读 · 2021年3月1日
最新《知识图谱:构建到应用》2020大综述论文,261页pdf
专知会员服务
292+阅读 · 2020年10月6日
基于图神经网络的知识图谱研究进展
AI科技评论
21+阅读 · 2020年8月31日
【知识图谱】 一个有效的知识图谱是如何构建的?
产业智能官
57+阅读 · 2018年4月5日
【知识图谱】医学知识图谱构建技术与研究进展
产业智能官
44+阅读 · 2017年11月16日
医学知识图谱构建技术与研究进展
全球人工智能
19+阅读 · 2017年11月13日
【知识图谱】中文知识图谱构建方法研究
产业智能官
99+阅读 · 2017年10月26日
报名 | 知识图谱前沿技术课程(暨学术交流)
PaperWeekly
17+阅读 · 2017年7月10日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员