KG-Hopper: Empowering Compact Open LLMs with Knowledge Graph Reasoning via Reinforcement Learning - 专知论文

会员服务 ·

0

知识 · 图谱 · 语言模型 · 多跳 · 知识图谱 ·

KG-Hopper: Empowering Compact Open LLMs with Knowledge Graph Reasoning via Reinforcement Learning

翻译：KG-Hopper：通过强化学习赋能紧凑型开源大语言模型的知识图谱推理

Shuai Wang,Yinan Yu

from arxiv, Accepted to IJCNN 2026

Large Language Models (LLMs) demonstrate impressive natural language capabilities but often struggle with knowledge-intensive reasoning tasks. Knowledge Base Question Answering (KBQA), which leverages structured Knowledge Graphs (KGs) exemplifies this challenge due to the need for accurate multi-hop reasoning. Existing approaches typically perform sequential reasoning steps guided by predefined pipelines, restricting flexibility and causing error cascades due to isolated reasoning at each step. To address these limitations, we propose KG-Hopper, a novel Reinforcement Learning (RL) framework that empowers compact open LLMs with the ability to perform integrated multi-hop KG reasoning within a single inference round. Rather than reasoning step-by-step, we train a Reasoning LLM that embeds the entire KG traversal and decision process into a unified ``thinking'' stage, enabling global reasoning over cross-step dependencies and dynamic path exploration with backtracking. Experimental results on eight KG reasoning benchmarks show that KG-Hopper, based on a 7B-parameter LLM, consistently outperforms larger multi-step systems (up to 70B) and achieves competitive performance with proprietary models such as GPT-3.5-Turbo and GPT-4o-mini, while remaining compact, open, and data-efficient. The code is publicly available at: https://github.com/Wangshuaiia/KG-Hopper.

翻译：大语言模型（LLMs）展现出惊人的自然语言能力，但在知识密集型推理任务中常遇挑战。知识库问答（KBQA）借助结构化知识图谱（KGs）实现推理，这一任务因需精确的多跳推理而尤为困难。现有方法通常遵循预定义流水线进行顺序推理，这限制了灵活性，且因各步孤立推理导致错误级联。为解决这些局限，我们提出KG-Hopper——一种新颖的强化学习（RL）框架，使紧凑型开源LLMs具备在单次推理回合内完成集成式多跳KG推理的能力。我们不采用逐步推理方式，而是训练一个推理LLM，将整个KG遍历与决策过程嵌入统一的“思考”阶段，从而实现对跨步依赖性的全局推理，并支持带回溯的动态路径探索。在八个KG推理基准上的实验结果表明：基于7B参数LLM的KG-Hopper，持续优于更大规模的多步系统（最高达70B），并与GPT-3.5-Turbo和GPT-4o-mini等专有模型性能相当，同时保持了紧凑、开源与数据高效的特性。代码已公开于：https://github.com/Wangshuaiia/KG-Hopper。

0

相关内容

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

专知会员服务

17+阅读 · 2025年12月10日

大型语言模型（LLM）赋能的知识图谱构建：综述

大型语言模型（LLM）赋能的知识图谱构建：综述

专知会员服务

56+阅读 · 2025年10月24日

大语言模型遇上知识图谱：问答系统中的融合与机遇

大语言模型遇上知识图谱：问答系统中的融合与机遇

专知会员服务

30+阅读 · 2025年5月30日

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

专知会员服务

9+阅读 · 2025年5月20日

通过逻辑推理赋能大语言模型：综述

通过逻辑推理赋能大语言模型：综述

专知会员服务

32+阅读 · 2025年2月24日

迈向大型推理模型：基于大型语言模型的强化推理综述

迈向大型推理模型：基于大型语言模型的强化推理综述

专知会员服务

50+阅读 · 2025年1月17日

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

专知会员服务

31+阅读 · 2024年12月26日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

专知会员服务

98+阅读 · 2023年11月13日

ChatGPT/GPT-4做知识图谱构建推理怎么样？浙大等最新《大语言模型在知识图谱构建与推理》论文，量化评估LLM在KG表现

ChatGPT/GPT-4做知识图谱构建推理怎么样？浙大等最新《大语言模型在知识图谱构建与推理》论文，量化评估LLM在KG表现

专知会员服务

113+阅读 · 2023年5月31日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

知识图谱KG在NLP的十年研究进展综述

知识图谱KG在NLP的十年研究进展综述

专知

17+阅读 · 2022年10月4日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

专知

33+阅读 · 2020年8月24日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

论文浅尝 | 基于深度强化学习将图注意力机制融入知识图谱推理

论文浅尝 | 基于深度强化学习将图注意力机制融入知识图谱推理

开放知识图谱

18+阅读 · 2019年12月31日

KG 高引论文解读两篇 | 两种模型：多层卷积神经网络、知识感知路径递归网络

KG 高引论文解读两篇 | 两种模型：多层卷积神经网络、知识感知路径递归网络

学术头条

18+阅读 · 2019年12月8日

KGCN：使用TensorFlow进行知识图谱的机器学习

KGCN：使用TensorFlow进行知识图谱的机器学习

专知

16+阅读 · 2019年8月4日

论文浅尝 | 用增强学习进行推理：问答与知识库完善（KBC）

论文浅尝 | 用增强学习进行推理：问答与知识库完善（KBC）

开放知识图谱

21+阅读 · 2018年5月24日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

Think2SQL: Reinforce LLM Reasoning Capabilities for Text2SQL

Think2SQL: Reinforce LLM Reasoning Capabilities for Text2SQL

Arxiv

0+阅读 · 5月4日

ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability

Arxiv

0+阅读 · 4月22日

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Arxiv

1+阅读 · 4月21日

GraphRAG-IRL: Personalized Recommendation with Graph-Grounded Inverse Reinforcement Learning and LLM Re-ranking

Arxiv

0+阅读 · 4月21日

MegaRAG: Multimodal Knowledge Graph-Based Retrieval Augmented Generation

Arxiv

0+阅读 · 4月20日

ProofSketcher: Hybrid LLM + Lightweight Proof Checker for Reliable Math/Logic Reasoning

Arxiv

0+阅读 · 4月7日

KG-Hopper: Empowering Compact Open LLMs with Knowledge Graph Reasoning via Reinforcement Learning

Arxiv

0+阅读 · 3月30日

Flying Pigs, FaR and Beyond: Evaluating LLM Reasoning in Counterfactual Worlds

Arxiv

0+阅读 · 3月24日

From Token to Item: Enhancing Large Language Models for Recommendation via Item-aware Attention Mechanism

Arxiv

0+阅读 · 3月20日

LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities

Arxiv

21+阅读 · 2023年5月22日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

1+阅读 · 今天15:02

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

1+阅读 · 今天15:00

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

2+阅读 · 今天14:30

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

2+阅读 · 今天14:05

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

2+阅读 · 今天13:55

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

2+阅读 · 今天13:51

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

2+阅读 · 今天13:48

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

专知会员服务

17+阅读 · 2025年12月10日

大型语言模型（LLM）赋能的知识图谱构建：综述

大型语言模型（LLM）赋能的知识图谱构建：综述

专知会员服务

56+阅读 · 2025年10月24日

大语言模型遇上知识图谱：问答系统中的融合与机遇

大语言模型遇上知识图谱：问答系统中的融合与机遇

专知会员服务

30+阅读 · 2025年5月30日

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

专知会员服务

9+阅读 · 2025年5月20日

通过逻辑推理赋能大语言模型：综述

通过逻辑推理赋能大语言模型：综述

专知会员服务

32+阅读 · 2025年2月24日

迈向大型推理模型：基于大型语言模型的强化推理综述

迈向大型推理模型：基于大型语言模型的强化推理综述

专知会员服务

50+阅读 · 2025年1月17日

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

专知会员服务

31+阅读 · 2024年12月26日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

专知会员服务

98+阅读 · 2023年11月13日

ChatGPT/GPT-4做知识图谱构建推理怎么样？浙大等最新《大语言模型在知识图谱构建与推理》论文，量化评估LLM在KG表现

ChatGPT/GPT-4做知识图谱构建推理怎么样？浙大等最新《大语言模型在知识图谱构建与推理》论文，量化评估LLM在KG表现

专知会员服务

113+阅读 · 2023年5月31日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

知识图谱KG在NLP的十年研究进展综述

知识图谱KG在NLP的十年研究进展综述

专知

17+阅读 · 2022年10月4日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

专知

33+阅读 · 2020年8月24日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

论文浅尝 | 基于深度强化学习将图注意力机制融入知识图谱推理

论文浅尝 | 基于深度强化学习将图注意力机制融入知识图谱推理

开放知识图谱

18+阅读 · 2019年12月31日

KG 高引论文解读两篇 | 两种模型：多层卷积神经网络、知识感知路径递归网络

KG 高引论文解读两篇 | 两种模型：多层卷积神经网络、知识感知路径递归网络

学术头条

18+阅读 · 2019年12月8日

KGCN：使用TensorFlow进行知识图谱的机器学习

KGCN：使用TensorFlow进行知识图谱的机器学习

专知

16+阅读 · 2019年8月4日

论文浅尝 | 用增强学习进行推理：问答与知识库完善（KBC）

论文浅尝 | 用增强学习进行推理：问答与知识库完善（KBC）

开放知识图谱

21+阅读 · 2018年5月24日

相关论文

Think2SQL: Reinforce LLM Reasoning Capabilities for Text2SQL

Think2SQL: Reinforce LLM Reasoning Capabilities for Text2SQL

Arxiv

0+阅读 · 5月4日

ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability

Arxiv

0+阅读 · 4月22日

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Arxiv

1+阅读 · 4月21日

GraphRAG-IRL: Personalized Recommendation with Graph-Grounded Inverse Reinforcement Learning and LLM Re-ranking

Arxiv

0+阅读 · 4月21日

MegaRAG: Multimodal Knowledge Graph-Based Retrieval Augmented Generation

Arxiv

0+阅读 · 4月20日

ProofSketcher: Hybrid LLM + Lightweight Proof Checker for Reliable Math/Logic Reasoning

Arxiv

0+阅读 · 4月7日

KG-Hopper: Empowering Compact Open LLMs with Knowledge Graph Reasoning via Reinforcement Learning

Arxiv

0+阅读 · 3月30日

Flying Pigs, FaR and Beyond: Evaluating LLM Reasoning in Counterfactual Worlds

Arxiv

0+阅读 · 3月24日

From Token to Item: Enhancing Large Language Models for Recommendation via Item-aware Attention Mechanism

Arxiv

0+阅读 · 3月20日

LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities

Arxiv

21+阅读 · 2023年5月22日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员