Large language models have achieved near-expert performance in structured reasoning domains like mathematics and programming, yet their ability to perform compositional multi-hop reasoning in specialized scientific fields remains limited. We propose a bottom-up learning paradigm in which models are grounded in axiomatic domain facts and compose them to solve complex, unseen tasks. To this end, we present a post-training pipeline, based on a combination of supervised fine-tuning and reinforcement learning (RL), in which knowledge graphs act as implicit reward models. By deriving novel reward signals from knowledge graph paths, we provide verifiable, scalable, and grounded supervision that encourages models to compose intermediate axioms rather than optimize only final answers during RL. We validate this approach in the medical domain, training a 14B model on short-hop reasoning paths (1-3 hops) and evaluating its zero-shot generalization to complex multi-hop queries (4-5 hops). Our experiments show that path-derived rewards act as a "compositional bridge", enabling our model to significantly outperform much larger models and frontier systems like GPT-5.2 and Gemini 3 Pro, on the most difficult reasoning tasks. Furthermore, we demonstrate the robustness of our approach to adversarial perturbations against option-shuffling stress tests. This work suggests that grounding the reasoning process in structured knowledge is a scalable and efficient path toward intelligent reasoning.


翻译:大型语言模型在数学和编程等结构化推理领域已接近专家水平,但其在专业科学领域执行组合式多跳推理的能力仍然有限。我们提出一种自底向上的学习范式,使模型基于公理化领域事实进行组合以解决复杂、未见过的任务。为此,我们提出一种基于监督微调与强化学习(RL)相结合的后训练流程,其中知识图谱充当隐式奖励模型。通过从知识图谱路径中衍生新颖的奖励信号,我们提供可验证、可扩展且基于事实的监督,鼓励模型在强化学习过程中组合中间公理,而非仅优化最终答案。我们在医学领域验证了该方法,使用短跳推理路径(1-3跳)训练一个140亿参数模型,并评估其在复杂多跳查询(4-5跳)上的零样本泛化能力。实验表明,路径衍生的奖励充当“组合桥梁”,使我们的模型在最困难的推理任务上显著优于更大规模的模型及GPT-5.2、Gemini 3 Pro等前沿系统。此外,我们证明了该方法在选项重排压力测试中对抗对抗性扰动的鲁棒性。本研究表明,将推理过程锚定于结构化知识是实现智能推理的一条可扩展且高效的路径。

0
下载
关闭预览

相关内容

从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
面向大型推理模型的强化学习综述
专知会员服务
29+阅读 · 2025年9月11日
强化多模态大语言模型:基于强化学习的推理综述
专知会员服务
35+阅读 · 2025年5月3日
Vision-R1:激励多模态大语言模型中的推理能力
专知会员服务
23+阅读 · 2025年3月12日
知识图谱与大模型融合综述
专知会员服务
120+阅读 · 2024年6月30日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
基于知识图谱的问答系统
PaperWeekly
21+阅读 · 2021年2月8日
【清华大学】元知识图谱推理
专知
129+阅读 · 2019年9月2日
论文浅尝 | 基于深度序列模型的知识图谱补全
开放知识图谱
29+阅读 · 2019年5月19日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Exploring Reasoning Reward Model for Agents
VIP会员
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员