Large language models have achieved impressive performance on reasoning tasks spanning mathematics, science, programming, and commonsense inference. Despite these advances, their reasoning processes remain largely latent, making them difficult to interpret, verify, replay, debug, and transfer across domains. Existing approaches such as chain-of-thought, tree-of-thoughts, graph-of-thoughts, and tool-augmented reasoning expose intermediate reasoning artifacts but typically lack explicit execution semantics, formal state representations, and verifiable reasoning structures. We introduce Theorem-Grounded Execution Ontologies (TGEO), a framework that models reasoning as an executable state-transition process rather than a sequence of generated tokens. Given an input problem, TGEO identifies relevant theorem families, binds the problem to a domain ontology, discovers semantic objects, instantiates states and operators, constructs predicates and contracts, and synthesizes an executable reasoning graph. The resulting graph provides an interpretable, replayable, and auditable representation of reasoning in which every state transition, operator application, and validation step is explicitly represented. TGEO integrates five architectural components: (1) theorem-grounded reasoning priors, (2) executable ontologies, (3) operator-mediated state transitions, (4) predicate and contract-based execution validation, and (5) architectural auditing and failure localization. We evaluate TGEO on theorem-intensive reasoning tasks derived from mathematical benchmark domains and a curated Golden Execution Suite. Our findings demonstrate the value of executable reasoning representations for interpretable, verifiable, and reproducible AI reasoning systems.


翻译:大型语言模型在数学、科学、编程及常识推理等任务上取得了显著性能。然而,其推理过程仍高度隐式,导致难以解释、验证、重放、调试及跨领域迁移。现有方法(如思维链、思维树、思维图及工具增强推理)虽暴露了中间推理产物,但通常缺乏显式执行语义、形式化状态表示及可验证的推理结构。我们提出定理基础执行本体论(TGEO),该框架将推理建模为可执行的状态转移过程,而非生成的符号序列。对于给定的输入问题,TGEO识别相关定理族,将问题绑定到领域本体,发现语义对象,实例化状态与操作符,构建谓词与契约,并合成可执行的推理图。该推理图提供了可解释、可重放及可审计的推理表示,其中每一步状态转移、操作符应用及验证步骤均被显式表示。TGEO整合了五个架构组件:(1)定理基础的推理先验,(2)可执行本体,(3)操作符介导的状态转移,(4)基于谓词与契约的执行验证,(5)架构审计与失败定位。我们在数学基准领域及自建Golden执行套件中的定理密集型推理任务上评估了TGEO。实验结果表明,可执行推理表示对构建可解释、可验证、可复现的AI推理系统具有重要价值。

0
下载
关闭预览

相关内容

大语言模型的智能体化推理
专知会员服务
35+阅读 · 1月21日
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
25+阅读 · 2025年11月19日
大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
「可解释知识图谱推理」最新方法综述
专知会员服务
89+阅读 · 2022年12月17日
【机器推理可解释性】Machine Reasoning Explainability
专知会员服务
35+阅读 · 2020年9月3日
机器学习的可解释性
专知会员服务
180+阅读 · 2020年8月27日
机器学习的可解释性:因果推理和稳定学习
DataFunTalk
13+阅读 · 2020年3月3日
机器学习必备的数学基础有哪些?
人工智能头条
12+阅读 · 2019年10月18日
搜狗开源机器阅读理解工具箱
专知
19+阅读 · 2019年5月16日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
43+阅读 · 2024年1月25日
Arxiv
10+阅读 · 2023年5月4日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
9+阅读 · 6月15日
相关VIP内容
大语言模型的智能体化推理
专知会员服务
35+阅读 · 1月21日
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
25+阅读 · 2025年11月19日
大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
「可解释知识图谱推理」最新方法综述
专知会员服务
89+阅读 · 2022年12月17日
【机器推理可解释性】Machine Reasoning Explainability
专知会员服务
35+阅读 · 2020年9月3日
机器学习的可解释性
专知会员服务
180+阅读 · 2020年8月27日
相关资讯
机器学习的可解释性:因果推理和稳定学习
DataFunTalk
13+阅读 · 2020年3月3日
机器学习必备的数学基础有哪些?
人工智能头条
12+阅读 · 2019年10月18日
搜狗开源机器阅读理解工具箱
专知
19+阅读 · 2019年5月16日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员