This paper examines the reasoning capabilities of Large Language Models (LLMs) from a novel perspective, focusing on their ability to operate within formally specified, rule-governed environments. We evaluate four LLMs (Gemini 2.5 Pro and Flash variants, Llama 3.3 70B and GPT-OSS 120B) on a suite of forward-simulation tasks-including next / multistep state formulation, and legal action generation-across a diverse set of reasoning problems illustrated through General Game Playing (GGP) game instances. Beyond reporting instance-level performance, we characterize games based on 40 structural features and analyze correlations between these features and LLM performance. Furthermore, we investigate the effects of various game obfuscations to assess the role of linguistic semantics in game definitions and the impact of potential prior exposure of LLMs to specific games during training. The main results indicate that three of the evaluated models generally perform well across most experimental settings, with performance degradation observed as the evaluation horizon increases (i.e., with a higher number of game steps). Detailed case-based analysis of the LLM performance provides novel insights into common reasoning errors in the considered logic-based problem formulation, including hallucinated rules, redundant state facts, or syntactic errors. Overall, the paper reports clear progress in formal reasoning capabilities of contemporary models.


翻译:本文从一个新颖的视角审视大型语言模型(LLMs)的推理能力,重点关注其在形式化指定、规则约束的环境中的操作能力。我们通过通用游戏博弈(GGP)游戏实例所展示的一系列多样化推理问题,评估了四种LLM模型(Gemini 2.5 Pro及其Flash变体、Llama 3.3 70B和GPT-OSS 120B)在一套前向模拟任务上的表现——包括下一步/多步状态推演以及合法行动生成。除了报告实例级别的性能外,我们还基于40个结构特征对游戏进行了表征,并分析了这些特征与LLM性能之间的相关性。此外,我们研究了各种游戏混淆处理的效果,以评估语言语义在游戏定义中的作用,以及LLMs在训练期间可能对特定游戏存在先验接触所带来的影响。主要结果表明,所评估的模型中有三个在大多数实验设置中普遍表现良好,但随着评估视野的扩大(即游戏步数增加),观察到性能下降。对LLM性能进行的详细案例分析,为所考虑的基于逻辑的问题表述中常见的推理错误提供了新的见解,包括规则幻觉、冗余状态事实或句法错误。总体而言,本文报告了当代模型在形式推理能力方面取得的明确进展。

0
下载
关闭预览

相关内容

大语言模型的智能体化推理
专知会员服务
35+阅读 · 1月21日
大语言模型中的隐式推理:综合综述
专知会员服务
32+阅读 · 2025年9月4日
通过逻辑推理赋能大语言模型:综述
专知会员服务
32+阅读 · 2025年2月24日
大语言模型中的逻辑推理:综述
专知会员服务
48+阅读 · 2025年2月15日
大规模语言模型推理的进展综述
专知会员服务
57+阅读 · 2025年2月8日
迈向大型推理模型:基于大型语言模型的强化推理综述
专知会员服务
50+阅读 · 2025年1月17日
大型语言模型高效推理综述
专知会员服务
64+阅读 · 2024年4月23日
大型语言模型在表格推理中的应用综述
专知会员服务
47+阅读 · 2024年2月14日
【大模型对齐】利用对齐使大型语言模型更好地推理
专知会员服务
48+阅读 · 2023年9月8日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
Claw AI Lab:从自动写论文到交互式AI研究实验室
专知会员服务
1+阅读 · 5月24日
美以伊冲突中的无人机反防空作战
专知会员服务
7+阅读 · 5月23日
安杜里尔与Meta研发军用智能眼镜的内幕
专知会员服务
7+阅读 · 5月22日
超越步调威胁:整合人工智能以加速指挥决策
专知会员服务
12+阅读 · 5月22日
Nature三连发AI自主科学发现论文
专知会员服务
9+阅读 · 5月21日
安杜里尔与人工智能驱动防务的崛起
专知会员服务
15+阅读 · 5月21日
相关VIP内容
大语言模型的智能体化推理
专知会员服务
35+阅读 · 1月21日
大语言模型中的隐式推理:综合综述
专知会员服务
32+阅读 · 2025年9月4日
通过逻辑推理赋能大语言模型:综述
专知会员服务
32+阅读 · 2025年2月24日
大语言模型中的逻辑推理:综述
专知会员服务
48+阅读 · 2025年2月15日
大规模语言模型推理的进展综述
专知会员服务
57+阅读 · 2025年2月8日
迈向大型推理模型:基于大型语言模型的强化推理综述
专知会员服务
50+阅读 · 2025年1月17日
大型语言模型高效推理综述
专知会员服务
64+阅读 · 2024年4月23日
大型语言模型在表格推理中的应用综述
专知会员服务
47+阅读 · 2024年2月14日
【大模型对齐】利用对齐使大型语言模型更好地推理
专知会员服务
48+阅读 · 2023年9月8日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员