Temporal Reasoning (TR) is a critical ability for LLMs to understand and reason over temporal information and relationships between events. To study the TR ability in LLMs, prior works provide different ways for evaluating various aspects of TR ability. In this work, we propose an alternative perspective for evaluating TR ability by leveraging Linear Temporal Logic (LTL), and develop a pipeline to automatically synthesize challenges for assessing the TR ability of LLMs. Based on this pipeline, we construct a dataset, namely \LTL, consisting of $2000$ TR challenges, and benchmark 12 LLMs across 5 different methods. Furthermore, we conduct additional experiments to investigate the impact of increasing the number of formula operators and events on both LLM performance and the complexity of TR problems. We also perform qualitative analyses of their reasoning processes and the effects of varying the number of events and formula operators, which reveal 3 main issues in their temporal reasoning processes and the unexpected performance changes observed as problem complexity increases. We expect this work to provide valuable insights into the TR ability of LLMs.


翻译:时序推理是大型语言模型理解时序信息及事件间关系的关键能力。为研究大型语言模型的时序推理能力,先前工作提出了多种评估该能力不同维度的方案。本研究提出通过线性时序逻辑评估时序推理能力的新视角,并开发了自动生成挑战性问题以评估大型语言模型时序推理能力的流程框架。基于该框架,我们构建了包含2000个时序推理挑战的数据集\LTL,并采用5种不同方法对12个大型语言模型进行基准测试。此外,我们通过增加公式运算符和事件数量的对照实验,探究了二者对大型语言模型性能及时序推理问题复杂性的影响。通过对模型推理过程以及事件数量与公式运算符变化效应的定性分析,我们揭示了其时序推理过程中存在的三个主要问题,以及随着问题复杂度提升出现的非预期性能变化现象。本研究期望为大型语言模型的时序推理能力提供有价值的见解。

0
下载
关闭预览

相关内容

大语言模型的智能体化推理
专知会员服务
32+阅读 · 1月21日
大语言模型在时间序列中的推理与智能体系统综述
专知会员服务
30+阅读 · 2025年9月16日
决策智能中的时间序列预测大模型
专知会员服务
32+阅读 · 2025年5月8日
基于大语言模型的时序知识图谱推理模型蒸馏方法
专知会员服务
36+阅读 · 2025年1月10日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
时空序列预测方法综述
专知
22+阅读 · 2020年10月19日
论文浅尝 | 时序与因果关系联合推理
开放知识图谱
36+阅读 · 2019年6月23日
因果推理学习算法资源大列表
专知
27+阅读 · 2019年3月3日
R语言时间序列分析
R语言中文社区
12+阅读 · 2018年11月19日
R语言之数据分析高级方法「时间序列」
R语言中文社区
17+阅读 · 2018年4月24日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
相关资讯
时空序列预测方法综述
专知
22+阅读 · 2020年10月19日
论文浅尝 | 时序与因果关系联合推理
开放知识图谱
36+阅读 · 2019年6月23日
因果推理学习算法资源大列表
专知
27+阅读 · 2019年3月3日
R语言时间序列分析
R语言中文社区
12+阅读 · 2018年11月19日
R语言之数据分析高级方法「时间序列」
R语言中文社区
17+阅读 · 2018年4月24日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员