Tool use, such as web search, has become a standard capability even in freely available large language models (LLMs). However, existing benchmarks evaluate temporal reasoning mainly in static, non-tool-using settings, which poorly reflect how LLMs perform temporal reasoning in practice. We introduce Time Puzzles, a constraint-based date inference task for evaluating iterative temporal reasoning with tools. Each puzzle combines factual temporal anchors with (cross-cultural) calendar relations and may admit one or multiple valid dates. The puzzles are algorithmically generated, enabling controlled and continual evaluation. Across 13 LLMs, even the best model (GPT-5) achieves only 55.3% accuracy without tools, despite using easily searchable facts. While web search improves performance, models perform substantially better when constraints are rewritten with explicit dates, removing the need for factual lookup. These results reveal a gap in reliable tool use for iterative temporal reasoning.


翻译:工具使用(如网络搜索)已成为甚至免费大型语言模型的标配能力。然而,现有基准主要在静态、非工具使用的场景下评估时序推理能力,这难以反映大型语言模型在实际应用中的时序推理表现。我们提出时间谜题,一种面向带工具迭代式时序推理的基于约束的日期推断任务。每个谜题将事实性时间锚点与(跨文化)日历关系相结合,可能对应一个或多个有效日期。该类谜题通过算法生成,可实现受控且持续性的评估。在13个大型语言模型中,即使最优模型(GPT-5)在无工具辅助下准确率也仅达55.3%,尽管其所用事实均易于搜索。网络搜索虽能提升性能,但当约束条件被改写为显式日期(从而免去事实查找需求)时,模型表现显著更优。这些结果揭示了可靠工具使用在迭代式时序推理中存在的差距。

0
下载
关闭预览

相关内容

大语言模型在时间序列中的推理与智能体系统综述
专知会员服务
30+阅读 · 2025年9月16日
基于大语言模型的时序知识图谱推理模型蒸馏方法
专知会员服务
37+阅读 · 2025年1月10日
时序知识图谱表示与推理的研究进展与趋势
专知会员服务
33+阅读 · 2024年10月14日
【AAAI2023】基于历史对比学习的时序知识图谱推理
专知会员服务
35+阅读 · 2022年11月23日
论文浅尝 | 时序与因果关系联合推理
开放知识图谱
36+阅读 · 2019年6月23日
基于 Keras 用深度学习预测时间序列
R语言中文社区
23+阅读 · 2018年7月27日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 3月19日
VIP会员
最新内容
《Palantir的科技生态系统》
专知会员服务
10+阅读 · 6月2日
《反无人机系统传感器融合》90页报告
专知会员服务
12+阅读 · 6月2日
运用人工智能与卫星通信驱散“战争迷雾”
专知会员服务
5+阅读 · 6月2日
综述 | OPSD:大语言模型的在线策略自蒸馏
专知会员服务
7+阅读 · 6月1日
帕兰蒂尔Maven:军事人工智能的新纪元
专知会员服务
11+阅读 · 6月1日
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员