Determining whether a program terminates is a central problem in computer science. Turing's foundational result established the Halting Problem as undecidable, showing that no algorithm can universally determine termination for all programs and inputs. Consequently, automatic verification tools approximate termination, sometimes failing to prove or disprove; these tools rely on problem-specific architectures, and are usually tied to particular programming languages. Recent success and progress in large language models (LLMs) raises the following question: can LLMs reliably predict program termination? In this work, we evaluate LLMs on a diverse set of programs from the Termination category of the International Competition on Software Verification (SV-Comp) 2025. Our results suggest that LLMs perform remarkably well at predicting program termination, where GPT-5 and Claude Sonnet-4.5 would rank just behind the top-ranked tool (using test-time-scaling), and Code World Model (CWM) would place just behind the second-ranked tool. While LLMs are effective at predicting program termination, they often fail to provide a valid witness as a proof. Moreover, LLMs performance drops as program length and complexity increases. We hope these insights motivate further research into program termination and the broader potential of LLMs for reasoning about undecidable problems.


翻译:判断一个程序是否会终止是计算机科学中的核心问题。图灵的基础性结论确立了“停机问题”的不可判定性,表明不存在能够普遍判定所有程序和输入是否终止的算法。因此,自动验证工具只能近似地处理终止问题,有时无法证明或否证;这些工具依赖于特定问题的架构,并且通常与特定编程语言绑定。大型语言模型的近期成功与进展提出了以下问题:LLMs 能否可靠地预测程序终止?在本工作中,我们在国际软件验证竞赛 2025 年“终止”类别中的多样化程序集上评估了 LLMs。我们的结果表明,LLMs 在预测程序终止方面表现异常出色,其中 GPT-5 和 Claude Sonnet-4.5 的成绩将仅次于排名第一的工具(采用测试时扩展策略),而 Code World Model (CWM) 将紧随排名第二的工具之后。尽管 LLMs 在预测程序终止方面有效,但它们往往无法提供有效的验证作为证明。此外,随着程序长度和复杂度增加,LLMs 的性能会下降。我们期望这些见解能激励对程序终止问题以及 LLMs 在推理不可判定问题方面更广泛潜力的进一步研究。

0
下载
关闭预览

相关内容

【ICLR2024】能检测到LLM产生的错误信息吗?
专知会员服务
25+阅读 · 2024年1月23日
LLM驱动的指令遵循:进展,213页ppt
专知会员服务
70+阅读 · 2023年12月30日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
【数字孪生】使用数字孪生体进行预测性维护
产业智能官
28+阅读 · 2019年7月22日
【边缘计算】边缘计算面临的问题
产业智能官
17+阅读 · 2019年5月31日
SLAM的动态地图和语义问题
计算机视觉life
24+阅读 · 2019年4月27日
一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
七月在线实验室
11+阅读 · 2018年7月18日
放弃 RNN/LSTM 吧,因为真的不好用!望周知~
人工智能头条
19+阅读 · 2018年4月24日
赛尔原创 | 对话系统评价方法综述
哈工大SCIR
11+阅读 · 2017年11月13日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月1日
Arxiv
0+阅读 · 3月25日
VIP会员
最新内容
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
2+阅读 · 今天11:43
网状网络及其在军事领域的运用
专知会员服务
5+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
6+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
7+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
7+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
9+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
7+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
9+阅读 · 6月24日
相关资讯
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
【数字孪生】使用数字孪生体进行预测性维护
产业智能官
28+阅读 · 2019年7月22日
【边缘计算】边缘计算面临的问题
产业智能官
17+阅读 · 2019年5月31日
SLAM的动态地图和语义问题
计算机视觉life
24+阅读 · 2019年4月27日
一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
七月在线实验室
11+阅读 · 2018年7月18日
放弃 RNN/LSTM 吧,因为真的不好用!望周知~
人工智能头条
19+阅读 · 2018年4月24日
赛尔原创 | 对话系统评价方法综述
哈工大SCIR
11+阅读 · 2017年11月13日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员