Determining whether a program terminates is a central problem in computer science. Turing's foundational result established the Halting Problem as undecidable, showing that no algorithm can universally determine termination for all programs and inputs. Consequently, automatic verification tools approximate termination, sometimes failing to prove or disprove; these tools rely on problem-specific architectures and abstractions, and are usually tied to particular programming languages. Recent success and progress in large language models (LLMs) raises the following question: can LLMs reliably predict program termination? In this work, we evaluate LLMs on a diverse set of C programs from the Termination category of the International Competition on Software Verification (SV-Comp) 2025. Our results suggest that LLMs perform remarkably well at predicting program termination, where GPT-5 and Claude Sonnet-4.5 would rank just behind the top-ranked tool (using test-time-scaling), and Code World Model (CWM) would place just behind the second-ranked tool. While LLMs are effective at predicting program termination, they often fail to provide a valid witness as a proof. Moreover, LLMs performance drops as program length increases. We hope these insights motivate further research into program termination and the broader potential of LLMs for reasoning about undecidable problems.


翻译:判定程序是否终止是计算机科学的核心问题。图灵的基础性结果确立了停机问题的不可判定性,表明不存在能普遍判定所有程序及输入终止性的算法。因此,自动验证工具通过近似方法处理终止性问题,有时无法证明或证伪;这些工具依赖于特定问题的架构与抽象,且通常与特定编程语言绑定。大型语言模型(LLMs)近期的成功与进展引出了以下问题:LLMs能否可靠地预测程序终止?本研究基于国际软件验证竞赛(SV-Comp)2025终止性类别的多样化C程序集对LLMs进行评估。结果表明,LLMs在程序终止预测方面表现优异:GPT-5与Claude Sonnet-4.5(采用测试时扩展策略)的排名将仅次于榜首工具,而Code World Model(CWM)的排名将紧随第二名工具之后。尽管LLMs能有效预测程序终止,但其常无法提供有效的证明凭证。此外,随着程序长度增加,LLMs的性能会下降。我们希望这些发现能推动关于程序终止性及LLMs在不可判定问题推理方面更广泛潜力的深入研究。

0
下载
关闭预览

相关内容

LLM驱动的指令遵循:进展,213页ppt
专知会员服务
70+阅读 · 2023年12月30日
【机器学习课程】机器学习中的常识性问题
专知会员服务
75+阅读 · 2019年12月2日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
SLAM的动态地图和语义问题
计算机视觉life
24+阅读 · 2019年4月27日
放弃 RNN/LSTM 吧,因为真的不好用!望周知~
人工智能头条
19+阅读 · 2018年4月24日
赛尔原创 | 对话系统评价方法综述
哈工大SCIR
11+阅读 · 2017年11月13日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员