LLMs versus the Halting Problem: Revisiting Program Termination Prediction - 专知论文

会员服务 ·

0

工具 · CVPR 2022 · 计算机科学 · 可判定性 · 判定性 ·

LLMs versus the Halting Problem: Revisiting Program Termination Prediction

翻译：LLMs 与停机问题：重访程序终止预测

Oren Sultan,Jordi Armengol-Estape,Pascal Kesseli,Julien Vanegue,Dafna Shahaf,Yossi Adi,Peter O'Hearn

Determining whether a program terminates is a central problem in computer science. Turing's foundational result established the Halting Problem as undecidable, showing that no algorithm can universally determine termination for all programs and inputs. Consequently, automatic verification tools approximate termination, sometimes failing to prove or disprove; these tools rely on problem-specific architectures, and are usually tied to particular programming languages. Recent success and progress in large language models (LLMs) raises the following question: can LLMs reliably predict program termination? In this work, we evaluate LLMs on a diverse set of programs from the Termination category of the International Competition on Software Verification (SV-Comp) 2025. Our results suggest that LLMs perform remarkably well at predicting program termination, where GPT-5 and Claude Sonnet-4.5 would rank just behind the top-ranked tool (using test-time-scaling), and Code World Model (CWM) would place just behind the second-ranked tool. While LLMs are effective at predicting program termination, they often fail to provide a valid witness as a proof. Moreover, LLMs performance drops as program length and complexity increases. We hope these insights motivate further research into program termination and the broader potential of LLMs for reasoning about undecidable problems.

翻译：判断一个程序是否会终止是计算机科学中的核心问题。图灵的基础性结论确立了“停机问题”的不可判定性，表明不存在能够普遍判定所有程序和输入是否终止的算法。因此，自动验证工具只能近似地处理终止问题，有时无法证明或否证；这些工具依赖于特定问题的架构，并且通常与特定编程语言绑定。大型语言模型的近期成功与进展提出了以下问题：LLMs 能否可靠地预测程序终止？在本工作中，我们在国际软件验证竞赛 2025 年“终止”类别中的多样化程序集上评估了 LLMs。我们的结果表明，LLMs 在预测程序终止方面表现异常出色，其中 GPT-5 和 Claude Sonnet-4.5 的成绩将仅次于排名第一的工具（采用测试时扩展策略），而 Code World Model (CWM) 将紧随排名第二的工具之后。尽管 LLMs 在预测程序终止方面有效，但它们往往无法提供有效的验证作为证明。此外，随着程序长度和复杂度增加，LLMs 的性能会下降。我们期望这些见解能激励对程序终止问题以及 LLMs 在推理不可判定问题方面更广泛潜力的进一步研究。

0

相关内容

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

专知会员服务

16+阅读 · 3月14日

面向大语言模型（LLMs）时代的冷启动推荐：一项全面的综述与路线图

面向大语言模型（LLMs）时代的冷启动推荐：一项全面的综述与路线图

专知会员服务

33+阅读 · 2025年1月6日

【ICLR2024】能检测到LLM产生的错误信息吗？

【ICLR2024】能检测到LLM产生的错误信息吗？

专知会员服务

25+阅读 · 2024年1月23日

LLM驱动的指令遵循:进展，213页ppt

LLM驱动的指令遵循:进展，213页ppt

专知会员服务

70+阅读 · 2023年12月30日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

大模型如何从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！

大模型如何从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！

专知会员服务

78+阅读 · 2023年9月3日

最新《自动机器学习》综述论文，AutoML: A Survey of the State-of-the-Art

最新《自动机器学习》综述论文，AutoML: A Survey of the State-of-the-Art

专知会员服务

93+阅读 · 2020年7月10日

【ACL2020】生成事实验证解释，Generating Fact Checking Explanations

【ACL2020】生成事实验证解释，Generating Fact Checking Explanations

专知会员服务

17+阅读 · 2020年4月15日

【理解计算机视觉损失函数】《Understanding Loss Functions in Computer Vision!》by Sowmya Yellapragad

【理解计算机视觉损失函数】《Understanding Loss Functions in Computer Vision!》by Sowmya Yellapragad

专知会员服务

44+阅读 · 2020年3月4日

【目标检测 | 2019最新综述】目标检测中的不平衡问题，附31页PDF， Imbalance Problems in Object Detection: A Review

【目标检测 | 2019最新综述】目标检测中的不平衡问题，附31页PDF， Imbalance Problems in Object Detection: A Review

专知会员服务

46+阅读 · 2019年11月15日

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

【数字孪生】使用数字孪生体进行预测性维护

【数字孪生】使用数字孪生体进行预测性维护

产业智能官

28+阅读 · 2019年7月22日

【边缘计算】边缘计算面临的问题

【边缘计算】边缘计算面临的问题

产业智能官

17+阅读 · 2019年5月31日

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

产业智能官

20+阅读 · 2019年5月18日

SLAM的动态地图和语义问题

SLAM的动态地图和语义问题

计算机视觉life

24+阅读 · 2019年4月27日

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

七月在线实验室

11+阅读 · 2018年7月18日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

放弃 RNN/LSTM 吧，因为真的不好用！望周知~

放弃 RNN/LSTM 吧，因为真的不好用！望周知~

人工智能头条

19+阅读 · 2018年4月24日

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

专知

18+阅读 · 2018年2月22日

赛尔原创 | 对话系统评价方法综述

赛尔原创 | 对话系统评价方法综述

哈工大SCIR

11+阅读 · 2017年11月13日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

随机动力系统的逼近和跑出问题

国家自然科学基金

0+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

有限理性下的最优停止理论及应用

国家自然科学基金

1+阅读 · 2015年12月31日

变工况机械动态信号瞬时耦合的理解、识别与故障预示

国家自然科学基金

2+阅读 · 2015年12月31日

基于多准则场景缩减的“零停机”设备状态预测与维护方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

Confidence-Based Stopping Methods for Systematic Reviews

Arxiv

0+阅读 · 6月13日

TRACE: Trajectory-Routed Causal Memory for Delayed-Evidence Visuomotor Imitation

Arxiv

0+阅读 · 6月12日

ProbeLLM: Automating Principled Diagnosis of LLM Failures

Arxiv

0+阅读 · 6月9日

Silent Failure in LLM Agent Systems: The Entropy Principle and the Inevitable Disorder of Autonomous Agents

Arxiv

0+阅读 · 6月6日

What Breaks When LLMs Code? Characterizing Operational Safety Failures of Agentic Code Assistants

Arxiv

0+阅读 · 5月29日

LLMs versus the Halting Problem: Characterizing Program Termination Reasoning

Arxiv

0+阅读 · 5月26日

Loop Termination and Generalized Collatz Sequences

Arxiv

0+阅读 · 5月14日

Termination of Real Linear Loops

Arxiv

0+阅读 · 5月1日

Knowing When to Quit: A Principled Framework for Dynamic Abstention in LLM Reasoning

Arxiv

0+阅读 · 4月20日

Transformers for Program Termination

Arxiv

0+阅读 · 3月25日

VIP会员

文章信息

相关主题

计算机科学

最新内容

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

2+阅读 · 今天11:43

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

2+阅读 · 今天11:41

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

5+阅读 · 今天6:30

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

5+阅读 · 今天6:18

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

6+阅读 · 今天6:08

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

6+阅读 · 今天5:54

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

7+阅读 · 今天5:22

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

7+阅读 · 今天5:15

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

7+阅读 · 今天3:42

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

5+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

7+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

10+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

9+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

7+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

9+阅读 · 6月24日

相关VIP内容

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

专知会员服务

16+阅读 · 3月14日

面向大语言模型（LLMs）时代的冷启动推荐：一项全面的综述与路线图

面向大语言模型（LLMs）时代的冷启动推荐：一项全面的综述与路线图

专知会员服务

33+阅读 · 2025年1月6日

【ICLR2024】能检测到LLM产生的错误信息吗？

【ICLR2024】能检测到LLM产生的错误信息吗？

专知会员服务

25+阅读 · 2024年1月23日

LLM驱动的指令遵循:进展，213页ppt

LLM驱动的指令遵循:进展，213页ppt

专知会员服务

70+阅读 · 2023年12月30日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

大模型如何从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！

大模型如何从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！

专知会员服务

78+阅读 · 2023年9月3日

最新《自动机器学习》综述论文，AutoML: A Survey of the State-of-the-Art

最新《自动机器学习》综述论文，AutoML: A Survey of the State-of-the-Art

专知会员服务

93+阅读 · 2020年7月10日

【ACL2020】生成事实验证解释，Generating Fact Checking Explanations

【ACL2020】生成事实验证解释，Generating Fact Checking Explanations

专知会员服务

17+阅读 · 2020年4月15日

【理解计算机视觉损失函数】《Understanding Loss Functions in Computer Vision!》by Sowmya Yellapragad

【理解计算机视觉损失函数】《Understanding Loss Functions in Computer Vision!》by Sowmya Yellapragad

专知会员服务

44+阅读 · 2020年3月4日

【目标检测 | 2019最新综述】目标检测中的不平衡问题，附31页PDF， Imbalance Problems in Object Detection: A Review

【目标检测 | 2019最新综述】目标检测中的不平衡问题，附31页PDF， Imbalance Problems in Object Detection: A Review

专知会员服务

46+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

网状网络及其在军事领域的运用

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

相关资讯

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

【数字孪生】使用数字孪生体进行预测性维护

【数字孪生】使用数字孪生体进行预测性维护

产业智能官

28+阅读 · 2019年7月22日

【边缘计算】边缘计算面临的问题

【边缘计算】边缘计算面临的问题

产业智能官

17+阅读 · 2019年5月31日

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

产业智能官

20+阅读 · 2019年5月18日

SLAM的动态地图和语义问题

SLAM的动态地图和语义问题

计算机视觉life

24+阅读 · 2019年4月27日

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

七月在线实验室

11+阅读 · 2018年7月18日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

放弃 RNN/LSTM 吧，因为真的不好用！望周知~

放弃 RNN/LSTM 吧，因为真的不好用！望周知~

人工智能头条

19+阅读 · 2018年4月24日

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

专知

18+阅读 · 2018年2月22日

赛尔原创 | 对话系统评价方法综述

赛尔原创 | 对话系统评价方法综述

哈工大SCIR

11+阅读 · 2017年11月13日

相关论文

Confidence-Based Stopping Methods for Systematic Reviews

Arxiv

0+阅读 · 6月13日

TRACE: Trajectory-Routed Causal Memory for Delayed-Evidence Visuomotor Imitation

Arxiv

0+阅读 · 6月12日

ProbeLLM: Automating Principled Diagnosis of LLM Failures

Arxiv

0+阅读 · 6月9日

Silent Failure in LLM Agent Systems: The Entropy Principle and the Inevitable Disorder of Autonomous Agents

Arxiv

0+阅读 · 6月6日

What Breaks When LLMs Code? Characterizing Operational Safety Failures of Agentic Code Assistants

Arxiv

0+阅读 · 5月29日

LLMs versus the Halting Problem: Characterizing Program Termination Reasoning

Arxiv

0+阅读 · 5月26日

Loop Termination and Generalized Collatz Sequences

Arxiv

0+阅读 · 5月14日

Termination of Real Linear Loops

Arxiv

0+阅读 · 5月1日

Knowing When to Quit: A Principled Framework for Dynamic Abstention in LLM Reasoning

Arxiv

0+阅读 · 4月20日

Transformers for Program Termination

Arxiv

0+阅读 · 3月25日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

随机动力系统的逼近和跑出问题

国家自然科学基金

0+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

有限理性下的最优停止理论及应用

国家自然科学基金

1+阅读 · 2015年12月31日

变工况机械动态信号瞬时耦合的理解、识别与故障预示

国家自然科学基金

2+阅读 · 2015年12月31日

基于多准则场景缩减的“零停机”设备状态预测与维护方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员