LLMs与停机问题：程序终止预测的再审视 (LLMs versus the Halting Problem: Revisiting Program Termination Prediction) - 专知论文

会员服务 ·

0

工具 · 判定程序 · CVPR 2022 · 计算机科学 · 可判定性 ·

LLMs versus the Halting Problem: Revisiting Program Termination Prediction

翻译：LLMs与停机问题：程序终止预测的再审视

Oren Sultan,Jordi Armengol-Estape,Pascal Kesseli,Julien Vanegue,Dafna Shahaf,Yossi Adi,Peter O'Hearn

Determining whether a program terminates is a central problem in computer science. Turing's foundational result established the Halting Problem as undecidable, showing that no algorithm can universally determine termination for all programs and inputs. Consequently, automatic verification tools approximate termination, sometimes failing to prove or disprove; these tools rely on problem-specific architectures and abstractions, and are usually tied to particular programming languages. Recent success and progress in large language models (LLMs) raises the following question: can LLMs reliably predict program termination? In this work, we evaluate LLMs on a diverse set of C programs from the Termination category of the International Competition on Software Verification (SV-Comp) 2025. Our results suggest that LLMs perform remarkably well at predicting program termination, where GPT-5 and Claude Sonnet-4.5 would rank just behind the top-ranked tool (using test-time-scaling), and Code World Model (CWM) would place just behind the second-ranked tool. While LLMs are effective at predicting program termination, they often fail to provide a valid witness as a proof. Moreover, LLMs performance drops as program length increases. We hope these insights motivate further research into program termination and the broader potential of LLMs for reasoning about undecidable problems.

翻译：判定程序是否终止是计算机科学的核心问题。图灵的基础性结果确立了停机问题的不可判定性，表明不存在能够普遍判定所有程序及输入终止性的算法。因此，自动验证工具通过近似方法处理终止性问题，有时无法证明或证伪；这些工具依赖于特定问题的架构与抽象，且通常与特定编程语言绑定。大型语言模型（LLMs）近年取得的成功与进展引出了以下问题：LLMs能否可靠地预测程序终止？在本工作中，我们使用国际软件验证竞赛（SV-Comp）2025年终止性类别中的多样化C程序集评估了LLMs。结果表明，LLMs在程序终止预测方面表现优异：GPT-5与Claude Sonnet-4.5（采用测试时扩展策略）的排名将仅次于榜首工具，而Code World Model（CWM）将位列第二。尽管LLMs能有效预测程序终止，却常无法提供有效的证明见证。此外，LLMs的性能随程序长度增加而下降。我们希望这些发现能推动程序终止性研究及LLMs在不可判定问题推理方面更广泛潜力的探索。

0

相关内容

面向大语言模型（LLMs）时代的冷启动推荐：一项全面的综述与路线图

面向大语言模型（LLMs）时代的冷启动推荐：一项全面的综述与路线图

专知会员服务

33+阅读 · 2025年1月6日

机载电子战管理系统（EWMS）开发《加强测试和评估流程：实施敏捷开发、测试自动化和基于模型的系统工程概念》180页

机载电子战管理系统（EWMS）开发《加强测试和评估流程：实施敏捷开发、测试自动化和基于模型的系统工程概念》180页

专知会员服务

59+阅读 · 2024年3月17日

LLM驱动的指令遵循:进展，213页ppt

LLM驱动的指令遵循:进展，213页ppt

专知会员服务

70+阅读 · 2023年12月30日

大模型如何从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！

大模型如何从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！

专知会员服务

78+阅读 · 2023年9月3日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

【经典书】计算机科学中的逻辑学:对系统的建模和推理，443页pdf

专知会员服务

40+阅读 · 2021年4月14日

最新《自动机器学习》综述论文，AutoML: A Survey of the State-of-the-Art

最新《自动机器学习》综述论文，AutoML: A Survey of the State-of-the-Art

专知会员服务

93+阅读 · 2020年7月10日

【ACL2020】生成事实验证解释，Generating Fact Checking Explanations

【ACL2020】生成事实验证解释，Generating Fact Checking Explanations

专知会员服务

17+阅读 · 2020年4月15日

【理解计算机视觉损失函数】《Understanding Loss Functions in Computer Vision!》by Sowmya Yellapragad

【理解计算机视觉损失函数】《Understanding Loss Functions in Computer Vision!》by Sowmya Yellapragad

专知会员服务

44+阅读 · 2020年3月4日

【机器学习课程】机器学习中的常识性问题

【机器学习课程】机器学习中的常识性问题

专知会员服务

75+阅读 · 2019年12月2日

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

产业智能官

20+阅读 · 2019年5月18日

SLAM的动态地图和语义问题

SLAM的动态地图和语义问题

计算机视觉life

24+阅读 · 2019年4月27日

《终身学习、可解释ML、异常检测、对抗攻击》一览讲解，台大李宏毅老师2019机器学习课程讲义PPT

《终身学习、可解释ML、异常检测、对抗攻击》一览讲解，台大李宏毅老师2019机器学习课程讲义PPT

专知

22+阅读 · 2019年4月13日

今日面试题分享：请写出你了解的机器学习特征工程操作，以及它的意义

今日面试题分享：请写出你了解的机器学习特征工程操作，以及它的意义

七月在线实验室

39+阅读 · 2019年3月20日

干货 | 基于深度学习的目标检测算法综述：常见问题及解决方案

干货 | 基于深度学习的目标检测算法综述：常见问题及解决方案

AI前线

10+阅读 · 2018年11月2日

放弃 RNN/LSTM 吧，因为真的不好用！望周知~

放弃 RNN/LSTM 吧，因为真的不好用！望周知~

人工智能头条

19+阅读 · 2018年4月24日

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

专知

18+阅读 · 2018年2月22日

赛尔原创 | 对话系统评价方法综述

赛尔原创 | 对话系统评价方法综述

哈工大SCIR

11+阅读 · 2017年11月13日

回归预测&时间序列预测

回归预测&时间序列预测

GBASE数据工程部数据团队

44+阅读 · 2017年5月17日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

状态切换的随机时滞系统的稳定性分析与控制及应用

国家自然科学基金

0+阅读 · 2015年12月31日

多维斜反射倒向随机微分方程及最优转换和停止问题

国家自然科学基金

0+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

有限理性下的最优停止理论及应用

国家自然科学基金

1+阅读 · 2015年12月31日

变工况机械动态信号瞬时耦合的理解、识别与故障预示

国家自然科学基金

2+阅读 · 2015年12月31日

基于多准则场景缩减的“零停机”设备状态预测与维护方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

传感器非线性的模糊随机系统H无穷控制和滤波问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

Disproving (Positive) Almost-Sure Termination of Probabilistic Term Rewriting via Random Walks

Arxiv

0+阅读 · 2月18日

A Survey of Code Review Benchmarks and Evaluation Practices in Pre-LLM and LLM Era

Arxiv

0+阅读 · 2月13日

ProbeLLM: Automating Principled Diagnosis of LLM Failures

Arxiv

0+阅读 · 2月13日

A Weakest Precondition Calculus for Programs and Linear Temporal Specifications

Arxiv

0+阅读 · 2月11日

LLM-Based Repair of Static Nullability Errors

Arxiv

0+阅读 · 2月6日

LLM-42: Enabling Determinism in LLM Inference with Verified Speculation

Arxiv

0+阅读 · 1月30日

Termination Analysis of Linear-Constraint Programs

Arxiv

0+阅读 · 1月25日

LLM-42: Enabling Determinism in LLM Inference with Verified Speculation

Arxiv

0+阅读 · 1月25日

Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning

Arxiv

0+阅读 · 1月19日

Idea First, Code Later: Disentangling Problem Solving from Code Generation in Evaluating LLMs for Competitive Programming

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

计算机科学

相关VIP内容

面向大语言模型（LLMs）时代的冷启动推荐：一项全面的综述与路线图

面向大语言模型（LLMs）时代的冷启动推荐：一项全面的综述与路线图

专知会员服务

33+阅读 · 2025年1月6日

机载电子战管理系统（EWMS）开发《加强测试和评估流程：实施敏捷开发、测试自动化和基于模型的系统工程概念》180页

机载电子战管理系统（EWMS）开发《加强测试和评估流程：实施敏捷开发、测试自动化和基于模型的系统工程概念》180页

专知会员服务

59+阅读 · 2024年3月17日

LLM驱动的指令遵循:进展，213页ppt

LLM驱动的指令遵循:进展，213页ppt

专知会员服务

70+阅读 · 2023年12月30日

大模型如何从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！

大模型如何从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！

专知会员服务

78+阅读 · 2023年9月3日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

【经典书】计算机科学中的逻辑学:对系统的建模和推理，443页pdf

专知会员服务

40+阅读 · 2021年4月14日

最新《自动机器学习》综述论文，AutoML: A Survey of the State-of-the-Art

最新《自动机器学习》综述论文，AutoML: A Survey of the State-of-the-Art

专知会员服务

93+阅读 · 2020年7月10日

【ACL2020】生成事实验证解释，Generating Fact Checking Explanations

【ACL2020】生成事实验证解释，Generating Fact Checking Explanations

专知会员服务

17+阅读 · 2020年4月15日

【理解计算机视觉损失函数】《Understanding Loss Functions in Computer Vision!》by Sowmya Yellapragad

【理解计算机视觉损失函数】《Understanding Loss Functions in Computer Vision!》by Sowmya Yellapragad

专知会员服务

44+阅读 · 2020年3月4日

【机器学习课程】机器学习中的常识性问题

【机器学习课程】机器学习中的常识性问题

专知会员服务

75+阅读 · 2019年12月2日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

产业智能官

20+阅读 · 2019年5月18日

SLAM的动态地图和语义问题

SLAM的动态地图和语义问题

计算机视觉life

24+阅读 · 2019年4月27日

《终身学习、可解释ML、异常检测、对抗攻击》一览讲解，台大李宏毅老师2019机器学习课程讲义PPT

《终身学习、可解释ML、异常检测、对抗攻击》一览讲解，台大李宏毅老师2019机器学习课程讲义PPT

专知

22+阅读 · 2019年4月13日

今日面试题分享：请写出你了解的机器学习特征工程操作，以及它的意义

今日面试题分享：请写出你了解的机器学习特征工程操作，以及它的意义

七月在线实验室

39+阅读 · 2019年3月20日

干货 | 基于深度学习的目标检测算法综述：常见问题及解决方案

干货 | 基于深度学习的目标检测算法综述：常见问题及解决方案

AI前线

10+阅读 · 2018年11月2日

放弃 RNN/LSTM 吧，因为真的不好用！望周知~

放弃 RNN/LSTM 吧，因为真的不好用！望周知~

人工智能头条

19+阅读 · 2018年4月24日

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

专知

18+阅读 · 2018年2月22日

赛尔原创 | 对话系统评价方法综述

赛尔原创 | 对话系统评价方法综述

哈工大SCIR

11+阅读 · 2017年11月13日

回归预测&时间序列预测

回归预测&时间序列预测

GBASE数据工程部数据团队

44+阅读 · 2017年5月17日

相关论文

Disproving (Positive) Almost-Sure Termination of Probabilistic Term Rewriting via Random Walks

Arxiv

0+阅读 · 2月18日

A Survey of Code Review Benchmarks and Evaluation Practices in Pre-LLM and LLM Era

Arxiv

0+阅读 · 2月13日

ProbeLLM: Automating Principled Diagnosis of LLM Failures

Arxiv

0+阅读 · 2月13日

A Weakest Precondition Calculus for Programs and Linear Temporal Specifications

Arxiv

0+阅读 · 2月11日

LLM-Based Repair of Static Nullability Errors

Arxiv

0+阅读 · 2月6日

LLM-42: Enabling Determinism in LLM Inference with Verified Speculation

Arxiv

0+阅读 · 1月30日

Termination Analysis of Linear-Constraint Programs

Arxiv

0+阅读 · 1月25日

LLM-42: Enabling Determinism in LLM Inference with Verified Speculation

Arxiv

0+阅读 · 1月25日

Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning

Arxiv

0+阅读 · 1月19日

Idea First, Code Later: Disentangling Problem Solving from Code Generation in Evaluating LLMs for Competitive Programming

Arxiv

0+阅读 · 1月16日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

状态切换的随机时滞系统的稳定性分析与控制及应用

国家自然科学基金

0+阅读 · 2015年12月31日

多维斜反射倒向随机微分方程及最优转换和停止问题

国家自然科学基金

0+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

有限理性下的最优停止理论及应用

国家自然科学基金

1+阅读 · 2015年12月31日

变工况机械动态信号瞬时耦合的理解、识别与故障预示

国家自然科学基金

2+阅读 · 2015年12月31日

基于多准则场景缩减的“零停机”设备状态预测与维护方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

传感器非线性的模糊随机系统H无穷控制和滤波问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员