Debugging code world models - 专知论文

会员服务 ·

0

长时程 · 代码 · 令牌 · 调试 · 程序执行 ·

Debugging code world models

翻译：代码世界模型的调试

from arxiv, 8 pages, 4 figures, under review in conference

Code World Models (CWMs) are language models trained to simulate program execution by predicting explicit runtime state after every executed command. This execution-based world modeling enables internal verification within the model, offering an alternative to natural language chain-of-thought reasoning. However, the sources of errors and the nature of CWMs' limitations remain poorly understood. We study CWMs from two complementary perspectives: local semantic execution and long-horizon state tracking. On real-code benchmarks, we identify two dominant failure regimes. First, dense runtime state reveals produce token-intensive execution traces, leading to token-budget exhaustion on programs with long execution histories. Second, failures disproportionately concentrate in string-valued state, which we attribute to limitations of subword tokenization rather than program structure. To study long-horizon behavior, we use a controlled permutation-tracking benchmark that isolates state propagation under action execution. We show that long-horizon degradation is driven primarily by incorrect action generation: when actions are replaced with ground-truth commands, a Transformer-based CWM propagates state accurately over long horizons, despite known limitations of Transformers in long-horizon state tracking. These findings suggest directions for more efficient supervision and state representations in CWMs that are better aligned with program execution and data types.

翻译：代码世界模型（CWMs）是通过预测每条指令执行后的显式运行时状态来训练、以模拟程序执行的语言模型。这种基于执行的世界建模使模型能够进行内部验证，为自然语言链式推理提供了替代方案。然而，其错误来源与局限性本质仍未得到充分理解。我们从两个互补视角研究CWMs：局部语义执行与长时程状态追踪。在真实代码基准测试中，我们识别出两种主要的失效机制。首先，密集运行时状态表示会生成令牌密集型的执行轨迹，导致具有长执行历史的程序出现令牌预算耗尽。其次，失效异常集中于字符串值状态，我们将其归因于子词令牌化的局限性而非程序结构。为研究长时程行为，我们使用受控的排列追踪基准测试，以隔离动作执行下的状态传播。研究表明，长时程性能下降主要由错误动作生成驱动：当动作被替换为真实指令时，基于Transformer的CWM能够在长时程中准确传播状态，尽管已知Transformer在长时程状态追踪中存在局限。这些发现为CWMs中更高效的监督机制和状态表示指明了方向，使其能更好地与程序执行及数据类型对齐。

0

相关内容

长时程

走向通用人工智能之路，世界模型为何不可或缺？

走向通用人工智能之路，世界模型为何不可或缺？

专知会员服务

19+阅读 · 2025年7月1日

【ETZH博士论文】语言模型编程

【ETZH博士论文】语言模型编程

专知会员服务

25+阅读 · 2025年6月14日

【MIT博士论文】通过神经物理构建世界模型

【MIT博士论文】通过神经物理构建世界模型

专知会员服务

36+阅读 · 2025年4月3日

【NeurIPS2024教程】打开语言模型流水线：数据准备、模型训练与适配，255页ppt

【NeurIPS2024教程】打开语言模型流水线：数据准备、模型训练与适配，255页ppt

专知会员服务

54+阅读 · 2024年12月25日

世界模型：安全性视角

世界模型：安全性视角

专知会员服务

43+阅读 · 2024年11月17日

《大型语言模型代码生成》综述

《大型语言模型代码生成》综述

专知会员服务

70+阅读 · 2024年6月4日

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

专知会员服务

91+阅读 · 2024年2月12日

大模型如何代码建模？上交大等最新《语言模型与代码生成》综述，涵盖了50多个模型、30多个评估任务和500个相关工作

大模型如何代码建模？上交大等最新《语言模型与代码生成》综述，涵盖了50多个模型、30多个评估任务和500个相关工作

专知会员服务

55+阅读 · 2023年11月16日

【Mila-Google】使用元学习动态调整源代码模型，On-the-Fly Adaptation of Source Code Models using Meta-Learning

【Mila-Google】使用元学习动态调整源代码模型，On-the-Fly Adaptation of Source Code Models using Meta-Learning

专知会员服务

21+阅读 · 2020年3月28日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

专知

17+阅读 · 2019年12月7日

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

量子位

15+阅读 · 2019年7月9日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

一个牛逼的 Python 调试工具

一个牛逼的 Python 调试工具

机器学习算法与Python学习

15+阅读 · 2019年4月30日

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

AINLP

12+阅读 · 2018年11月1日

【干货】Python机器学习机器学习项目实战3——模型解释与结果分析（附代码）

【干货】Python机器学习机器学习项目实战3——模型解释与结果分析（附代码）

专知

16+阅读 · 2018年5月24日

【干货】使用TensorFlow官方Java API调用TensorFlow模型（附代码）

【干货】使用TensorFlow官方Java API调用TensorFlow模型（附代码）

专知

20+阅读 · 2018年4月22日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

GNSS仿真模型服务化共享关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于智能特征的手绘组装建模的关键问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向地理模型集成与运行的数据适配方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

网络的小世界结构及其上随机游动的混合时

国家自然科学基金

1+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

Towards a Neural Debugger for Python

Arxiv

0+阅读 · 3月10日

Neuro-Symbolic Synergy for Interactive World Modeling

Arxiv

0+阅读 · 3月9日

Code World Models for Parameter Control in Evolutionary Algorithms

Arxiv

0+阅读 · 2月25日

Computer-Using World Model

Computer-Using World Model

Arxiv

0+阅读 · 2月19日

Self-Improving World Modelling with Latent Actions

Arxiv

0+阅读 · 2月15日

Improving Code Generation via Small Language Model-as-a-judge

Arxiv

0+阅读 · 2月12日

SimuScene: Training and Benchmarking Code Generation to Simulate Physical Scenarios

Arxiv

0+阅读 · 2月11日

Code2World: A GUI World Model via Renderable Code Generation

Arxiv

0+阅读 · 2月10日

Verification of the Implicit World Model in a Generative Model via Adversarial Sequences

Arxiv

0+阅读 · 2月5日

Reinforcement World Model Learning for LLM-based Agents

Arxiv

0+阅读 · 2月5日

VIP会员

文章信息

相关主题

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

3+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

3+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

14+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

7+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

8+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

8+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

11+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

6+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

6+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

8+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

6+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

10+阅读 · 5月29日

相关VIP内容

走向通用人工智能之路，世界模型为何不可或缺？

走向通用人工智能之路，世界模型为何不可或缺？

专知会员服务

19+阅读 · 2025年7月1日

【ETZH博士论文】语言模型编程

【ETZH博士论文】语言模型编程

专知会员服务

25+阅读 · 2025年6月14日

【MIT博士论文】通过神经物理构建世界模型

【MIT博士论文】通过神经物理构建世界模型

专知会员服务

36+阅读 · 2025年4月3日

【NeurIPS2024教程】打开语言模型流水线：数据准备、模型训练与适配，255页ppt

【NeurIPS2024教程】打开语言模型流水线：数据准备、模型训练与适配，255页ppt

专知会员服务

54+阅读 · 2024年12月25日

世界模型：安全性视角

世界模型：安全性视角

专知会员服务

43+阅读 · 2024年11月17日

《大型语言模型代码生成》综述

《大型语言模型代码生成》综述

专知会员服务

70+阅读 · 2024年6月4日

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

专知会员服务

91+阅读 · 2024年2月12日

大模型如何代码建模？上交大等最新《语言模型与代码生成》综述，涵盖了50多个模型、30多个评估任务和500个相关工作

大模型如何代码建模？上交大等最新《语言模型与代码生成》综述，涵盖了50多个模型、30多个评估任务和500个相关工作

专知会员服务

55+阅读 · 2023年11月16日

【Mila-Google】使用元学习动态调整源代码模型，On-the-Fly Adaptation of Source Code Models using Meta-Learning

【Mila-Google】使用元学习动态调整源代码模型，On-the-Fly Adaptation of Source Code Models using Meta-Learning

专知会员服务

21+阅读 · 2020年3月28日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

专知

17+阅读 · 2019年12月7日

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

量子位

15+阅读 · 2019年7月9日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

一个牛逼的 Python 调试工具

一个牛逼的 Python 调试工具

机器学习算法与Python学习

15+阅读 · 2019年4月30日

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

AINLP

12+阅读 · 2018年11月1日

【干货】Python机器学习机器学习项目实战3——模型解释与结果分析（附代码）

【干货】Python机器学习机器学习项目实战3——模型解释与结果分析（附代码）

专知

16+阅读 · 2018年5月24日

【干货】使用TensorFlow官方Java API调用TensorFlow模型（附代码）

【干货】使用TensorFlow官方Java API调用TensorFlow模型（附代码）

专知

20+阅读 · 2018年4月22日

相关论文

Towards a Neural Debugger for Python

Arxiv

0+阅读 · 3月10日

Neuro-Symbolic Synergy for Interactive World Modeling

Arxiv

0+阅读 · 3月9日

Code World Models for Parameter Control in Evolutionary Algorithms

Arxiv

0+阅读 · 2月25日

Computer-Using World Model

Computer-Using World Model

Arxiv

0+阅读 · 2月19日

Self-Improving World Modelling with Latent Actions

Arxiv

0+阅读 · 2月15日

Improving Code Generation via Small Language Model-as-a-judge

Arxiv

0+阅读 · 2月12日

SimuScene: Training and Benchmarking Code Generation to Simulate Physical Scenarios

Arxiv

0+阅读 · 2月11日

Code2World: A GUI World Model via Renderable Code Generation

Arxiv

0+阅读 · 2月10日

Verification of the Implicit World Model in a Generative Model via Adversarial Sequences

Arxiv

0+阅读 · 2月5日

Reinforcement World Model Learning for LLM-based Agents

Arxiv

0+阅读 · 2月5日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

GNSS仿真模型服务化共享关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于智能特征的手绘组装建模的关键问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向地理模型集成与运行的数据适配方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

网络的小世界结构及其上随机游动的混合时

国家自然科学基金

1+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员