GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine? - 专知论文

会员服务 ·

0

交互 · 引擎 · 端到端 · 智能体 · 构建 ·

GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?

翻译：GameCraft-Bench：智能体能否在真实游戏引擎中端到端构建可玩游戏？

Tongxu Luo,Rongsheng Wang,Jiaxi Bi,Chenming Xu,Zhengyang Tang,Jianlong Chen,Juhao Liang,Ke Ji,Shuqi Guo,Yuhao Du,Fan Bu,Wenyu Du,Xiaotong Zhang,Kyle Li,Shaobo Wang,Linfeng Zhang,Yuxuan Liu,Xin Lai,Chenxin Li,Yiduo Guo,Zhexin Zhang,Xinyuan Wang,Tianyi Bai,Ziniu Li,Benyou Wang

Game generation is an emerging application of coding agents, requiring models to transform natural-language specifications into playable interactive systems. Unlike traditional coding tasks, game generation takes place within a game engine, where scripts, scenes, assets, rendering, and runtime interactions must jointly produce coherent gameplay. We formalize end-to-end game generation as the problem of producing a complete game artifact that realizes a specification through observable player-game interaction in a target environment. We argue that evaluating this setting requires three desiderata: Engine Grounding, Artifact Completeness, and Interactive Verification. We propose an interaction-grounded evaluation framework that assesses executable gameplay through replayed demonstrations and rubric-guided multimodal judging. We instantiate this framework as GameCraft-Bench, a benchmark comprising 140 Godot tasks across 15 game families. Evaluations of frontier coding agents show that end-to-end game generation remains highly challenging: the strongest agent achieves only 41.46%, and most agents score below 40%. Further analysis reveals that while agents often implement recognizable mechanics, they struggle to deliver complete games with sufficient content, functional visual feedback, and coherent presentation. See https://tongxuluo.github.io/gamecraft-bench-website for demos, code, and data.

翻译：游戏生成是编码智能体的一个新兴应用，要求模型将自然语言规范转化为可玩的交互系统。与传统的编码任务不同，游戏生成在游戏引擎内进行，其中脚本、场景、资源、渲染和运行时交互必须共同产生连贯的游戏玩法。我们将端到端游戏生成形式化为：在目标环境中，通过可观察的玩家-游戏交互来生成实现特定规范的完整游戏制品的问题。我们认为，评估这一设置需要三个要素：引擎接地性、制品完整性和交互式验证。我们提出了一种基于交互的评估框架，通过重放演示和基于评分的多模态评判来评估可执行游戏玩法。我们将该框架实例化为GameCraft-Bench，一个包含15个游戏家族共140个Godot任务的基准测试。对前沿编码智能体的评估表明，端到端游戏生成仍极具挑战性：最强智能体仅达到41.46%，大多数智能体得分低于40%。进一步分析发现，尽管智能体通常能实现可识别的机制，但难以提供包含充足内容、功能性视觉反馈和连贯呈现的完整游戏。演示、代码和数据请参见https://tongxuluo.github.io/gamecraft-bench-website。

0

相关内容

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

36+阅读 · 2025年12月31日

Agent AI：多模态交互的新地平线

Agent AI：多模态交互的新地平线

专知会员服务

22+阅读 · 2025年5月26日

DeepSeek系列报告：AI编程或为B端最先崛起的AI应用

DeepSeek系列报告：AI编程或为B端最先崛起的AI应用

专知会员服务

73+阅读 · 2025年2月15日

谷歌《智能体Agent》白皮书，42页pdf

谷歌《智能体Agent》白皮书，42页pdf

专知会员服务

108+阅读 · 2025年1月5日

【新书】使用AI智能体构建应用程序

【新书】使用AI智能体构建应用程序

专知会员服务

61+阅读 · 2024年10月26日

设计和构建强大的大语言模型智能体

设计和构建强大的大语言模型智能体

专知会员服务

55+阅读 · 2024年10月6日

AI产业系列深度报告（一）：生成式AI多领域落地，赋能传媒行业发展

AI产业系列深度报告（一）：生成式AI多领域落地，赋能传媒行业发展

专知会员服务

24+阅读 · 2024年6月29日

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

专知会员服务

62+阅读 · 2023年4月1日

未来GPT-5一统AIGC任务？韩国庆熙大学等最新《生成式人工智能AIGC》综述，56页pdf全面阐述AIGC的文本图像生成技术

未来GPT-5一统AIGC任务？韩国庆熙大学等最新《生成式人工智能AIGC》综述，56页pdf全面阐述AIGC的文本图像生成技术

专知会员服务

151+阅读 · 2023年3月22日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

社区分享 | 用 PoseNet + TensorFlow.js 在浏览器实现体感游戏

社区分享 | 用 PoseNet + TensorFlow.js 在浏览器实现体感游戏

TensorFlow

18+阅读 · 2020年2月11日

自然语言生成资源列表

自然语言生成资源列表

专知

17+阅读 · 2020年1月4日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

【仿真】生产系统仿真软件，实现数字化工厂的利器！

【仿真】生产系统仿真软件，实现数字化工厂的利器！

产业智能官

15+阅读 · 2018年11月1日

基于演化博弈的多智能体环形编队的理论与实验研究

国家自然科学基金

23+阅读 · 2015年12月31日

大规模在线游戏网络用户行为研究

国家自然科学基金

2+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

多级可控组装模拟生物体系的功能

国家自然科学基金

0+阅读 · 2015年12月31日

基于智能特征的手绘组装建模的关键问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

生物网络的可计算建模

国家自然科学基金

2+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

MUSE: Agentic 3D Scene Authoring via Memory-Grounded Incremental Requirement Satisfaction

Arxiv

0+阅读 · 6月12日

InterleaveThinker: Reinforcing Agentic Interleaved Generation

Arxiv

0+阅读 · 6月12日

InterleaveThinker: Reinforcing Agentic Interleaved Generation

Arxiv

0+阅读 · 6月11日

CLI-Anything: Towards Agent-Native Computer Use

Arxiv

0+阅读 · 6月2日

Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players

Arxiv

0+阅读 · 5月27日

GUI Agents for Continual Game Generation

Arxiv

0+阅读 · 5月27日

AgenticVBench: Can AI Agents Complete Real-World Post-Production Tasks?

Arxiv

0+阅读 · 5月26日

A Comprehensive Survey on Agent Skills: Taxonomy, Techniques, and Applications

Arxiv

0+阅读 · 5月19日

Code as Agent Harness

Arxiv

0+阅读 · 5月18日

Generative Agents: Interactive Simulacra of Human Behavior

Arxiv

16+阅读 · 2023年8月6日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

2+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

4+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

5+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

6+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

9+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

36+阅读 · 2025年12月31日

Agent AI：多模态交互的新地平线

Agent AI：多模态交互的新地平线

专知会员服务

22+阅读 · 2025年5月26日

DeepSeek系列报告：AI编程或为B端最先崛起的AI应用

DeepSeek系列报告：AI编程或为B端最先崛起的AI应用

专知会员服务

73+阅读 · 2025年2月15日

谷歌《智能体Agent》白皮书，42页pdf

谷歌《智能体Agent》白皮书，42页pdf

专知会员服务

108+阅读 · 2025年1月5日

【新书】使用AI智能体构建应用程序

【新书】使用AI智能体构建应用程序

专知会员服务

61+阅读 · 2024年10月26日

设计和构建强大的大语言模型智能体

设计和构建强大的大语言模型智能体

专知会员服务

55+阅读 · 2024年10月6日

AI产业系列深度报告（一）：生成式AI多领域落地，赋能传媒行业发展

AI产业系列深度报告（一）：生成式AI多领域落地，赋能传媒行业发展

专知会员服务

24+阅读 · 2024年6月29日

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

专知会员服务

62+阅读 · 2023年4月1日

未来GPT-5一统AIGC任务？韩国庆熙大学等最新《生成式人工智能AIGC》综述，56页pdf全面阐述AIGC的文本图像生成技术

未来GPT-5一统AIGC任务？韩国庆熙大学等最新《生成式人工智能AIGC》综述，56页pdf全面阐述AIGC的文本图像生成技术

专知会员服务

151+阅读 · 2023年3月22日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

社区分享 | 用 PoseNet + TensorFlow.js 在浏览器实现体感游戏

社区分享 | 用 PoseNet + TensorFlow.js 在浏览器实现体感游戏

TensorFlow

18+阅读 · 2020年2月11日

自然语言生成资源列表

自然语言生成资源列表

专知

17+阅读 · 2020年1月4日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

【仿真】生产系统仿真软件，实现数字化工厂的利器！

【仿真】生产系统仿真软件，实现数字化工厂的利器！

产业智能官

15+阅读 · 2018年11月1日

相关论文

MUSE: Agentic 3D Scene Authoring via Memory-Grounded Incremental Requirement Satisfaction

Arxiv

0+阅读 · 6月12日

InterleaveThinker: Reinforcing Agentic Interleaved Generation

Arxiv

0+阅读 · 6月12日

InterleaveThinker: Reinforcing Agentic Interleaved Generation

Arxiv

0+阅读 · 6月11日

CLI-Anything: Towards Agent-Native Computer Use

Arxiv

0+阅读 · 6月2日

Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players

Arxiv

0+阅读 · 5月27日

GUI Agents for Continual Game Generation

Arxiv

0+阅读 · 5月27日

AgenticVBench: Can AI Agents Complete Real-World Post-Production Tasks?

Arxiv

0+阅读 · 5月26日

A Comprehensive Survey on Agent Skills: Taxonomy, Techniques, and Applications

Arxiv

0+阅读 · 5月19日

Code as Agent Harness

Arxiv

0+阅读 · 5月18日

Generative Agents: Interactive Simulacra of Human Behavior

Arxiv

16+阅读 · 2023年8月6日

相关基金

基于演化博弈的多智能体环形编队的理论与实验研究

国家自然科学基金

23+阅读 · 2015年12月31日

大规模在线游戏网络用户行为研究

国家自然科学基金

2+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

多级可控组装模拟生物体系的功能

国家自然科学基金

0+阅读 · 2015年12月31日

基于智能特征的手绘组装建模的关键问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

生物网络的可计算建模

国家自然科学基金

2+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员