Despite rapid progress on coding agents, progress on their multimodal counterparts has lagged behind. A key challenge is the scarcity of evaluation testbeds that combine the complexity of software development with the need for deep multimodal understanding. Game development provides such a testbed as agents must navigate large, dense codebases while manipulating intrinsically multimodal assets such as shaders, sprites, and animations within a visual game scene. We present GameDevBench, the first benchmark for evaluating agents on game development tasks. GameDevBench consists of 132 tasks derived from web and video tutorials. Tasks require significant multimodal understanding and are complex -- the average solution requires over three times the amount of lines of code and file changes compared to prior software development benchmarks. Agents still struggle with game development, with the best agent solving only 54.5% of tasks. We find a strong correlation between perceived task difficulty and multimodal complexity, with success rates dropping from 46.9% on gameplay-oriented tasks to 31.6% on 2D graphics tasks. To improve multimodal capability, we introduce two simple image and video-based feedback mechanisms for agents. Despite their simplicity, these methods consistently improve performance, with the largest change being an increase in Claude Sonnet 4.5's performance from 33.3% to 47.7%. We release GameDevBench publicly to support further research into agentic game development.


翻译:尽管编码智能体取得了快速进展,但其多模态对应体的发展却相对滞后。一个关键挑战在于缺乏能够将软件开发复杂性与深度多模态理解需求相结合的评价测试平台。游戏开发为此类测试提供了理想场景,因为智能体必须在视觉游戏场景中导航庞大而密集的代码库,同时操作着色器、精灵图、动画等本质多模态的资产。我们提出了GameDevBench——首个面向游戏开发任务的智能体评估基准。该基准包含132项源自网络及视频教程的任务,这些任务要求显著的多模态理解能力且复杂度高:平均解决方案所需的代码行数与文件修改量是先前软件开发基准的三倍以上。当前智能体在游戏开发任务中仍面临困难,最佳智能体仅能完成54.5%的任务。我们发现任务感知难度与多模态复杂度存在强相关性:在游戏玩法导向任务中成功率为46.9%,而在2D图形任务中则降至31.6%。为提升多模态能力,我们为智能体引入了两种基于图像和视频的简易反馈机制。尽管方法简单,这些机制能持续提升性能,其中Claude Sonnet 4.5的性能提升最为显著——从33.3%提高至47.7%。我们公开发布GameDevBench以支持智能体游戏开发领域的进一步研究。

0
下载
关闭预览

相关内容

智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
大语言模型智能体的评估与基准:综述
专知会员服务
46+阅读 · 2025年7月31日
面向大模型多智能体系统的多维评估方法
专知会员服务
34+阅读 · 2025年4月15日
大模型报告:模型能力决定下限,场景适配度决定上限
专知会员服务
57+阅读 · 2024年6月3日
基于大型语言模型的游戏智能体综述
专知会员服务
66+阅读 · 2024年4月3日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
爱奇艺基于AI的移动端自动化测试框架的设计
前端之巅
18+阅读 · 2019年2月27日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
大语言模型智能体的评估与基准:综述
专知会员服务
46+阅读 · 2025年7月31日
面向大模型多智能体系统的多维评估方法
专知会员服务
34+阅读 · 2025年4月15日
大模型报告:模型能力决定下限,场景适配度决定上限
专知会员服务
57+阅读 · 2024年6月3日
基于大型语言模型的游戏智能体综述
专知会员服务
66+阅读 · 2024年4月3日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员