Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in automated front-end engineering, e.g., generating UI code from visual designs. However, existing front-end UI code generation benchmarks have the following limitations: (1) While framework-based development becomes predominant in modern front-end programming, current benchmarks fail to incorporate mainstream development frameworks. (2) Existing evaluations focus solely on the UI code generation task, whereas practical UI development involves several iterations, including refining editing, and repairing issues. (3) Current benchmarks employ unidimensional evaluation, lacking investigation into influencing factors like task difficulty, input context variations, and in-depth code-level analysis. To bridge these gaps, we introduce DesignBench, a multi-framework, multi-task evaluation benchmark for assessing MLLMs' capabilities in automated front-end engineering. DesignBench encompasses three widely-used UI frameworks (React, Vue, and Angular) alongside vanilla HTML/CSS, and evaluates on three essential front-end tasks (generation, edit, and repair) in real-world development workflows. DesignBench contains 900 webpage samples spanning over 11 topics, 9 edit types, and 6 issue categories, enabling detailed analysis of MLLM performance across multiple dimensions. Our systematic evaluation reveals critical insights into MLLMs' framework-specific limitations, task-related bottlenecks, and performance variations under different conditions, providing guidance for future research in automated front-end development. Our code and data are available at https://github.com/WebPAI/DesignBench.


翻译:多模态大语言模型(MLLMs)在自动化前端工程(例如,根据视觉设计生成用户界面代码)中展现出卓越能力。然而,现有的前端用户界面代码生成基准存在以下局限性:(1)尽管基于框架的开发已成为现代前端编程的主流,当前基准未能纳入主流开发框架。(2)现有评估仅关注用户界面代码生成任务,而实际用户界面开发涉及多次迭代,包括精炼编辑和问题修复。(3)当前基准采用单维评估,缺乏对任务难度、输入上下文变化以及深度代码级分析等影响因素的考察。为弥补这些差距,我们提出了DesignBench,一个用于评估MLLMs在自动化前端工程中能力的多框架、多任务评估基准。DesignBench涵盖三种广泛使用的用户界面框架(React、Vue和Angular)以及原生HTML/CSS,并在真实世界开发流程中评估三个关键前端任务(生成、编辑和修复)。DesignBench包含900个网页样本,覆盖11个主题、9种编辑类型和6类问题,支持从多个维度对MLLM性能进行详细分析。我们的系统评估揭示了MLLMs在框架特定限制、任务相关瓶颈以及不同条件下性能变化方面的关键见解,为自动化前端开发的未来研究提供了指导。我们的代码与数据可在 https://github.com/WebPAI/DesignBench 获取。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
多模态大型语言模型:综述
专知会员服务
46+阅读 · 2025年6月14日
MME-Survey:多模态大型语言模型评估的综合性调查
专知会员服务
43+阅读 · 2024年12月1日
《多模态大语言模型评估综述》
专知会员服务
40+阅读 · 2024年8月29日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
《大型语言模型代码生成》综述
专知会员服务
68+阅读 · 2024年6月4日
《LLMs遇见多模态生成与编辑》综述
专知会员服务
41+阅读 · 2024年6月3日
《多模态大型语言模型进化》最新综述
专知会员服务
105+阅读 · 2024年2月23日
推荐|上交大推出Texygen:文本生成模型的基准测试平台
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月30日
VIP会员
相关VIP内容
多模态大型语言模型:综述
专知会员服务
46+阅读 · 2025年6月14日
MME-Survey:多模态大型语言模型评估的综合性调查
专知会员服务
43+阅读 · 2024年12月1日
《多模态大语言模型评估综述》
专知会员服务
40+阅读 · 2024年8月29日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
《大型语言模型代码生成》综述
专知会员服务
68+阅读 · 2024年6月4日
《LLMs遇见多模态生成与编辑》综述
专知会员服务
41+阅读 · 2024年6月3日
《多模态大型语言模型进化》最新综述
专知会员服务
105+阅读 · 2024年2月23日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员