Recent advancements in image generation models have enabled the prediction of future Graphical User Interface (GUI) states based on user instructions. However, existing benchmarks primarily focus on general domain visual fidelity, leaving the evaluation of state transitions and temporal coherence in GUI-specific contexts underexplored. To address this gap, we introduce GEBench, a comprehensive benchmark for evaluating dynamic interaction and temporal coherence in GUI generation. GEBench comprises 700 carefully curated samples spanning five task categories, covering both single-step interactions and multi-step trajectories across real-world and fictional scenarios, as well as grounding point localization. To support systematic evaluation, we propose GE-Score, a novel five-dimensional metric that assesses Goal Achievement, Interaction Logic, Content Consistency, UI Plausibility, and Visual Quality. Extensive evaluations on current models indicate that while they perform well on single-step transitions, they struggle significantly with maintaining temporal coherence and spatial grounding over longer interaction sequences. Our findings identify icon interpretation, text rendering, and localization precision as critical bottlenecks. This work provides a foundation for systematic assessment and suggests promising directions for future research toward building high-fidelity generative GUI environments. The code is available at: https://github.com/stepfun-ai/GEBench.


翻译:近期图像生成模型的进展使得基于用户指令预测未来图形用户界面(GUI)状态成为可能。然而,现有基准测试主要关注通用领域的视觉保真度,对GUI特定场景中的状态转换和时间连贯性评估仍显不足。为填补这一空白,我们提出了GEBench——一个用于评估GUI生成中动态交互和时间连贯性的综合基准。GEBench包含700个精心筛选的样本,涵盖五个任务类别,涉及现实与虚构场景中的单步交互与多步轨迹,以及定位点接地任务。为支持系统化评估,我们提出了GE-Score这一新颖的五维度量标准,从目标达成度、交互逻辑性、内容一致性、界面合理性和视觉质量五个维度进行评估。对现有模型的广泛评估表明,虽然它们在单步转换上表现良好,但在长交互序列中维持时间连贯性和空间接地方面存在显著困难。我们的研究发现图标理解、文本渲染和定位精度是当前的关键瓶颈。本工作为系统化评估奠定了基础,并为构建高保真生成式GUI环境的未来研究方向提供了启示。代码已开源:https://github.com/stepfun-ai/GEBench。

0
下载
关闭预览

相关内容

图增强生成(GraphRAG)
专知会员服务
34+阅读 · 2025年1月4日
可解释生成人工智能 (GenXAI):综述、概念化与研究议程
专知会员服务
39+阅读 · 2024年4月19日
用户画像基础
DataFunTalk
12+阅读 · 2020年8月1日
爱奇艺基于AI的移动端自动化测试框架的设计
前端之巅
18+阅读 · 2019年2月27日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
图增强生成(GraphRAG)
专知会员服务
34+阅读 · 2025年1月4日
可解释生成人工智能 (GenXAI):综述、概念化与研究议程
专知会员服务
39+阅读 · 2024年4月19日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员