1D-Bench: A Benchmark for Iterative UI Code Generation with Visual Feedback in Real-World - 专知论文

会员服务 ·

0

代码 · 基准 · 中间表示 · 表示 · 设计 ·

1D-Bench: A Benchmark for Iterative UI Code Generation with Visual Feedback in Real-World

翻译：1D-Bench：基于真实场景视觉反馈的迭代式用户界面代码生成基准

Qiao Xu,Yipeng Yu,Chengxiao Feng,Xu Liu

Design-to-code translates high-fidelity UI designs into executable front-end implementations, but progress remains hard to compare due to inconsistent datasets, toolchains, and evaluation protocols. We introduce 1D-Bench, a benchmark grounded in real e-commerce workflows, where each instance provides a reference rendering and an exported intermediate representation that may contain extraction errors. 1D is short for one day, representing the efficient completion of design-to-code tasks in less than one day. Models take both as input, using the intermediate representation as structural cues while being evaluated against the reference rendering, which tests robustness to intermediate representation defects rather than literal adherence. 1D-Bench requires generating an executable React codebase under a fixed toolchain with an explicit component hierarchy, and defines a multi-round setting in which models iteratively apply component-level edits using execution feedback. Experiments on commercial and open-weight multimodal models show that iterative editing generally improves final performance by increasing rendering success and often improving visual similarity. We further conduct a pilot study on post-training with synthetic repair trajectories and reinforcement learning based editing, and observe limited and unstable gains that may stem from sparse terminal rewards and high-variance file-level updates.

翻译：设计到代码转换旨在将高保真用户界面设计转化为可执行的前端实现，但由于数据集、工具链和评估协议的不一致，其进展仍难以比较。我们提出了1D-Bench，这是一个基于真实电子商务工作流程的基准测试，其中每个实例提供一个参考渲染图和一个可能包含提取错误的导出中间表示。1D是“一天”的缩写，代表在一天内高效完成设计到代码任务。模型以两者作为输入，使用中间表示作为结构线索，同时以参考渲染图为评估标准，这测试的是对中间表示缺陷的鲁棒性，而非字面遵循程度。1D-Bench要求在固定工具链下生成具有明确组件层次结构的可执行React代码库，并定义了一个多轮设置，在该设置中模型利用执行反馈迭代地应用组件级编辑。对商业和开源多模态模型的实验表明，迭代编辑通常通过提高渲染成功率和视觉相似度来提升最终性能。我们进一步对基于合成修复轨迹的后训练和基于强化学习的编辑进行了初步研究，观察到有限且不稳定的增益，这可能源于稀疏的终端奖励和高方差的文件级更新。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

专知会员服务

18+阅读 · 5月20日

【CVPR2025】GEN3C：基于3D信息的世界一致性视频生成与精确相机控制

【CVPR2025】GEN3C：基于3D信息的世界一致性视频生成与精确相机控制

专知会员服务

11+阅读 · 2025年3月6日

北交大团队开源代码生成框架o1-Coder，并将推出强化微调RFT版本

北交大团队开源代码生成框架o1-Coder，并将推出强化微调RFT版本

专知会员服务

32+阅读 · 2024年12月10日

Meta-Transformer：多模态学习的统一框架

Meta-Transformer：多模态学习的统一框架

专知会员服务

59+阅读 · 2023年7月21日

【AAAI2023】DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒

【AAAI2023】DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒

专知会员服务

17+阅读 · 2023年1月23日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

终究还是来了，AI卷革程序员！！DeepMind发布媲美普通程序员的AlphaCode

终究还是来了，AI卷革程序员！！DeepMind发布媲美普通程序员的AlphaCode

专知会员服务

27+阅读 · 2022年2月3日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

专知会员服务

10+阅读 · 2019年12月3日

安利一个开源的好工具Label Studio, 闭环数据标注和模型训练

安利一个开源的好工具Label Studio, 闭环数据标注和模型训练

AINLP

27+阅读 · 2020年12月30日

用户画像基础

用户画像基础

DataFunTalk

12+阅读 · 2020年8月1日

【泡泡图灵智库】DenseFusion:基于迭代密集融合的6D目标姿态估计

【泡泡图灵智库】DenseFusion:基于迭代密集融合的6D目标姿态估计

泡泡机器人SLAM

16+阅读 · 2019年9月3日

基于 SonarQube 的增量代码扫描

基于 SonarQube 的增量代码扫描

DevOps时代

12+阅读 · 2019年7月18日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【仿真】生产系统仿真软件，实现数字化工厂的利器！

【仿真】生产系统仿真软件，实现数字化工厂的利器！

产业智能官

15+阅读 · 2018年11月1日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

高速率、高频谱效率码分多址系统地址码设计研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

MBD环境下复杂产品信息网络的演化机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于Wyner-Ziv分布式编码的无线视频通信端到端失真度估算

国家自然科学基金

0+阅读 · 2014年12月31日

多尺度NED/DEM生成的数字综合理论和关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows

Arxiv

0+阅读 · 4月30日

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

Arxiv

0+阅读 · 4月28日

Aligned Multi-View Scripts for Universal Chart-to-Code Generation

Arxiv

0+阅读 · 4月27日

See, Point, Refine: Multi-Turn Approach to GUI Grounding with Visual Feedback

Arxiv

0+阅读 · 4月14日

CodeRefine: A Pipeline for Enhancing LLM-Generated Code Implementations of Research Papers

Arxiv

0+阅读 · 3月26日

Widget2Code: From Visual Widgets to UI Code via Multimodal LLMs

Arxiv

0+阅读 · 3月26日

Omni-I2C: A Holistic Benchmark for High-Fidelity Image-to-Code Generation

Arxiv

0+阅读 · 3月18日

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Arxiv

0+阅读 · 3月10日

FeedbackEval: A Benchmark for Evaluating Large Language Models in Feedback-Driven Code Repair Tasks

Arxiv

0+阅读 · 2月26日

DesignBench: A Comprehensive Benchmark for MLLM-based Front-end Code Generation

Arxiv

0+阅读 · 2月24日

VIP会员

文章信息

相关主题

最新内容

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

4+阅读 · 今天15:21

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

0+阅读 · 今天15:12

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

2+阅读 · 今天15:06

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

4+阅读 · 今天14:55

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

9+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

7+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

9+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

6+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

9+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

9+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

5+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

3+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

7+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

5+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

6+阅读 · 7月17日

相关VIP内容

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

专知会员服务

18+阅读 · 5月20日

【CVPR2025】GEN3C：基于3D信息的世界一致性视频生成与精确相机控制

【CVPR2025】GEN3C：基于3D信息的世界一致性视频生成与精确相机控制

专知会员服务

11+阅读 · 2025年3月6日

北交大团队开源代码生成框架o1-Coder，并将推出强化微调RFT版本

北交大团队开源代码生成框架o1-Coder，并将推出强化微调RFT版本

专知会员服务

32+阅读 · 2024年12月10日

Meta-Transformer：多模态学习的统一框架

Meta-Transformer：多模态学习的统一框架

专知会员服务

59+阅读 · 2023年7月21日

【AAAI2023】DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒

【AAAI2023】DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒

专知会员服务

17+阅读 · 2023年1月23日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

终究还是来了，AI卷革程序员！！DeepMind发布媲美普通程序员的AlphaCode

终究还是来了，AI卷革程序员！！DeepMind发布媲美普通程序员的AlphaCode

专知会员服务

27+阅读 · 2022年2月3日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

专知会员服务

10+阅读 · 2019年12月3日

热门VIP内容

开通专知VIP会员享更多权益服务

锻造未来士兵：外骨骼、基因工程与赛博格

《无人机蜂群通信技术研究》50页

深入Project Maven：为何人工智能在战场上依然失灵

《无人机系统（UAS）通信网状网络试验性部署》50页报告

相关资讯

安利一个开源的好工具Label Studio, 闭环数据标注和模型训练

安利一个开源的好工具Label Studio, 闭环数据标注和模型训练

AINLP

27+阅读 · 2020年12月30日

用户画像基础

用户画像基础

DataFunTalk

12+阅读 · 2020年8月1日

【泡泡图灵智库】DenseFusion:基于迭代密集融合的6D目标姿态估计

【泡泡图灵智库】DenseFusion:基于迭代密集融合的6D目标姿态估计

泡泡机器人SLAM

16+阅读 · 2019年9月3日

基于 SonarQube 的增量代码扫描

基于 SonarQube 的增量代码扫描

DevOps时代

12+阅读 · 2019年7月18日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【仿真】生产系统仿真软件，实现数字化工厂的利器！

【仿真】生产系统仿真软件，实现数字化工厂的利器！

产业智能官

15+阅读 · 2018年11月1日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

相关论文

Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows

Arxiv

0+阅读 · 4月30日

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

Arxiv

0+阅读 · 4月28日

Aligned Multi-View Scripts for Universal Chart-to-Code Generation

Arxiv

0+阅读 · 4月27日

See, Point, Refine: Multi-Turn Approach to GUI Grounding with Visual Feedback

Arxiv

0+阅读 · 4月14日

CodeRefine: A Pipeline for Enhancing LLM-Generated Code Implementations of Research Papers

Arxiv

0+阅读 · 3月26日

Widget2Code: From Visual Widgets to UI Code via Multimodal LLMs

Arxiv

0+阅读 · 3月26日

Omni-I2C: A Holistic Benchmark for High-Fidelity Image-to-Code Generation

Arxiv

0+阅读 · 3月18日

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Arxiv

0+阅读 · 3月10日

FeedbackEval: A Benchmark for Evaluating Large Language Models in Feedback-Driven Code Repair Tasks

Arxiv

0+阅读 · 2月26日

DesignBench: A Comprehensive Benchmark for MLLM-based Front-end Code Generation

Arxiv

0+阅读 · 2月24日

相关基金

高速率、高频谱效率码分多址系统地址码设计研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

MBD环境下复杂产品信息网络的演化机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于Wyner-Ziv分布式编码的无线视频通信端到端失真度估算

国家自然科学基金

0+阅读 · 2014年12月31日

多尺度NED/DEM生成的数字综合理论和关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员