MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation - 专知论文

会员服务 ·

0

多模 · 模态 · 分层 · 多模态 · 集成 ·

MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation

翻译：MM-WebAgent：面向网页生成的分层多模态网络代理

Yan Li,Zezi Zeng,Yifan Yang,Yuqing Yang,Ning Liao,Weiwei Guo,Lili Qiu,Mingxi Cheng,Qi Dai,Zhendong Wang,Zhengyuan Yang,Xue Yang,Ji Li,Lijuan Wang,Chong Luo

The rapid progress of Artificial Intelligence Generated Content (AIGC) tools enables images, videos, and visualizations to be created on demand for webpage design, offering a flexible and increasingly adopted paradigm for modern UI/UX. However, directly integrating such tools into automated webpage generation often leads to style inconsistency and poor global coherence, as elements are generated in isolation. We propose MM-WebAgent, a hierarchical agentic framework for multimodal webpage generation that coordinates AIGC-based element generation through hierarchical planning and iterative self-reflection. MM-WebAgent jointly optimizes global layout, local multimodal content, and their integration, producing coherent and visually consistent webpages. We further introduce a benchmark for multimodal webpage generation and a multi-level evaluation protocol for systematic assessment. Experiments demonstrate that MM-WebAgent outperforms code-generation and agent-based baselines, especially on multimodal element generation and integration. Code & Data: https://aka.ms/mm-webagent.

翻译：人工智能生成内容（AIGC）工具的快速发展使得能够按需生成图像、视频及可视化内容用于网页设计，为现代UI/UX提供了一种灵活且日益普及的范式。然而，将这些工具直接集成到自动化网页生成中往往会导致风格不一致和全局连贯性差，因为各元素是孤立生成的。我们提出MM-WebAgent——一种分层代理框架，通过分层规划和迭代自我反思协调基于AIGC的元素生成，实现多模态网页生成。MM-WebAgent联合优化全局布局、局部多模态内容及其集成，生成连贯且视觉一致的网页。我们进一步引入了多模态网页生成基准测试及多层级评估协议用于系统评估。实验表明，MM-WebAgent在代码生成和基于代理的基线方法中表现更优，尤其在多模态元素生成与集成方面。代码与数据：https://aka.ms/mm-webagent。

0

相关内容

AIGC如何助力工作和学习，98页ppt

AIGC如何助力工作和学习，98页ppt

专知会员服务

40+阅读 · 2025年3月14日

182页！《AIGC发展研究报告3.0》正式发布

182页！《AIGC发展研究报告3.0》正式发布

专知会员服务

63+阅读 · 2024年12月1日

多模态AIGC有什么进展？SUTD等最新《各种数据模态AIGC》综述，全面详述AIGC进展

多模态AIGC有什么进展？SUTD等最新《各种数据模态AIGC》综述，全面详述AIGC进展

专知会员服务

82+阅读 · 2023年8月29日

AIGC产业应用实践，智能时代的生产力变革（附49页pdf下载）

AIGC产业应用实践，智能时代的生产力变革（附49页pdf下载）

专知会员服务

83+阅读 · 2023年6月11日

AIGC如何安全可控?中山大学等最新《AIGC中对隐私和安全的挑战及其补救措施：探索隐私计算、区块链潜在应用》全面阐述

AIGC如何安全可控?中山大学等最新《AIGC中对隐私和安全的挑战及其补救措施：探索隐私计算、区块链潜在应用》全面阐述

专知会员服务

49+阅读 · 2023年6月6日

ChatGPT引领AIGC新浪潮！暨南大学等最新《人工智能生成内容AIGC》全面综述，详述AIGC的3个前沿功能和6个高级特征

ChatGPT引领AIGC新浪潮！暨南大学等最新《人工智能生成内容AIGC》全面综述，详述AIGC的3个前沿功能和6个高级特征

专知会员服务

139+阅读 · 2023年4月18日

ChatGPT等AIGC如何移动边缘部署？南洋理工最新《在移动网络中释放边云生成AI的力量:AIGC服务》综述其技术体系

ChatGPT等AIGC如何移动边缘部署？南洋理工最新《在移动网络中释放边云生成AI的力量:AIGC服务》综述其技术体系

专知会员服务

95+阅读 · 2023年3月30日

未来GPT-5一统AIGC任务？韩国庆熙大学等最新《生成式人工智能AIGC》综述，56页pdf全面阐述AIGC的文本图像生成技术

未来GPT-5一统AIGC任务？韩国庆熙大学等最新《生成式人工智能AIGC》综述，56页pdf全面阐述AIGC的文本图像生成技术

专知会员服务

151+阅读 · 2023年3月22日

AIGC的技术发展和应用：ChatGPT，20页pdf

AIGC的技术发展和应用：ChatGPT，20页pdf

专知会员服务

174+阅读 · 2023年2月13日

【ACM MM 2019 】MMGCN：用于微视频个性化推荐的多模图卷积网络（MMGCN：Multi-modal Graph Convolution Network for Personalized Recommendation of Micro-video）

【ACM MM 2019 】MMGCN：用于微视频个性化推荐的多模图卷积网络（MMGCN：Multi-modal Graph Convolution Network for Personalized Recommendation of Micro-video）

专知会员服务

57+阅读 · 2019年11月20日

【ChatGPT系列报告】2023年AIGC应用与实践展望报告，47页ppt

【ChatGPT系列报告】2023年AIGC应用与实践展望报告，47页ppt

专知

27+阅读 · 2023年4月10日

重磅！人工智能生成内容（AIGC）白皮书（2022年）发布，64页pdf

重磅！人工智能生成内容（AIGC）白皮书（2022年）发布，64页pdf

专知

18+阅读 · 2022年9月3日

Web3.0(元宇宙)概念下的场景生态简析，33页ppt

Web3.0(元宇宙)概念下的场景生态简析，33页ppt

专知

30+阅读 · 2022年4月23日

MMDetection v2.0 训练自己的数据集

MMDetection v2.0 训练自己的数据集

CVer

30+阅读 · 2020年8月9日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

Pytorch多模态框架MMF

Pytorch多模态框架MMF

专知

50+阅读 · 2020年6月20日

CenterNet：目标即点（代码已开源）

CenterNet：目标即点（代码已开源）

极市平台

25+阅读 · 2019年5月24日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

图卷积网络介绍及进展【附PPT与视频资料】

图卷积网络介绍及进展【附PPT与视频资料】

人工智能前沿讲习班

24+阅读 · 2019年1月3日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

多重网络中的级联与传播过程研究

国家自然科学基金

0+阅读 · 2015年12月31日

下一代异构移动网络中分布式云存储的设计与研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

MBD环境下复杂产品信息网络的演化机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

Web页面数据对象的感知理解与计算

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

基于UGC的应急响应决策支持系统关键技术研究

国家自然科学基金

13+阅读 · 2014年12月31日

生物网络的可计算建模

国家自然科学基金

2+阅读 · 2014年12月31日

基于生物网络的高维多目标算法及其在分布式调度中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

Human-like Content Analysis for Generative AI with Language-Grounded Sparse Encoders

Arxiv

0+阅读 · 4月22日

IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection

Arxiv

0+阅读 · 4月22日

MMControl: Unified Multi-Modal Control for Joint Audio-Video Generation

Arxiv

0+阅读 · 4月21日

OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

Arxiv

0+阅读 · 4月13日

mmid: Multi-Modal Integration and Downstream analyses for healthcare analytics in Python

Arxiv

0+阅读 · 4月9日

Towards trustworthy management of AIGC copyright: blockchain-enabled full lifecycle recording and multi-party auditing approach

Arxiv

0+阅读 · 4月8日

AgentFoX: LLM Agent-Guided Fusion with eXplainability for AI-Generated Image Detection

Arxiv

0+阅读 · 3月24日

ComUICoder: Component-based Reusable UI Code Generation for Complex Websites via Semantic Segmentation and Element-wise Feedback

Arxiv

0+阅读 · 2月22日

Challenges and Remedies to Privacy and Security in AIGC: Exploring the Potential of Privacy Computing, Blockchain, and Beyond

Arxiv

10+阅读 · 2023年6月1日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

156+阅读 · 2023年3月29日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

AIGC如何助力工作和学习，98页ppt

AIGC如何助力工作和学习，98页ppt

专知会员服务

40+阅读 · 2025年3月14日

182页！《AIGC发展研究报告3.0》正式发布

182页！《AIGC发展研究报告3.0》正式发布

专知会员服务

63+阅读 · 2024年12月1日

多模态AIGC有什么进展？SUTD等最新《各种数据模态AIGC》综述，全面详述AIGC进展

多模态AIGC有什么进展？SUTD等最新《各种数据模态AIGC》综述，全面详述AIGC进展

专知会员服务

82+阅读 · 2023年8月29日

AIGC产业应用实践，智能时代的生产力变革（附49页pdf下载）

AIGC产业应用实践，智能时代的生产力变革（附49页pdf下载）

专知会员服务

83+阅读 · 2023年6月11日

AIGC如何安全可控?中山大学等最新《AIGC中对隐私和安全的挑战及其补救措施：探索隐私计算、区块链潜在应用》全面阐述

AIGC如何安全可控?中山大学等最新《AIGC中对隐私和安全的挑战及其补救措施：探索隐私计算、区块链潜在应用》全面阐述

专知会员服务

49+阅读 · 2023年6月6日

ChatGPT引领AIGC新浪潮！暨南大学等最新《人工智能生成内容AIGC》全面综述，详述AIGC的3个前沿功能和6个高级特征

ChatGPT引领AIGC新浪潮！暨南大学等最新《人工智能生成内容AIGC》全面综述，详述AIGC的3个前沿功能和6个高级特征

专知会员服务

139+阅读 · 2023年4月18日

ChatGPT等AIGC如何移动边缘部署？南洋理工最新《在移动网络中释放边云生成AI的力量:AIGC服务》综述其技术体系

ChatGPT等AIGC如何移动边缘部署？南洋理工最新《在移动网络中释放边云生成AI的力量:AIGC服务》综述其技术体系

专知会员服务

95+阅读 · 2023年3月30日

未来GPT-5一统AIGC任务？韩国庆熙大学等最新《生成式人工智能AIGC》综述，56页pdf全面阐述AIGC的文本图像生成技术

未来GPT-5一统AIGC任务？韩国庆熙大学等最新《生成式人工智能AIGC》综述，56页pdf全面阐述AIGC的文本图像生成技术

专知会员服务

151+阅读 · 2023年3月22日

AIGC的技术发展和应用：ChatGPT，20页pdf

AIGC的技术发展和应用：ChatGPT，20页pdf

专知会员服务

174+阅读 · 2023年2月13日

【ACM MM 2019 】MMGCN：用于微视频个性化推荐的多模图卷积网络（MMGCN：Multi-modal Graph Convolution Network for Personalized Recommendation of Micro-video）

【ACM MM 2019 】MMGCN：用于微视频个性化推荐的多模图卷积网络（MMGCN：Multi-modal Graph Convolution Network for Personalized Recommendation of Micro-video）

专知会员服务

57+阅读 · 2019年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

【ChatGPT系列报告】2023年AIGC应用与实践展望报告，47页ppt

【ChatGPT系列报告】2023年AIGC应用与实践展望报告，47页ppt

专知

27+阅读 · 2023年4月10日

重磅！人工智能生成内容（AIGC）白皮书（2022年）发布，64页pdf

重磅！人工智能生成内容（AIGC）白皮书（2022年）发布，64页pdf

专知

18+阅读 · 2022年9月3日

Web3.0(元宇宙)概念下的场景生态简析，33页ppt

Web3.0(元宇宙)概念下的场景生态简析，33页ppt

专知

30+阅读 · 2022年4月23日

MMDetection v2.0 训练自己的数据集

MMDetection v2.0 训练自己的数据集

CVer

30+阅读 · 2020年8月9日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

Pytorch多模态框架MMF

Pytorch多模态框架MMF

专知

50+阅读 · 2020年6月20日

CenterNet：目标即点（代码已开源）

CenterNet：目标即点（代码已开源）

极市平台

25+阅读 · 2019年5月24日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

图卷积网络介绍及进展【附PPT与视频资料】

图卷积网络介绍及进展【附PPT与视频资料】

人工智能前沿讲习班

24+阅读 · 2019年1月3日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

相关论文

Human-like Content Analysis for Generative AI with Language-Grounded Sparse Encoders

Arxiv

0+阅读 · 4月22日

IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection

Arxiv

0+阅读 · 4月22日

MMControl: Unified Multi-Modal Control for Joint Audio-Video Generation

Arxiv

0+阅读 · 4月21日

OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

Arxiv

0+阅读 · 4月13日

mmid: Multi-Modal Integration and Downstream analyses for healthcare analytics in Python

Arxiv

0+阅读 · 4月9日

Towards trustworthy management of AIGC copyright: blockchain-enabled full lifecycle recording and multi-party auditing approach

Arxiv

0+阅读 · 4月8日

AgentFoX: LLM Agent-Guided Fusion with eXplainability for AI-Generated Image Detection

Arxiv

0+阅读 · 3月24日

ComUICoder: Component-based Reusable UI Code Generation for Complex Websites via Semantic Segmentation and Element-wise Feedback

Arxiv

0+阅读 · 2月22日

Challenges and Remedies to Privacy and Security in AIGC: Exploring the Potential of Privacy Computing, Blockchain, and Beyond

Arxiv

10+阅读 · 2023年6月1日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

156+阅读 · 2023年3月29日

相关基金

多重网络中的级联与传播过程研究

国家自然科学基金

0+阅读 · 2015年12月31日

下一代异构移动网络中分布式云存储的设计与研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

MBD环境下复杂产品信息网络的演化机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

Web页面数据对象的感知理解与计算

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

基于UGC的应急响应决策支持系统关键技术研究

国家自然科学基金

13+阅读 · 2014年12月31日

生物网络的可计算建模

国家自然科学基金

2+阅读 · 2014年12月31日

基于生物网络的高维多目标算法及其在分布式调度中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员