Recent advances in Multimodal Large Language Models (MLLMs) have enabled automated generation of structured layouts from natural language descriptions. Existing methods typically follow a code-only paradigm that generates code to represent layouts, which are then rendered by graphic engines to produce final images. However, they are blind to the rendered visual outcome, making it difficult to guarantee readability and aesthetics. In this paper, we identify visual feedback as a critical factor in layout generation and propose Visual Feedback Layout Model (VFLM), a self-improving framework that leverages visual feedback iterative refinement. VFLM is capable of performing adaptive reflective generation, which leverages visual information to reflect on previous issues and iteratively generates outputs until satisfactory quality is achieved. It is achieved through reinforcement learning with a visually grounded reward model that incorporates OCR accuracy. By rewarding only the final generated outcome, we can effectively stimulate the model's iterative and reflective generative capabilities. Experiments across multiple benchmarks show that VFLM consistently outperforms advanced MLLMs, existing layout models, and code-only baselines, establishing visual feedback as critical for design-oriented MLLMs. Our code and data are available at https://github.com/FolSpark/VFLM.


翻译:多模态大语言模型的最新进展已实现从自然语言描述自动生成结构化布局。现有方法通常遵循纯代码范式,先生成表征布局的代码,再由图形引擎渲染为最终图像。然而,此类方法对渲染后的视觉输出缺乏感知,难以保障可读性与美学质量。本文识别出视觉反馈是布局生成的关键要素,并提出视觉反馈布局模型——一种利用视觉反馈进行迭代优化的自改进框架。该模型具备自适应反思生成能力,能借助视觉信息识别先前问题,通过迭代生成直至达到满意质量。这一能力通过结合OCR准确率的视觉化奖励模型的强化学习实现。通过仅对最终生成结果进行奖励,可有效激发模型的迭代与反思生成能力。跨多个基准的实验表明,VFLM持续优于先进的多模态大语言模型、现有布局模型及纯代码基线方法,验证了视觉反馈对面向设计的多模态大语言模型的关键作用。我们的代码与数据已开源至https://github.com/FolSpark/VFLM。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
面向计算机视觉的数据生成与应用研究进展
专知会员服务
14+阅读 · 2025年5月10日
视觉提示学习综述
专知会员服务
55+阅读 · 2024年3月23日
用于识别任务的视觉 Transformer 综述
专知会员服务
75+阅读 · 2023年2月25日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
【学科发展报告】计算机视觉
中国自动化学会
43+阅读 · 2018年10月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月2日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
2+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
4+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
3+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关资讯
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
【学科发展报告】计算机视觉
中国自动化学会
43+阅读 · 2018年10月12日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员