Unified multimodal models provide a natural and promising architecture for understanding diverse and complex real-world knowledge while generating high-quality images. However, they still rely primarily on frozen parametric knowledge, which makes them struggle with real-world image generation involving long-tail and knowledge-intensive concepts. Inspired by the broad success of agents on real-world tasks, we explore agentic modeling to address this limitation. Specifically, we present Unify-Agent, a unified multimodal agent for world-grounded image synthesis, which reframes image generation as an agentic pipeline consisting of prompt understanding, multimodal evidence searching, grounded recaptioning, and final synthesis. To train our model, we construct a tailored multimodal data pipeline and curate 143K high-quality agent trajectories for world-grounded image synthesis, enabling effective supervision over the full agentic generation process. We further introduce FactIP, a benchmark covering 12 categories of culturally significant and long-tail factual concepts that explicitly requires external knowledge grounding. Extensive experiments show that our proposed Unify-Agent substantially improves over its base unified model across diverse benchmarks and real world generation tasks, while approaching the world knowledge capabilities of the strongest closed-source models. As an early exploration of agent-based modeling for world-grounded image synthesis, our work highlights the value of tightly coupling reasoning, searching, and generation for reliable open-world agentic image synthesis.


翻译:统一多模态模型为理解多样复杂的真实世界知识并生成高质量图像提供了自然且有前景的架构。然而,这类模型仍主要依赖冻结的参数化知识,因此在涉及长尾及知识密集型概念的现实图像生成任务中面临挑战。受智能体在真实世界任务中广泛成功的启发,我们探索采用智能体建模来突破这一局限。具体而言,我们提出了Unify-Agent——一种面向世界感知图像生成的统一多模态智能体。该模型将图像生成重构为一个智能体流水线,包含提示理解、多模态证据搜索、基于上下文的重新描述和最终合成四个阶段。为训练模型,我们构建了定制化多模态数据流水线,并精心整理了14.3万条用于世界感知图像生成的高质量智能体轨迹,从而实现对完整智能体生成过程的有效监督。此外,我们引入了FactIP基准测试,涵盖12类具有文化重要性及长尾特征的事实概念,明确要求依赖外部知识进行生成。大量实验表明,我们提出的Unify-Agent在各类基准测试和真实世界生成任务中较其基础统一模型有显著提升,同时逼近最强闭源模型的世界知识能力。作为面向世界感知图像生成的基于智能体建模的早期探索,本研究凸显了紧密耦合推理、搜索与生成过程对实现可靠开放世界智能体图像生成的重要价值。

0
下载
关闭预览

相关内容

AgentOps综述:智能体系统运维框架
专知会员服务
18+阅读 · 6月4日
多智能体协作机制
专知会员服务
23+阅读 · 4月25日
智能体工程(Agent Engineering)
专知会员服务
36+阅读 · 2025年12月31日
Agent AI:多模态交互的新地平线
专知会员服务
22+阅读 · 2025年5月26日
AI Agent:基于大模型的自主智能体
专知会员服务
250+阅读 · 2023年9月9日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
27+阅读 · 2019年9月9日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员