Unified Multimodal Models (UMMs) integrate both visual understanding and generation within a single framework. Their ultimate aspiration is to create a cycle where understanding and generation mutually reinforce each other. While recent post-training methods have successfully leveraged understanding to enhance generation, the reverse direction of utilizing generation to improve understanding remains largely unexplored. In this work, we propose UniMRG (Unified Multi-Representation Generation), a simple yet effective architecture-agnostic post-training method. UniMRG enhances the understanding capabilities of UMMs by incorporating auxiliary generation tasks. Specifically, we train UMMs to generate multiple intrinsic representations of input images, namely pixel (reconstruction), depth (geometry), and segmentation (structure), alongside standard visual understanding objectives. By synthesizing these diverse representations, UMMs capture complementary information regarding appearance, spatial relations, and structural layout. Consequently, UMMs develop a deeper and more comprehensive understanding of visual inputs. Extensive experiments across diverse UMM architectures demonstrate that our method notably enhances fine-grained perception, reduces hallucinations, and improves spatial understanding, while simultaneously boosting generation capabilities.


翻译:统一多模态模型(UMMs)将视觉理解与生成功能整合在单一框架中。其最终目标是构建一个理解与生成相互促进的循环。尽管近期的后训练方法已成功利用理解能力来增强生成性能,但利用生成来提升理解的反向路径仍鲜有探索。本文提出UniMRG(统一多表征生成),一种简洁高效且与架构无关的后训练方法。UniMRG通过引入辅助生成任务来增强UMMs的理解能力。具体而言,我们在标准视觉理解目标的基础上,训练UMMs生成输入图像的多种内在表征,包括像素(重建)、深度(几何)和分割(结构)。通过合成这些多样化表征,UMMs能够捕获关于外观、空间关系和结构布局的互补信息。因此,UMMs得以对视觉输入形成更深入、更全面的理解。在不同UMM架构上的大量实验表明,本方法显著提升了细粒度感知能力,减少了幻觉现象,改善了空间理解,同时同步增强了生成性能。

0
下载
关闭预览

相关内容

统一的多模态理解与生成模型:进展、挑战与机遇
专知会员服务
31+阅读 · 2025年5月6日
多模态检索增强生成综述
专知会员服务
39+阅读 · 2025年4月15日
多模态检索增强生成的综合综述
专知会员服务
43+阅读 · 2025年2月17日
对比预训练和多模态生成式人工智能的统计理论
专知会员服务
22+阅读 · 2025年1月12日
图检索增强生成研究进展
专知会员服务
36+阅读 · 2024年11月5日
统一的多模态文字理解与生成大模型
专知会员服务
30+阅读 · 2024年10月11日
《多模态大型语言模型进化》最新综述
专知会员服务
105+阅读 · 2024年2月23日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
VIP会员
相关VIP内容
统一的多模态理解与生成模型:进展、挑战与机遇
专知会员服务
31+阅读 · 2025年5月6日
多模态检索增强生成综述
专知会员服务
39+阅读 · 2025年4月15日
多模态检索增强生成的综合综述
专知会员服务
43+阅读 · 2025年2月17日
对比预训练和多模态生成式人工智能的统计理论
专知会员服务
22+阅读 · 2025年1月12日
图检索增强生成研究进展
专知会员服务
36+阅读 · 2024年11月5日
统一的多模态文字理解与生成大模型
专知会员服务
30+阅读 · 2024年10月11日
《多模态大型语言模型进化》最新综述
专知会员服务
105+阅读 · 2024年2月23日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
相关基金
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员