Unified Multimodal models (UMMs) built on a single architecture have shown impressive performance in both understanding and generation. We identify a fundamental challenge that lies in inductive biases induced by distinct supervision signals: generation branch prefers high-fidelity, fine-grained representations capable of reconstruction, while the understanding favours semantically discriminative embeddings that remain invariant to task-irrelevant factors. Consequently, optimizing these complementary but non-equivalent objectives within a monolithic backbone leads to mutual impairment instead of enhancement. In this paper, we first analyze the root cause of this interference in unified backbones and reveal a complementary structure in their internal representations. Motivated by the observation, we propose DIVA, a self-improved post-training framework that transforms the representation divergence into interior synergy. By explicitly factorizing the visual representation into shared and unique components based on two complementary information flow, DIVA enables both the understanding and generation branches to achieve beneficial transferring while preserving the integrity of unique information from cross-flow interference via mutual information estimation. Despite its generality, our method consistently achieves improvements across visual understanding (+7.82%) and generation (+8.46%). The official code is available at: https://github.com/Jayyy-H/DIVA.


翻译:基于单一架构构建的统一多模态模型在理解与生成任务中均展现出卓越性能。我们发现一个根本性挑战源于不同监督信号引发的归纳偏置:生成分支偏好高保真、可重构的细粒度表征,而理解分支则青睐语义区分性强、对任务无关因素保持不变的嵌入特征。因此,在单骨干网络中优化这些互补但非等价的训练目标会导致相互抑制而非增强。本文首先解析了统一骨干网络中干扰产生的根本原因,并揭示了其内部表征的互补结构。基于这一发现,我们提出DIVA——一种将表征差异转化为内在协同的自改进后训练框架。通过基于两条互补信息流将视觉表征显式分解为共享成分与独有成分,DIVA使理解与生成分支在保持独有信息完整性免受跨流干扰的同时(通过互信息估计实现),实现有益的知识迁移。尽管该方法具有通用性,但在视觉理解(+7.82%)与生成(+8.46%)任务中均取得持续性能提升。官方代码已发布于:https://github.com/Jayyy-H/DIVA

0
下载
关闭预览

相关内容

CVPR 2026教程:统一多模态模型走向收敛之路
专知会员服务
13+阅读 · 6月8日
用于多模态对齐的基础模型表征潜力:一项综述
专知会员服务
18+阅读 · 2025年10月8日
统一的多模态理解与生成模型:进展、挑战与机遇
专知会员服务
33+阅读 · 2025年5月6日
Meta-Transformer:多模态学习的统一框架
专知会员服务
59+阅读 · 2023年7月21日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员