In this paper, we propose UniLIP, a unified framework that adapts CLIP for multimodal understanding, generation and editing. Although CLIP excels at understanding, it lacks reconstruction abilities required to be a unified visual encoder. However, previous CLIP-based unified methods fail to balance understanding and reconstruction, leading to semantic degradation or inconsistent reconstructions. In contrast, we introduce a novel two-stage training scheme with a self-distillation strategy that progressively endows CLIP with high-fidelity reconstruction abilities while preserving its original comprehension performance. For enhanced reasoning and consistency in generation and editing, we further develop a dual-condition architecture built upon the MetaQuery framework. Our architecture jointly utilizes multimodal hidden states for rich contextual details and learnable query embeddings to harness the powerful reasoning abilities of Multimodal Large Language Models (MLLMs). Leveraging advanced image representation and architectural design, UniLIP demonstrates superior instruction following and edit fidelity. With only 1B and 3B parameters, UniLIP can outperform larger unified models such as BAGEL (7B) and Uniworld-V1 (12B), achieving state-of-the-art performance of 0.90 on GenEval, 0.63 on WISE, and 3.94 on ImgEdit. These results demonstrate that UniLIP successfully expands the application of CLIP, establishing its continuous features to not only serve as the optimal choice for understanding tasks but also achieve highly competitive performance in generation and editing tasks. Code and models are available at https://github.com/nnnth/UniLIP.


翻译:本文提出UniLIP,一种适配CLIP以实现多模态理解、生成与编辑的统一框架。尽管CLIP在理解任务上表现出色,但其缺乏作为统一视觉编码器所需的重建能力。然而,先前基于CLIP的统一方法未能平衡理解与重建,导致语义退化或重建结果不一致。相比之下,我们引入了一种新颖的两阶段训练方案,结合自蒸馏策略,在保持CLIP原有理解性能的同时,逐步赋予其高保真重建能力。为增强生成与编辑任务中的推理能力和一致性,我们进一步基于MetaQuery框架开发了一种双条件架构。该架构联合利用多模态隐藏状态以获取丰富的上下文细节,并通过可学习的查询嵌入来利用多模态大语言模型(MLLMs)强大的推理能力。凭借先进的图像表示和架构设计,UniLIP展现出卓越的指令跟随能力和编辑保真度。仅使用10亿和30亿参数,UniLIP即可超越BAGEL(70亿)和Uniworld-V1(120亿)等更大规模的统一模型,在GenEval上达到0.90,在WISE上达到0.63,在ImgEdit上达到3.94的先进性能。这些结果表明,UniLIP成功拓展了CLIP的应用范围,使其连续特征不仅成为理解任务的最佳选择,同时在生成与编辑任务中也实现了极具竞争力的性能。代码与模型发布于https://github.com/nnnth/UniLIP。

0
下载
关闭预览

相关内容

CLIP通用提示学习的简要概述
专知会员服务
17+阅读 · 2025年3月13日
统一的多模态文字理解与生成大模型
专知会员服务
30+阅读 · 2024年10月11日
【NeurIPS2024】迈向统一的多模态编辑与增强的知识协作
专知会员服务
20+阅读 · 2024年10月1日
VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
Meta-Transformer:多模态学习的统一框架
专知会员服务
59+阅读 · 2023年7月21日
【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索
【CVPR2022】UniVIP:自监督视觉预训练的统一框架
专知会员服务
28+阅读 · 2022年3月16日
重磅发布:基于 PyTorch 的深度文本匹配工具 MatchZoo-py
中国科学院网络数据重点实验室
16+阅读 · 2019年8月26日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
手把手教你入门使用tf-slim库 | 回顾
AI研习社
12+阅读 · 2017年12月9日
深度文本匹配开源工具(MatchZoo)
机器学习研究会
10+阅读 · 2017年12月5日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关VIP内容
CLIP通用提示学习的简要概述
专知会员服务
17+阅读 · 2025年3月13日
统一的多模态文字理解与生成大模型
专知会员服务
30+阅读 · 2024年10月11日
【NeurIPS2024】迈向统一的多模态编辑与增强的知识协作
专知会员服务
20+阅读 · 2024年10月1日
VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
Meta-Transformer:多模态学习的统一框架
专知会员服务
59+阅读 · 2023年7月21日
【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索
【CVPR2022】UniVIP:自监督视觉预训练的统一框架
专知会员服务
28+阅读 · 2022年3月16日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员