Unified large multimodal models (LMMs) have achieved remarkable progress in general-purpose multimodal understanding and generation. However, they still operate under a ``one-size-fits-all'' paradigm and struggle to model user-specific concepts (e.g., generate a photo of \texttt{<maeve>}) in a consistent and controllable manner. Existing personalization methods typically rely on external retrieval, which is inefficient and poorly integrated into unified multimodal pipelines. Recent personalized unified models introduce learnable soft prompts to encode concept information, yet they either couple understanding and generation or depend on complex multi-stage training, leading to cross-task interference and ultimately to fuzzy or misaligned personalized knowledge. We present \textbf{OmniPersona}, an end-to-end personalization framework for unified LMMs that, for the first time, integrates personalized understanding, generation, and image editing within a single architecture. OmniPersona introduces structurally decoupled concept tokens, allocating dedicated subspaces for different tasks to minimize interference, and incorporates an explicit knowledge replay mechanism that propagates personalized attribute knowledge across tasks, enabling consistent personalized behavior. To systematically evaluate unified personalization, we propose \textbf{\texttt{OmniPBench}}, extending the public UnifyBench concept set with personalized editing tasks and cross-task evaluation protocols integrating understanding, generation, and editing. Experimental results demonstrate that OmniPersona delivers competitive and robust performance across diverse personalization tasks. We hope OmniPersona will serve as a strong baseline and spur further research on controllable, unified personalization.


翻译:统一化大型多模态模型(LMMs)在通用多模态理解与生成方面取得了显著进展。然而,它们仍遵循“一刀切”的范式,难以以一致且可控的方式对用户特定概念(例如,生成一张\texttt{<maeve>}的照片)进行建模。现有的个性化方法通常依赖于外部检索,这种方式效率低下且难以与统一的多模态流程有效集成。近期的个性化统一模型引入了可学习的软提示来编码概念信息,但它们要么将理解与生成耦合在一起,要么依赖于复杂的多阶段训练,导致跨任务干扰,并最终产生模糊或未对齐的个性化知识。我们提出了\textbf{OmniPersona},一个用于统一LMMs的端到端个性化框架,首次将个性化理解、生成和图像编辑集成在单一架构中。OmniPersona引入了结构解耦的概念令牌,为不同任务分配专用子空间以最小化干扰,并融入了一种显式的知识回放机制,该机制在任务间传播个性化属性知识,从而实现一致的个性化行为。为了系统评估统一化个性化,我们提出了\textbf{\texttt{OmniPBench}},它在公开的UnifyBench概念集基础上扩展了个性化编辑任务,并集成了理解、生成和编辑的跨任务评估协议。实验结果表明,OmniPersona在多种个性化任务中均能提供具有竞争力且鲁棒的性能。我们希望OmniPersona能成为一个强有力的基线,并推动关于可控、统一化个性化的进一步研究。

0
下载
关闭预览

相关内容

【CVPR2025】个性化视觉与语言生成
专知会员服务
9+阅读 · 2025年5月1日
大模型时代的个性化生成:综述
专知会员服务
43+阅读 · 2025年3月10日
大规模语言模型的个性化:综述
专知会员服务
43+阅读 · 2024年11月4日
统一的多模态文字理解与生成大模型
专知会员服务
30+阅读 · 2024年10月11日
《LLMs遇见多模态生成与编辑》综述
专知会员服务
41+阅读 · 2024年6月3日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员