Unified multimodal models (UMMs) have achieved remarkable progress yet remain constrained by a single-turn interaction paradigm, effectively functioning as solvers for independent requests rather than assistants in continuous dialogue. To bridge this gap, we present ChatUMM. As a conversational unified model, it excels at robust context tracking to sustain interleaved multimodal generation. ChatUMM derives its capabilities from two key innovations: an interleaved multi-turn training strategy that models serialized text-image streams as a continuous conversational flow, and a systematic conversational data synthesis pipeline. This pipeline transforms a diverse set of standard single-turn datasets into fluid dialogues through three progressive stages: constructing basic stateful dialogues, enforcing long-range dependency resolution via ``distractor'' turns with history-dependent query rewriting, and synthesizing naturally interleaved multimodal responses. Extensive evaluations demonstrate that ChatUMM achieves state-of-the-art performance among open-source unified models on visual understanding and instruction-guided editing benchmarks, while maintaining competitive fidelity in text-to-image generation. Notably, ChatUMM exhibits superior robustness in complex multi-turn scenarios, ensuring fluid, context-aware dialogues.


翻译:统一多模态模型(UMMs)已取得显著进展,但仍受限于单轮交互范式,本质上仅能作为独立请求的求解器而非持续对话中的助手。为弥合这一差距,我们提出了ChatUMM。作为对话式统一模型,该模型擅长鲁棒的上下文追踪以维持交错多模态生成。ChatUMM的能力源于两项关键创新:一种将序列化文本-图像流建模为连续对话流的交错多轮训练策略,以及一套系统化的对话数据合成流程。该流程通过三个渐进阶段将多样化的标准单轮数据集转化为流畅对话:构建基础状态化对话,通过引入依赖历史的查询改写型“干扰轮”强制实现长程依赖解析,并合成自然交错的多模态响应。大量实验表明,ChatUMM在视觉理解与指令引导编辑基准测试中取得了开源统一模型中的最优性能,同时在文本到图像生成任务中保持具有竞争力的保真度。值得注意的是,ChatUMM在复杂多轮场景中展现出卓越的鲁棒性,确保了流畅且具有上下文感知的对话。

0
下载
关闭预览

相关内容

GPT系列大模型在自然语言处理任务中的鲁棒性研究
专知会员服务
30+阅读 · 2024年3月22日
《多模态大型语言模型》最新进展,详述26种现有MM-LLMs
专知会员服务
65+阅读 · 2024年1月25日
大型语言模型对齐
专知会员服务
119+阅读 · 2023年9月27日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员