Unified models can handle both multimodal understanding and generation within a single architecture, yet they typically operate in a single pass without iteratively refining their outputs. Many multimodal tasks, especially those involving complex spatial compositions, multiple interacting objects, or evolving instructions, require decomposing instructions, verifying intermediate results, and making iterative corrections. While test-time scaling (TTS) has demonstrated that allocating additional inference compute for iterative reasoning substantially improves language model performance, extending this paradigm to unified multimodal models remains an open challenge. We introduce UniT, a framework for multimodal chain-of-thought test-time scaling that enables a single unified model to reason, verify, and refine across multiple rounds. UniT combines agentic data synthesis, unified model training, and flexible test-time inference to elicit cognitive behaviors including verification, subgoal decomposition, and content memory. Our key findings are: (1) unified models trained on short reasoning trajectories generalize to longer inference chains at test time; (2) sequential chain-of-thought reasoning provides a more scalable and compute-efficient TTS strategy than parallel sampling; (3) training on generation and editing trajectories improves out-of-distribution visual reasoning. These results establish multimodal test-time scaling as an effective paradigm for advancing both generation and understanding in unified models.


翻译:统一模型能够在单一架构内处理多模态理解和生成任务,然而它们通常以单次前向传播方式运行,缺乏对输出结果的迭代优化。许多多模态任务,特别是涉及复杂空间组合、多个交互对象或动态演化指令的任务,需要分解指令、验证中间结果并进行迭代修正。尽管测试时扩展(TTS)已证明通过分配额外推理计算资源进行迭代推理能显著提升语言模型性能,但将这一范式扩展到统一多模态模型仍是一个开放挑战。本文提出UniT——一种多模态思维链测试时扩展框架,使单一统一模型能够进行多轮推理、验证与优化。UniT融合了智能体数据合成、统一模型训练与灵活测试时推理机制,可激发包括验证、子目标分解和内容记忆在内的认知行为。我们的核心发现包括:(1)基于短推理轨迹训练的统一模型在测试时能泛化至更长推理链;(2)序列化思维链推理相比并行采样提供了更具可扩展性和计算效率的TTS策略;(3)基于生成与编辑轨迹的训练能提升分布外视觉推理能力。这些结果表明多模态测试时扩展是推进统一模型生成与理解能力的有效范式。

0
下载
关闭预览

相关内容

多模态知识图谱表示学习综述
专知会员服务
72+阅读 · 2024年7月4日
Meta-Transformer:多模态学习的统一框架
专知会员服务
59+阅读 · 2023年7月21日
港中文等最新《多模态元学习》综述论文
专知会员服务
124+阅读 · 2021年10月8日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员