While Multimodal Large Language Models (MLLMs) excel at single-image understanding, they exhibit significantly degraded performance in multi-image reasoning scenarios. Multi-image reasoning presents fundamental challenges including complex inter-relationships between images and scattered critical information across image sets. Inspired by human cognitive processes, we propose the Cognition-Inspired Meta-Action Framework (CINEMA), a novel approach that decomposes multi-image reasoning into five structured meta-actions: Global, Focus, Hint, Think, and Answer which explicitly modeling the sequential cognitive steps humans naturally employ. For cold-start training, we introduce a Retrieval-Based Tree Sampling strategy that generates high-quality meta-action trajectories to bootstrap the model with reasoning patterns. During reinforcement learning, we adopt a two-stage paradigm: an exploration phase with Diversity-Preserving Strategy to avoid entropy collapse, followed by an annealed exploitation phase with DAPO to gradually strengthen exploitation. To train our model, we construct a dataset of 57k cold-start and 58k reinforcement learning instances spanning multi-image, multi-frame, and single-image tasks. We conduct extensive evaluations on multi-image reasoning benchmarks, video understanding benchmarks, and single-image benchmarks, achieving competitive state-of-the-art performance on several key benchmarks. Our model surpasses GPT-4o on the MUIR and MVMath benchmarks and notably outperforms specialized video reasoning models on video understanding benchmarks, demonstrating the effectiveness and generalizability of our human cognition-inspired reasoning framework.


翻译:尽管多模态大语言模型(MLLMs)在单图像理解方面表现出色,但在多图像推理场景中其性能显著下降。多图像推理带来了根本性挑战,包括图像间复杂的相互关系以及关键信息在图像集合中的分散性。受人类认知过程的启发,我们提出了认知启发的元动作框架(Cognition-Inspired Meta-Action Framework, CINEMA),这是一种新颖的方法,它将多图像推理分解为五个结构化的元动作:全局观察(Global)、聚焦分析(Focus)、线索提示(Hint)、思考推理(Think)和答案生成(Answer),从而显式地建模了人类自然采用的序列化认知步骤。针对冷启动训练,我们引入了基于检索的树采样策略,该策略能生成高质量的元动作轨迹,从而为模型提供推理模式的初始引导。在强化学习阶段,我们采用了两阶段范式:首先是通过多样性保持策略进行探索,以避免熵崩溃;随后是采用DAPO进行退火式利用,以逐步加强利用。为了训练我们的模型,我们构建了一个包含57k个冷启动实例和58k个强化学习实例的数据集,涵盖多图像、多帧和单图像任务。我们在多图像推理基准、视频理解基准和单图像基准上进行了广泛的评估,在多个关键基准上取得了具有竞争力的最先进性能。我们的模型在MUIR和MVMath基准上超越了GPT-4o,并且在视频理解基准上显著优于专门的视频推理模型,这证明了我们受人类认知启发的推理框架的有效性和泛化能力。

0
下载
关闭预览

相关内容

从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
多模态大语言模型遇见多模态情绪识别与推理:综述
专知会员服务
22+阅读 · 2025年10月3日
强化多模态大语言模型:基于强化学习的推理综述
专知会员服务
35+阅读 · 2025年5月3日
【NeurIPS2023】大型语言模型是视觉推理协调器
专知会员服务
30+阅读 · 2023年10月24日
【清华大学】元知识图谱推理
专知
129+阅读 · 2019年9月2日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员