Despite significant progress, multimodal large language models continue to struggle with visual mathematical problem solving. Some recent works recognize that visual perception is a bottleneck in visual mathematical reasoning, but their solutions are limited to improving the extraction and interpretation of visual inputs. Notably, they all ignore the key issue of whether the extracted visual cues are faithfully integrated and properly utilized in subsequent reasoning. Motivated by this, we present CogFlow, a novel cognitive-inspired three-stage framework that incorporates a knowledge internalization stage, explicitly simulating the hierarchical flow of human reasoning: perception$\Rightarrow$internalization$\Rightarrow$reasoning. Inline with this hierarchical flow, we holistically enhance all its stages. We devise Synergistic Visual Rewards to boost perception capabilities in parametric and semantic spaces, jointly improving visual information extraction from symbols and diagrams. To guarantee faithful integration of extracted visual cues into subsequent reasoning, we introduce a Knowledge Internalization Reward model in the internalization stage, bridging perception and reasoning. Moreover, we design a Visual-Gated Policy Optimization algorithm to further enforce the reasoning is grounded with the visual knowledge, preventing models seeking shortcuts that appear coherent but are visually ungrounded reasoning chains. Moreover, we contribute a new dataset MathCog for model training, which contains samples with over 120K high-quality perception-reasoning aligned annotations. Comprehensive experiments and analysis on commonly used visual mathematical reasoning benchmarks validate the superiority of the proposed CogFlow.


翻译:尽管取得了显著进展,多模态大语言模型在视觉数学问题求解方面仍面临困难。近期一些研究认识到视觉感知是视觉数学推理的瓶颈,但其解决方案仅限于改进视觉输入的提取与解释。值得注意的是,这些研究均忽略了关键问题:提取的视觉线索是否被忠实整合并在后续推理中得到恰当利用。受此启发,我们提出CogFlow——一种受认知启发的三阶段创新框架,通过引入知识内化阶段,显式模拟人类推理的层次化流程:感知$\Rightarrow$内化$\Rightarrow$推理。遵循该层次化流程,我们对所有阶段进行系统性增强。我们设计协同视觉奖励机制,在参数空间与语义空间中提升感知能力,共同改进从符号与图表中提取视觉信息的效果。为确保提取的视觉线索能忠实整合到后续推理中,我们在内化阶段引入知识内化奖励模型,从而桥接感知与推理。此外,我们设计视觉门控策略优化算法,进一步确保推理过程基于视觉知识,防止模型寻找表面连贯但缺乏视觉依据的推理捷径。同时,我们构建了包含超过12万条高质量感知-推理对齐标注样本的新数据集MathCog用于模型训练。在常用视觉数学推理基准上的全面实验与分析验证了所提CogFlow框架的优越性。

0
下载
关闭预览

相关内容

【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员