Despite the empirical success of extensive, step-by-step reasoning in large multimodal models, long reasoning processes inevitably incur substantial computational overhead, i.e., in terms of higher token costs and increased response time, which undermines inference efficiency. In contrast, humans often employ sketch-style reasoning: a concise, goal-directed cognitive process that prioritizes salient information and enables efficient problem-solving. Inspired by this cognitive efficiency, we propose SketchThinker-R1, which incentivizes sketch-style reasoning ability in large multimodal models. Our method consists of three primary stages. In the Sketch-Mode Cold Start stage, we convert standard long reasoning process into sketch-style reasoning and finetune base multimodal model, instilling initial sketch-style reasoning capability. Next, we train SketchJudge Reward Model, which explicitly evaluates thinking process of model and assigns higher scores to sketch-style reasoning. Finally, we conduct Sketch-Thinking Reinforcement Learning under supervision of SketchJudge to further generalize sketch-style reasoning ability. Experimental evaluation on four benchmarks reveals that our SketchThinker-R1 achieves over 64% reduction in reasoning token cost without compromising final answer accuracy. Qualitative analysis further shows that sketch-style reasoning focuses more on key cues during problem solving.


翻译:尽管广泛、逐步的推理在大型多模态模型中取得了经验上的成功,但冗长的推理过程不可避免地带来巨大的计算开销,即更高的令牌成本和增加的响应时间,这损害了推理效率。相比之下,人类经常采用草图式推理:一种简洁的、目标导向的认知过程,它优先处理显著信息并实现高效的问题解决。受这种认知效率的启发,我们提出了SketchThinker-R1,旨在激励大型多模态模型中的草图式推理能力。我们的方法包含三个主要阶段。在草图模式冷启动阶段,我们将标准的长推理过程转换为草图式推理并对基础多模态模型进行微调,从而注入初始的草图式推理能力。接着,我们训练SketchJudge奖励模型,该模型显式评估模型的思维过程,并为草图式推理分配更高的分数。最后,我们在SketchJudge的监督下进行草图思维强化学习,以进一步泛化草图式推理能力。在四个基准测试上的实验评估表明,我们的SketchThinker-R1在不影响最终答案准确性的情况下,实现了超过64%的推理令牌成本降低。定性分析进一步表明,草图式推理在问题解决过程中更侧重于关键线索。

0
下载
关闭预览

相关内容

多模态空间推理在大模型时代:综述与基准测试
专知会员服务
14+阅读 · 2025年10月30日
【普林斯顿博士论文】大型模型的高效推理
专知会员服务
22+阅读 · 2025年8月10日
别想太多:高效 R1 风格大型推理模型综述
专知会员服务
23+阅读 · 2025年8月5日
感知、推理、思考与规划:大型多模态推理模型综述
专知会员服务
39+阅读 · 2025年5月10日
小型推理模型简要综述:训练、推理、应用与研究方向
专知会员服务
42+阅读 · 2025年4月16日
大规模推理模型的高效推理:综述
专知会员服务
21+阅读 · 2025年4月3日
【斯坦福博士论文】大模型时代的概率推理,137页pdf
专知会员服务
70+阅读 · 2024年3月31日
大型语言模型的模型压缩与高效推理:综述
专知会员服务
94+阅读 · 2024年2月17日
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
多模态空间推理在大模型时代:综述与基准测试
专知会员服务
14+阅读 · 2025年10月30日
【普林斯顿博士论文】大型模型的高效推理
专知会员服务
22+阅读 · 2025年8月10日
别想太多:高效 R1 风格大型推理模型综述
专知会员服务
23+阅读 · 2025年8月5日
感知、推理、思考与规划:大型多模态推理模型综述
专知会员服务
39+阅读 · 2025年5月10日
小型推理模型简要综述:训练、推理、应用与研究方向
专知会员服务
42+阅读 · 2025年4月16日
大规模推理模型的高效推理:综述
专知会员服务
21+阅读 · 2025年4月3日
【斯坦福博士论文】大模型时代的概率推理,137页pdf
专知会员服务
70+阅读 · 2024年3月31日
大型语言模型的模型压缩与高效推理:综述
专知会员服务
94+阅读 · 2024年2月17日
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员