SketchThinker-R1：迈向大型多模态模型中的高效草图式推理 (SketchThinker-R1: Towards Efficient Sketch-Style Reasoning in Large Multimodal Models) - 专知论文

会员服务 ·

0

多模 · 模态 · 多模态模型 · 多模态 · 大型多模态模型 ·

SketchThinker-R1: Towards Efficient Sketch-Style Reasoning in Large Multimodal Models

翻译：SketchThinker-R1：迈向大型多模态模型中的高效草图式推理

Ruiyang Zhang,Dongzhan Zhou,Zhedong Zheng

from arxiv, 28 pages, 11 figures

Despite the empirical success of extensive, step-by-step reasoning in large multimodal models, long reasoning processes inevitably incur substantial computational overhead, i.e., in terms of higher token costs and increased response time, which undermines inference efficiency. In contrast, humans often employ sketch-style reasoning: a concise, goal-directed cognitive process that prioritizes salient information and enables efficient problem-solving. Inspired by this cognitive efficiency, we propose SketchThinker-R1, which incentivizes sketch-style reasoning ability in large multimodal models. Our method consists of three primary stages. In the Sketch-Mode Cold Start stage, we convert standard long reasoning process into sketch-style reasoning and finetune base multimodal model, instilling initial sketch-style reasoning capability. Next, we train SketchJudge Reward Model, which explicitly evaluates thinking process of model and assigns higher scores to sketch-style reasoning. Finally, we conduct Sketch-Thinking Reinforcement Learning under supervision of SketchJudge to further generalize sketch-style reasoning ability. Experimental evaluation on four benchmarks reveals that our SketchThinker-R1 achieves over 64% reduction in reasoning token cost without compromising final answer accuracy. Qualitative analysis further shows that sketch-style reasoning focuses more on key cues during problem solving.

翻译：尽管广泛、逐步的推理在大型多模态模型中取得了经验上的成功，但冗长的推理过程不可避免地带来巨大的计算开销，即更高的令牌成本和增加的响应时间，这损害了推理效率。相比之下，人类经常采用草图式推理：一种简洁的、目标导向的认知过程，它优先处理显著信息并实现高效的问题解决。受这种认知效率的启发，我们提出了SketchThinker-R1，旨在激励大型多模态模型中的草图式推理能力。我们的方法包含三个主要阶段。在草图模式冷启动阶段，我们将标准的长推理过程转换为草图式推理并对基础多模态模型进行微调，从而注入初始的草图式推理能力。接着，我们训练SketchJudge奖励模型，该模型显式评估模型的思维过程，并为草图式推理分配更高的分数。最后，我们在SketchJudge的监督下进行草图思维强化学习，以进一步泛化草图式推理能力。在四个基准测试上的实验评估表明，我们的SketchThinker-R1在不影响最终答案准确性的情况下，实现了超过64%的推理令牌成本降低。定性分析进一步表明，草图式推理在问题解决过程中更侧重于关键线索。

0

相关内容

多模态空间推理在大模型时代：综述与基准测试

多模态空间推理在大模型时代：综述与基准测试

专知会员服务

14+阅读 · 2025年10月30日

【普林斯顿博士论文】大型模型的高效推理

【普林斯顿博士论文】大型模型的高效推理

专知会员服务

22+阅读 · 2025年8月10日

别想太多：高效 R1 风格大型推理模型综述

别想太多：高效 R1 风格大型推理模型综述

专知会员服务

23+阅读 · 2025年8月5日

感知、推理、思考与规划：大型多模态推理模型综述

感知、推理、思考与规划：大型多模态推理模型综述

专知会员服务

39+阅读 · 2025年5月10日

小型推理模型简要综述：训练、推理、应用与研究方向

小型推理模型简要综述：训练、推理、应用与研究方向

专知会员服务

42+阅读 · 2025年4月16日

大规模推理模型的高效推理：综述

大规模推理模型的高效推理：综述

专知会员服务

21+阅读 · 2025年4月3日

《高效推理的大模型研究综述：语言、多模态与前沿探索》

《高效推理的大模型研究综述：语言、多模态与前沿探索》

专知会员服务

46+阅读 · 2025年3月30日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

【斯坦福博士论文】大模型时代的概率推理，137页pdf

【斯坦福博士论文】大模型时代的概率推理，137页pdf

专知会员服务

70+阅读 · 2024年3月31日

大型语言模型的模型压缩与高效推理：综述

大型语言模型的模型压缩与高效推理：综述

专知会员服务

94+阅读 · 2024年2月17日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

专知

33+阅读 · 2020年8月24日

通过集成 XNNPACK 实现推理速度飞跃

通过集成 XNNPACK 实现推理速度飞跃

TensorFlow

26+阅读 · 2020年7月30日

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

专知

24+阅读 · 2020年6月11日

【SIGIR2020-清华】知识图谱上的增强推荐推理

【SIGIR2020-清华】知识图谱上的增强推荐推理

专知

15+阅读 · 2020年5月30日

【HEC-Montreal唐建博士】图神经网络推理，附27页ppt

【HEC-Montreal唐建博士】图神经网络推理，附27页ppt

专知

47+阅读 · 2019年10月30日

机器推理系列文章概览：七大NLP任务最新方法与进展

机器推理系列文章概览：七大NLP任务最新方法与进展

AI100

12+阅读 · 2019年9月15日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于草图语义部件的三维模型检索技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于草图的几何处理和应用

国家自然科学基金

2+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

MentorCollab: Selective Large-to-Small Inference-Time Guidance for Efficient Reasoning

Arxiv

0+阅读 · 2月5日

R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning

Arxiv

0+阅读 · 2月2日

VTC-R1: Vision-Text Compression for Efficient Long-Context Reasoning

Arxiv

0+阅读 · 1月29日

Dynamic Thinking-Token Selection for Efficient Reasoning in Large Reasoning Models

Arxiv

0+阅读 · 1月26日

DeepSeek-R1 Thoughtology: Let's think about LLM Reasoning

Arxiv

0+阅读 · 1月15日

Omni-R1: Towards the Unified Generative Paradigm for Multimodal Reasoning

Arxiv

0+阅读 · 1月14日

GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts

Arxiv

0+阅读 · 1月8日

OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

Arxiv

0+阅读 · 1月6日

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Arxiv

0+阅读 · 1月4日

A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond

Arxiv

0+阅读 · 2025年12月31日

VIP会员

文章信息

相关主题

多模态模型

大型多模态模型

相关VIP内容

多模态空间推理在大模型时代：综述与基准测试

多模态空间推理在大模型时代：综述与基准测试

专知会员服务

14+阅读 · 2025年10月30日

【普林斯顿博士论文】大型模型的高效推理

【普林斯顿博士论文】大型模型的高效推理

专知会员服务

22+阅读 · 2025年8月10日

别想太多：高效 R1 风格大型推理模型综述

别想太多：高效 R1 风格大型推理模型综述

专知会员服务

23+阅读 · 2025年8月5日

感知、推理、思考与规划：大型多模态推理模型综述

感知、推理、思考与规划：大型多模态推理模型综述

专知会员服务

39+阅读 · 2025年5月10日

小型推理模型简要综述：训练、推理、应用与研究方向

小型推理模型简要综述：训练、推理、应用与研究方向

专知会员服务

42+阅读 · 2025年4月16日

大规模推理模型的高效推理：综述

大规模推理模型的高效推理：综述

专知会员服务

21+阅读 · 2025年4月3日

《高效推理的大模型研究综述：语言、多模态与前沿探索》

《高效推理的大模型研究综述：语言、多模态与前沿探索》

专知会员服务

46+阅读 · 2025年3月30日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

【斯坦福博士论文】大模型时代的概率推理，137页pdf

【斯坦福博士论文】大模型时代的概率推理，137页pdf

专知会员服务

70+阅读 · 2024年3月31日

大型语言模型的模型压缩与高效推理：综述

大型语言模型的模型压缩与高效推理：综述

专知会员服务

94+阅读 · 2024年2月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

专知

33+阅读 · 2020年8月24日

通过集成 XNNPACK 实现推理速度飞跃

通过集成 XNNPACK 实现推理速度飞跃

TensorFlow

26+阅读 · 2020年7月30日

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

专知

24+阅读 · 2020年6月11日

【SIGIR2020-清华】知识图谱上的增强推荐推理

【SIGIR2020-清华】知识图谱上的增强推荐推理

专知

15+阅读 · 2020年5月30日

【HEC-Montreal唐建博士】图神经网络推理，附27页ppt

【HEC-Montreal唐建博士】图神经网络推理，附27页ppt

专知

47+阅读 · 2019年10月30日

机器推理系列文章概览：七大NLP任务最新方法与进展

机器推理系列文章概览：七大NLP任务最新方法与进展

AI100

12+阅读 · 2019年9月15日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

相关论文

MentorCollab: Selective Large-to-Small Inference-Time Guidance for Efficient Reasoning

Arxiv

0+阅读 · 2月5日

R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning

Arxiv

0+阅读 · 2月2日

VTC-R1: Vision-Text Compression for Efficient Long-Context Reasoning

Arxiv

0+阅读 · 1月29日

Dynamic Thinking-Token Selection for Efficient Reasoning in Large Reasoning Models

Arxiv

0+阅读 · 1月26日

DeepSeek-R1 Thoughtology: Let's think about LLM Reasoning

Arxiv

0+阅读 · 1月15日

Omni-R1: Towards the Unified Generative Paradigm for Multimodal Reasoning

Arxiv

0+阅读 · 1月14日

GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts

Arxiv

0+阅读 · 1月8日

OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

Arxiv

0+阅读 · 1月6日

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Arxiv

0+阅读 · 1月4日

A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond

Arxiv

0+阅读 · 2025年12月31日

相关基金

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于草图语义部件的三维模型检索技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于草图的几何处理和应用

国家自然科学基金

2+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员