OThink-R1：一种用于缓解过度推理的内在快/慢思维模式切换机制 (OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation) - 专知论文

会员服务 ·

0

推理模型 · 模式切换 · 令牌 · 混合 · 冗余 ·

OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

翻译：OThink-R1：一种用于缓解过度推理的内在快/慢思维模式切换机制

Shengjia Zhang,Junjie Wu,Jiawei Chen,Changwang Zhang,Zhe Li,Xingyu Lou,Wangchunshu Zhou,Sheng Zhou,Can Wang,Jun Wang

from arxiv, Under review

Human cognition operates through two complementary modes: fast intuitive thinking and slow deliberate thinking. Vanilla large language models (LLMs) predominantly follow the fast-thinking paradigm, producing immediate responses; while recent large reasoning models (LRMs) adopt slow-thinking strategies, generating detailed reasoning chains before arriving at answers. While LRMs often achieve higher accuracy, this comes at the cost of substantially increased token usage. To address this efficiency-accuracy trade-off, we propose OThink-R1, a hybrid reasoning framework that integrates both modes within a single LRM and enables automatic mode switching based on problem characteristics. We first identify three major patterns of essential and redundant reasoning trajectories in LRMs, which guide the design of an auxiliary LLM-based judge that adaptively determines when slow thinking is necessary. Leveraging the judge's decisions, we construct a hybrid fine-tuning dataset by pruning redundant reasoning to produce fast-thinking samples and retaining complete reasoning for slow-thinking samples. This dataset is then used to fine-tune LRMs, equipping them with inherent autonomous mode-selection capabilities. Extensive experiments on mathematical and question-answering benchmarks show that OThink-R1 reduces reasoning token usage significantly while maintaining competitive accuracy. The code is available at https://github.com/AgenticIR-Lab/OThink-R1.

翻译：人类认知通过两种互补的模式运作：快速的直觉思维和缓慢的审慎思维。普通的大语言模型主要遵循快思维范式，产生即时响应；而近期的大推理模型则采用慢思维策略，在得出答案前生成详细的推理链。虽然大推理模型通常能获得更高的准确性，但这以显著增加的令牌使用量为代价。为了解决这种效率与准确性的权衡，我们提出了OThink-R1，一种混合推理框架，它将两种模式集成在单一的大推理模型中，并能根据问题特征自动切换模式。我们首先识别了大推理模型中必要与冗余推理轨迹的三种主要模式，这指导了一种基于辅助大语言模型的判断器的设计，该判断器能自适应地决定何时需要慢思维。利用判断器的决策，我们通过剪枝冗余推理以生成快思维样本，并保留完整推理作为慢思维样本，从而构建了一个混合微调数据集。该数据集随后被用于对大推理模型进行微调，使其具备内在的自主模式选择能力。在数学和问答基准上的大量实验表明，OThink-R1在保持竞争力的准确性的同时，显著减少了推理令牌的使用量。代码可在 https://github.com/AgenticIR-Lab/OThink-R1 获取。

0

相关内容

推理模型

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

专知会员服务

17+阅读 · 2025年12月10日

从感知到推理：深度思考赋能多模态大语言模型

从感知到推理：深度思考赋能多模态大语言模型

专知会员服务

24+阅读 · 2025年11月19日

多模态推理的基础、方法与未来前沿

多模态推理的基础、方法与未来前沿

专知会员服务

27+阅读 · 2025年7月6日

【ICML2025】《引入推理于视觉：通过模型融合理解感知与推理》

【ICML2025】《引入推理于视觉：通过模型融合理解感知与推理》

专知会员服务

17+阅读 · 2025年5月12日

大模型慢思考技术探讨

大模型慢思考技术探讨

专知会员服务

35+阅读 · 2025年4月22日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

复杂推理与慢思考

复杂推理与慢思考

专知会员服务

48+阅读 · 2025年3月11日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

模仿、探索与自我提升：慢思考推理系统的复现之路

模仿、探索与自我提升：慢思考推理系统的复现之路

专知会员服务

29+阅读 · 2024年12月14日

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

专知会员服务

30+阅读 · 2024年11月19日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

赛尔笔记 | Attention！注意力机制可解释吗？

赛尔笔记 | Attention！注意力机制可解释吗？

哈工大SCIR

23+阅读 · 2019年9月27日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

面试时让你手推公式不在害怕 | 梯度下降

面试时让你手推公式不在害怕 | 梯度下降

计算机视觉life

14+阅读 · 2019年3月27日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

正则双极值模糊推理的理论与方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

融合认知机理的概率图模型表情识别方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

社会性预期优势效应的神经机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

Asynchronous Reasoning: Training-Free Interactive Thinking LLMs

Arxiv

0+阅读 · 2月4日

R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning

Arxiv

0+阅读 · 2月2日

CtrlCoT: Dual-Granularity Chain-of-Thought Compression for Controllable Reasoning

Arxiv

0+阅读 · 1月28日

DeepSeek-R1 Thoughtology: Let's think about LLM Reasoning

Arxiv

0+阅读 · 1月15日

Omni-R1: Towards the Unified Generative Paradigm for Multimodal Reasoning

Arxiv

0+阅读 · 1月14日

Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge

Arxiv

0+阅读 · 1月13日

ThinkBrake: Mitigating Overthinking in Tool Reasoning

Arxiv

0+阅读 · 1月12日

AtomThink: Multimodal Slow Thinking with Atomic Step Reasoning

Arxiv

0+阅读 · 1月9日

VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice

Arxiv

0+阅读 · 1月8日

SketchThinker-R1: Towards Efficient Sketch-Style Reasoning in Large Multimodal Models

Arxiv

0+阅读 · 1月6日

VIP会员

文章信息

相关主题

相关VIP内容

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

专知会员服务

17+阅读 · 2025年12月10日

从感知到推理：深度思考赋能多模态大语言模型

从感知到推理：深度思考赋能多模态大语言模型

专知会员服务

24+阅读 · 2025年11月19日

多模态推理的基础、方法与未来前沿

多模态推理的基础、方法与未来前沿

专知会员服务

27+阅读 · 2025年7月6日

【ICML2025】《引入推理于视觉：通过模型融合理解感知与推理》

【ICML2025】《引入推理于视觉：通过模型融合理解感知与推理》

专知会员服务

17+阅读 · 2025年5月12日

大模型慢思考技术探讨

大模型慢思考技术探讨

专知会员服务

35+阅读 · 2025年4月22日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

复杂推理与慢思考

复杂推理与慢思考

专知会员服务

48+阅读 · 2025年3月11日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

模仿、探索与自我提升：慢思考推理系统的复现之路

模仿、探索与自我提升：慢思考推理系统的复现之路

专知会员服务

29+阅读 · 2024年12月14日

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

专知会员服务

30+阅读 · 2024年11月19日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

赛尔笔记 | Attention！注意力机制可解释吗？

赛尔笔记 | Attention！注意力机制可解释吗？

哈工大SCIR

23+阅读 · 2019年9月27日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

面试时让你手推公式不在害怕 | 梯度下降

面试时让你手推公式不在害怕 | 梯度下降

计算机视觉life

14+阅读 · 2019年3月27日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

相关论文

Asynchronous Reasoning: Training-Free Interactive Thinking LLMs

Arxiv

0+阅读 · 2月4日

R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning

Arxiv

0+阅读 · 2月2日

CtrlCoT: Dual-Granularity Chain-of-Thought Compression for Controllable Reasoning

Arxiv

0+阅读 · 1月28日

DeepSeek-R1 Thoughtology: Let's think about LLM Reasoning

Arxiv

0+阅读 · 1月15日

Omni-R1: Towards the Unified Generative Paradigm for Multimodal Reasoning

Arxiv

0+阅读 · 1月14日

Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge

Arxiv

0+阅读 · 1月13日

ThinkBrake: Mitigating Overthinking in Tool Reasoning

Arxiv

0+阅读 · 1月12日

AtomThink: Multimodal Slow Thinking with Atomic Step Reasoning

Arxiv

0+阅读 · 1月9日

VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice

Arxiv

0+阅读 · 1月8日

SketchThinker-R1: Towards Efficient Sketch-Style Reasoning in Large Multimodal Models

Arxiv

0+阅读 · 1月6日

相关基金

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

正则双极值模糊推理的理论与方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

融合认知机理的概率图模型表情识别方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

社会性预期优势效应的神经机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员