Short Chains, Deep Thoughts: Balancing Reasoning Efficiency and Intra-Segment Capability via Split-Merge Optimization - 专知论文

会员服务 ·

0

结构 · 冗余 · IM · 一致 · 令牌 ·

Short Chains, Deep Thoughts: Balancing Reasoning Efficiency and Intra-Segment Capability via Split-Merge Optimization

翻译：短链深思：基于分裂-合并优化的推理效率与段内能力权衡

Runquan Gui,Jie Wang,Zhihai Wang,Chi Ma,Jianye Hao,Feng Wu

from arxiv, camera ready version upload

While Large Reasoning Models (LRMs) have demonstrated impressive capabilities in solving complex tasks through the generation of long reasoning chains, this reliance on verbose generation results in significant latency and computational overhead. To address these challenges, we propose \textbf{CoSMo} (\textbf{Co}nsistency-Guided \textbf{S}plit-\textbf{M}erge \textbf{O}ptimization), a framework designed to eliminate structural redundancy rather than indiscriminately restricting token volume. Specifically, CoSMo utilizes a split-merge algorithm that dynamically refines reasoning chains by merging redundant segments and splitting logical gaps to ensure coherence. We then employ structure-aligned reinforcement learning with a novel segment-level budget to supervise the model in maintaining efficient reasoning structures throughout training. Extensive experiments across multiple benchmarks and backbones demonstrate that CoSMo achieves superior performance, improving accuracy by \textbf{3.3} points while reducing segment usage by \textbf{28.7\%} on average compared to reasoning efficiency baselines.

翻译：尽管大型推理模型通过生成长推理链在解决复杂任务方面展现出令人瞩目的能力，但这种依赖冗长生成本身却导致显著的延迟和计算开销。为应对这些挑战，我们提出\textbf{CoSMo}（\textbf{Co}nsistency-Guided \textbf{S}plit-\textbf{M}erge \textbf{O}ptimization，一致性引导分裂-合并优化）框架，旨在消除结构冗余而非无差别地限制令牌数量。具体而言，CoSMo采用分裂-合并算法，通过合并冗余段和分裂逻辑缺口来动态优化推理链，确保连贯性。随后，我们采用结构对齐的强化学习，结合新颖的段级预算机制，在整个训练过程中监督模型维持高效推理结构。在多个基准测试和骨干网络上的大量实验表明，CoSMo实现了卓越性能：与推理效率基线相比，平均准确率提升\textbf{3.3}个点，同时段使用量减少\textbf{28.7\%}。

0

相关内容

【ICML2026】面向长上下文大语言模型的训练-推理一致性分段执行

【ICML2026】面向长上下文大语言模型的训练-推理一致性分段执行

专知会员服务

9+阅读 · 5月14日

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

专知会员服务

7+阅读 · 5月12日

【ICLR2026】缩放推理步数暴露短板：揭示并提升大语言模型中的步数泛化能力

【ICLR2026】缩放推理步数暴露短板：揭示并提升大语言模型中的步数泛化能力

专知会员服务

10+阅读 · 2月1日

【博士论文】《通过提前退出算法加速大语言模型推理》

【博士论文】《通过提前退出算法加速大语言模型推理》

专知会员服务

13+阅读 · 2025年9月9日

超越语言的推理：潜在思维链推理的综合综述

超越语言的推理：潜在思维链推理的综合综述

专知会员服务

22+阅读 · 2025年5月23日

小型推理模型简要综述：训练、推理、应用与研究方向

小型推理模型简要综述：训练、推理、应用与研究方向

专知会员服务

42+阅读 · 2025年4月16日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

《高效推理的大模型研究综述：语言、多模态与前沿探索》

《高效推理的大模型研究综述：语言、多模态与前沿探索》

专知会员服务

46+阅读 · 2025年3月30日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

【伯克利博士论文】高效深度学习推理的全栈方法

【伯克利博士论文】高效深度学习推理的全栈方法

专知会员服务

33+阅读 · 2024年12月22日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

【论文推荐】最新十篇推荐系统相关论文—内容感知、图卷积神经网络、博弈论、个性化排序、元学习、xDeepFM

【论文推荐】最新十篇推荐系统相关论文—内容感知、图卷积神经网络、博弈论、个性化排序、元学习、xDeepFM

专知

21+阅读 · 2018年6月18日

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

专知

15+阅读 · 2018年6月15日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

5+阅读 · 2015年12月31日

云计算平台中大规模交互式服务长尾延迟消减关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于聚合的社会化短文本信息处理与细粒度倾向性分析

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

逻辑错误屏蔽的近似电路逻辑综合多目标优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

Latent Thought Flow: Efficient Latent Reasoning in Large Language Models

Arxiv

0+阅读 · 6月15日

Learning When to Sample: Confidence-Aware Selective Sampling for Efficient Chain-of-Thought Reasoning

Arxiv

0+阅读 · 6月12日

Fractured Chain-of-Thought Reasoning

Arxiv

0+阅读 · 6月12日

Towards Efficient Large Language Reasoning Models via Extreme-Ratio Chain-of-Thought Compression

Arxiv

0+阅读 · 6月12日

SuperThoughts: Reasoning Tokens in Superposition

Arxiv

0+阅读 · 6月11日

Agentic Chain-of-Thought Steering for Efficient and Controllable LLM Reasoning

Arxiv

0+阅读 · 6月2日

LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards

Arxiv

0+阅读 · 5月29日

Symbolic-Neural Soft-Logic Reasoning: Towards Robust and Verifiable Thinking Chains via Cooperative Evolution

Arxiv

0+阅读 · 5月25日

Early Stopping Chain-of-thoughts in Large Language Models

Arxiv

0+阅读 · 5月18日

AB-Sparse: Sparse Attention with Adaptive Block Size for Accurate and Efficient Long-Context Inference

Arxiv

0+阅读 · 5月12日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

1+阅读 · 今天14:40

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

1+阅读 · 今天14:36

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

7+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

5+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

3+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

5+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

5+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

7+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

6+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

4+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

【ICML2026】面向长上下文大语言模型的训练-推理一致性分段执行

【ICML2026】面向长上下文大语言模型的训练-推理一致性分段执行

专知会员服务

9+阅读 · 5月14日

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

专知会员服务

7+阅读 · 5月12日

【ICLR2026】缩放推理步数暴露短板：揭示并提升大语言模型中的步数泛化能力

【ICLR2026】缩放推理步数暴露短板：揭示并提升大语言模型中的步数泛化能力

专知会员服务

10+阅读 · 2月1日

【博士论文】《通过提前退出算法加速大语言模型推理》

【博士论文】《通过提前退出算法加速大语言模型推理》

专知会员服务

13+阅读 · 2025年9月9日

超越语言的推理：潜在思维链推理的综合综述

超越语言的推理：潜在思维链推理的综合综述

专知会员服务

22+阅读 · 2025年5月23日

小型推理模型简要综述：训练、推理、应用与研究方向

小型推理模型简要综述：训练、推理、应用与研究方向

专知会员服务

42+阅读 · 2025年4月16日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

《高效推理的大模型研究综述：语言、多模态与前沿探索》

《高效推理的大模型研究综述：语言、多模态与前沿探索》

专知会员服务

46+阅读 · 2025年3月30日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

【伯克利博士论文】高效深度学习推理的全栈方法

【伯克利博士论文】高效深度学习推理的全栈方法

专知会员服务

33+阅读 · 2024年12月22日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

【论文推荐】最新十篇推荐系统相关论文—内容感知、图卷积神经网络、博弈论、个性化排序、元学习、xDeepFM

【论文推荐】最新十篇推荐系统相关论文—内容感知、图卷积神经网络、博弈论、个性化排序、元学习、xDeepFM

专知

21+阅读 · 2018年6月18日

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

专知

15+阅读 · 2018年6月15日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

Latent Thought Flow: Efficient Latent Reasoning in Large Language Models

Arxiv

0+阅读 · 6月15日

Learning When to Sample: Confidence-Aware Selective Sampling for Efficient Chain-of-Thought Reasoning

Arxiv

0+阅读 · 6月12日

Fractured Chain-of-Thought Reasoning

Arxiv

0+阅读 · 6月12日

Towards Efficient Large Language Reasoning Models via Extreme-Ratio Chain-of-Thought Compression

Arxiv

0+阅读 · 6月12日

SuperThoughts: Reasoning Tokens in Superposition

Arxiv

0+阅读 · 6月11日

Agentic Chain-of-Thought Steering for Efficient and Controllable LLM Reasoning

Arxiv

0+阅读 · 6月2日

LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards

Arxiv

0+阅读 · 5月29日

Symbolic-Neural Soft-Logic Reasoning: Towards Robust and Verifiable Thinking Chains via Cooperative Evolution

Arxiv

0+阅读 · 5月25日

Early Stopping Chain-of-thoughts in Large Language Models

Arxiv

0+阅读 · 5月18日

AB-Sparse: Sparse Attention with Adaptive Block Size for Accurate and Efficient Long-Context Inference

Arxiv

0+阅读 · 5月12日

相关基金

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

5+阅读 · 2015年12月31日

云计算平台中大规模交互式服务长尾延迟消减关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于聚合的社会化短文本信息处理与细粒度倾向性分析

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

逻辑错误屏蔽的近似电路逻辑综合多目标优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员